Michel Savard, chef de pratique en science des données au CRIM (Photo: courtoisie)
INTELLIGENCE ARTIFICIELLE. Selon l’Enquête sur le marketing numérique 2023 de Varibase, 55 % des entreprises québécoises auraient déjà entre leur main une plateforme de gestion de données pour structurer leur information en interne. Toutefois, leur degré de maturité en matière de valorisation des données demeure très bas, avec un score de 3,2 sur 10. Nous avons abordé la question de la « qualité des données » avec des experts du Centre de recherche informatique de Montréal (CRIM).
Lorsqu’une entreprise se tourne vers le CRIM pour obtenir de l’accompagnement dans un projet d’intelligence artificielle, un des premiers écueils qui survient pour une entreprise est une mauvaise compréhension des données qu’elle possède ou croit posséder. « Par le passé, nous avons vu des projets être approuvés par des financeurs sans bagage technique, annonce Mathieu Barreau, directeur des partenariats au CRIM. Plusieurs de ces projets n’ont pu se faire, faute de données. » En fait, le problème est si fréquent que l’organisme a créé un outil préalable pour « dérisquer » les projets d’IA en PME avec le programme Numeria.
« En science des données, la notion de qualité ne doit pas être confondue avec celle de volume », annonce Michel Savard, chef de pratique en science des données au CRIM. Il cite l’exemple d’une PME québécoise qui développe des solutions technologiques pour gérer des multilogements. L’entreprise a demandé au CRIM de l’aider à créer un outil de détection des risques ou des défaillances (ex : un sinistre). « L’entreprise avait beau posséder 50 mille points de données captés dans chacun de ses logements intelligents [ex : température, humidité, etc.], elle n’avait malheureusement enregistré qu’une dizaine d’événements ou défaillances qu’elle voulait détecter. »
Pour calibrer un modèle prédictif, on doit d’abord fournir à l’algorithme d’apprentissage un certain nombre d’exemples ou d’événements sur lesquels s’entraîner. « Si l’échantillon n’est pas suffisant, ça peut freiner un projet », prévient Michel Savard. En fin de compte, l’entreprise a dû redéfinir son problème d’affaires, optant plutôt pour un système d’ordonnance pour aider ses opérateurs à prioriser les travaux.
Ensuite, des données dénuées de contexte peuvent rapidement montrer leur limite. « Un restaurateur voulant bâtir un système de recommandations de plats est venu nous voir avec un historique de huit ans de commandes, raconte le chef de pratique. Or, les commandes n’étaient pas associées à des clients uniques. Il était alors impossible de générer des recommandations personnalisées en fonction d’un profil d’usager. » La qualité des données n’était alors pas en cause, précise-t-il. C’était plutôt un problème de « gouvernance », ou de manière dont les données ont été structurées au départ.
En quête de la « vérité terrain »
Avant de jeter le bébé (les données) avec l’eau du bain, mentionnons qu’il est possible, selon le contexte, de requalifier une partie de ses données. « Souvent, l’entreprise possède l’information dont elle a besoin, sauf qu’elle ne l’a pas enregistrée, explique Michel Savard. Elle se trouve dans la tête des employés d’expérience. Il faut alors aller chercher ce qu’on appelle la “vérité terrain”. »
Pour illustrer son propos, le chef de pratique mentionne un mandat du CRIM auprès d’un manufacturier québécois. L’entreprise voulait automatiser une partie du travail des coordonnatrices qui dirigent les trains dans ses centres de tri et de dépôt. Le manufacturier possédait quatre ans d’historique sur les heures de départ, d’arrivée et les temps d’arrêt de tous ses trains, mais aucune information sur les tâches qui ont été effectuées pour coordonner le tout.
« Dans ce genre de situation, nous devons faire une campagne d’annotation requérant la participation d’un expert métier. » Pendant quelques mois, les coordonnatrices ont dû « cocher » — en temps réel, durant leur journée de travail, dans un menu de tâches à l’écran de son ordinateur — les actions engagées ayant pour effet de lancer, stopper ou rediriger un train.
« Dans un autre secteur d’activités, ça peut impliquer la participation d’un médecin qui regarde des imageries médicales, ou encore, d’un chimiste qui regarde la réaction d’un composé d’huiles essentielles, illustre le chef de pratique. Généralement, une campagne d’annotation implique de payer des gens pour s’asseoir pendant des heures et nous donner des diagnostics précis. »
Michel Savard le reconnaît d’emblée : cette opération peut représenter un investissement considérable pour une entreprise. Il ajoute, dans le même souffle, que la valeur d’un projet d’IA réside inévitablement dans la qualité des données qui y sont associées. « La plupart des algorithmes sont aujourd’hui libres d’accès. Ce qui est propre à une entreprise, ce sont ses données. C’est là que se trouve son retour sur l’investissement ».