L’IA dans les environnements de collaboration: une arme à double tranchant
Martin Berthiaume|Mis à jour le 09 septembre 2024Le laxisme dans la gestion des accès discrétionnaires peut être exploité à grande échelle. (Photo: 123RF)
EXPERT INVITÉ. Les problèmes de cybersécurité se complexifient, encore.
L’engouement pour l’IA est super fort. Ces super assistants peuvent produire des rapports, des résumés exécutifs, vous faire des propositions et même vous suggérer des stratégies pour votre entreprise. On peut dire que l’avènement de l’intelligence artificielle générative va transformer la façon dont les entreprises créent et utilisent l’information. Cependant, cette révolution technologique apporte également une exposition accrue à plusieurs risques induits par cette technologie. La complexité des problèmes à résoudre pour les spécialistes en cybersécurité et les gestionnaires de risques vient d’augmenter.
Explosion du volume d’information non structurée
L’utilisation de l’IA générative, comme Microsoft Copilot dans les environnements de collaboration, conduit à une augmentation rapide du volume de données non structurées. Actuellement, environ 90% des données générées sont non structurées (textes, vidéos, images, etc.), et cette proportion augmente encore avec les capacités de création de contenu offertes par l’IA générative. Cette prolifération est liée à la production constante de nouveaux contenus, tels que des rapports, des documents, ou des conversations en temps réel, générés automatiquement.
Les experts estiment que ce volume de données non structurées pourrait croître de 28% par an, doublant tous les deux à trois ans dans certains secteurs. Cela crée des défis pour la gestion des données, notamment pour leur stockage, leur sécurité, et leur exploitation efficace dans des systèmes d’analyse avancés.
Les entreprises doivent activer des stratégies robustes pour gérer ces volumes croissants de données potentiellement sensibles, des solutions de cybersécurité adaptées à cette réalité doivent être rapidement mises en place pour assurer une utilisation optimale et éviter les incidents de cybersécurité et de confidentialité couteux.
Quelques définitions
Avant d’expliquer plus en détail les risques à surveiller lors de l’implantation d’une solution comme Copilot de Microsoft ou Gemini de Google, examinons la définition de quelques concepts importants en intelligence artificielle.
Un modèle en intelligence artificielle est une structure mathématique qui permet de réaliser des prédictions ou de générer du contenu en se basant sur des données d’entrée. Dans le cas des LLM (Grand Modèle de Langage), comme ChatGPT, le modèle est un réseau de neurones conçu pour comprendre et générer du texte de manière cohérente. Le modèle est entraîné sur d’énormes quantités de texte afin d’apprendre les relations entre les mots et les phrases.
Les paramètres sont les variables internes du modèle qui sont ajustées lors de l’entraînement (ou l’apprentissage) pour optimiser les prédictions. Les LLM ont des milliards de paramètres qui déterminent comment le modèle interprète une entrée textuelle et génère une sortie. Les paramètres sont ajustés pendant l’entraînement du modèle pour minimiser l’erreur de prédiction par rapport aux données d’entraînement.
L’entrainement fait référence au processus par lequel un modèle ajuste ses paramètres en réponse aux données d’entraînement pour améliorer ses prédictions. Dans le cadre des LLM, le modèle est exposé à des exemples et apprend à faire des prédictions plus précises en fonction des erreurs qu’il commet (grâce à des méthodes comme le gradient descend). Ce processus d’apprentissage se déroule généralement sur de puissantes infrastructures de calcul.
Un exemple concret
Imaginons un projet de fusion ou d’acquisition où une équipe doit produire un rapport incluant des éléments de propriété intellectuelle, des renseignements personnels sensibles et des informations financières critiques.
Aujourd’hui, avec l’aide de l’IA, l’équipe peut automatiser une grande partie des tâches. Par exemple, Copilote peut générer automatiquement des transcriptions de réunions, synthétiser les points clés, et intégrer ces informations directement dans le rapport. L’IA peut également analyser des ensembles de données complexes, proposer des tableaux pertinents, et même rédiger des résumés et des recommandations basés sur les informations sensibles et les objectifs stratégiques du projet.
Quand un utilisateur questionne Copilot, avant de questionner le modèle (LLM), la commande, est enrichi d’information relative au contexte de l’utilisateur. Ce processus de prétraitement est nommé le «grounding». Il permet d’ancrer les réponses du modèle dans les données spécifiques à l’organisation. Avant de générer une réponse, l’IA effectue une recherche contextuelle dans les documents, courriels, et autres ressources auxquels l’utilisateur a accès. Cela permet à l’IA de comprendre la question dans un contexte précis et de fournir des réponses pertinentes basées sur des informations internes à l’entreprise, plutôt que des réponses génériques. Cette phase garantit que les résultats sont liés aux réalités de l’organisation. Cette phase permet d’injecter, de façon invisible, des informations spécifiques à votre entreprise dans l’invite ou le «prompt» du système, informations qui pourraient être restituées à l’utilisateur par la suite.
Après que l’IA a généré une réponse initiale, la phase de «post-traitement» affine la sortie pour la rendre plus claire, plus concise, et formatée en fonction des besoins de l’utilisateur. Le post-traitement, filtre les informations sensibles (si bien configuré), ajuste le ton et la langue pour correspondre au style professionnel.
Des risques à gérer
Il est de plus en plus difficile pour les équipes de sécurité de gérer les accès discrétionnaires, c’est-à-dire les accès octroyés par un individu parce qu’il partage un document ou donne accès à une équipe MS-TEAMS à un collègue ou à un partenaire d’affaires. Cette difficulté est exacerbée par l’IA, qui facilite la création, le partage, et l’accès à l’information d’une manière qui dépasse les capacités de gestion traditionnelle des accès. Les impacts des accès gérés avec laxisme seront encore plus grands parce que dans le prétraitement, l’IA pourra accéder à toute l’Information que l’utilisateur pourrait potentiellement accéder dans son environnement. Cependant, l’IA sera beaucoup plus efficace pour trouver les documents qui pourraient avoir un lien avec le contexte de la recherche. On peut donc en déduire que l’exfiltration de données sensibles par des sujets malveillants sera encore plus simple à exécuter. Voici un tableau qui liste d’autres situations potentiellement problématiques.
La répercussion des législations sur la cybersécurité
En parallèle, les législations récentes telles que la Loi 25 au Québec, ainsi que les projets de loi C-26 et C-27 au Canada, imposent des exigences strictes en matière de protection des données. Ces lois renforcent la nécessité d’encadrer la gestion des informations non
structurées pour se conformer aux normes de sécurité et éviter des sanctions sévères. L’encadrement de l’information non structurée n’est plus seulement une bonne pratique, c’est une obligation légale qui doit être prise au sérieux par tous les dirigeants d’entreprise. La capacité des LLM d’utiliser les informations accessibles pour fournir une réponse contextualisée augmente significativement le risque de divulgation d’information.
L’urgence de l’action
Le laxisme dans la gestion des accès discrétionnaires peut être exploité à grande échelle, en particulier avec l’essor des agents d’IA tels que Copilot. Ces outils d’IA peuvent rapidement identifier et accéder à des documents disponibles au sein de l’organisation, augmentant ainsi les risques de fuites d’informations sensibles. Dans ce contexte, il devient impératif de mettre en place des mécanismes robustes de cybersécurité pour gérer les accès et protéger les informations non structurées.
La gestion des accès ne doit plus être laissée au hasard ou traitée de manière ad hoc. Au contraire, elle doit être systématisée, automatisée et intégrée dans une stratégie globale de cybersécurité.
Déboires coûteux
Pour les décideurs, il est crucial de saisir la dualité entre l’occasion que représente l’IA et les risques qu’elle engendre. D’une part, l’IA générative offre une chance unique d’améliorer la compétitivité en automatisant les tâches, en accélérant la création de contenu et en optimisant la collaboration. D’autre part, cette même technologie accroît les vulnérabilités, notamment en matière de cybersécurité des informations non structurées. Ignorer ces risques peut conduire à des déboires coûteux, tant sur le plan financier que réglementaire. Il est donc impératif d’adopter une approche proactive et rigoureuse pour gérer les accès et protéger les données sensibles, tout en exploitant les capacités de l’IA pour rester compétitif. Trouver cet équilibre entre innovation et protection est la clé pour garantir une résilience à long terme.