À mesure que les entreprises développent leurs efforts en matière d'intelligence artificielle (IA), elles doivent répondre à des questions cruciales, souvent complexes. L'IA est-elle utilisée de façon responsable ? Les résultats de l'IA peuvent-ils être expliqués ? Les données étant à la base de tous les processus d'IA, cette série d'articles de blog examine les questions importantes relatives à l'IA du point de vue des données, de leur gestion et de leur gouvernance. Ce deuxième article s'intéresse à l'IA explicable. Le dernier de la série portera sur l'apprentissage fédéré.
Le premier article de cette série examinait quatre principes pour une IA responsable et éthique : l'équité, la confidentialité, la sécurité et l'interprétabilité (aussi appelée explicabilité). Les modèles d'IA sont désormais intégrés à tous les aspects de notre vie, ce qui affecte des décisions importantes, telles que l'embauche d'un nouvel employé ou l'octroi d'un prêt. L'intelligence artificielle explicable (XAI) est devenue cruciale pour comprendre comment un modèle d'IA prend des décisions et identifier les sources d'erreur.
Dans cet article, vous découvrirez l'importance de l'IA explicable, les défis qui y sont associés et le rôle crucial que joue la donnée.
Tout d'abord, il est important de comprendre ce qu'est l'IA explicable et pourquoi elle est nécessaire. Les algorithmes d'IA fonctionnent souvent comme des « boîtes noires » qui reçoivent des données et fournissent des résultats sans que l'on parvienne à comprendre leur fonctionnement interne. L'objectif de la XAI est de rendre compréhensible à l'homme le raisonnement qui sous-tend les résultats d'un algorithme.
Par exemple, de nombreux algorithmes d'IA utilisent le deep learning, dans lequel les algorithmes apprennent à identifier des modèles sur la base de quantités massives de données d'entraînement. Le deep learning est basé sur un réseau neuronal qui imite la façon dont notre cerveau est câblé. Tout comme pour la pensée humaine, il est difficile, voire impossible, de déterminer comment un algorithme de deep learning parvient à une prédiction ou à une décision.
Les décisions concernant les cas d'utilisation des services financiers et de recrutement, tels que les cotes de crédit et les approbations de prêts, sont importantes et méritent d'être expliquées. Cependant, personne n'est susceptible de subir un préjudice physique (du moins pas immédiatement) si l'un de ces algorithmes fait une mauvaise recommandation. Mais il existe de nombreux exemples où les conséquences sont beaucoup plus graves.
Les algorithmes de deep learning gagnent de l'importance dans le domaine de la santé, notamment pour le dépistage du cancer, où il est important pour les médecins de comprendre les bases du diagnostic d'un algorithme. Un faux négatif pourrait empêcher un patient de recevoir le traitement qui lui sauverait la vie. Un faux positif, en revanche, pourrait conduire un patient à recevoir un traitement coûteux et invasif totalement inutile. Un certain niveau d'explicabilité est essentiel pour les radiologues et les oncologues qui cherchent à exploiter tout le potentiel des avantages croissants de l'IA.
Pour tenter de mieux définir ce qui constitue la XAI, l'Institut américain des normes et de la technologie (NIST), qui fait partie du ministère américain du Commerce, définit quatre principes de l'intelligence artificielle explicable :
Voici quelques exemples d'application de ces principes.
Explication
Le NIST définit cinq types d'explication :
Pertinence
Le principe de pertinence est respecté lorsque l'utilisateur comprend l'explication fournie. Pour un algorithme d'IA donné, différents types d'utilisateurs peuvent avoir besoin d'explications. Dans l'exemple de la voiture autonome, une explication qui satisfait le conducteur, comme « l'IA a classé le sac en plastique sur la route comme un rocher, et donc pris des mesures pour éviter de le heurter », ne répond pas aux besoins du développeur qui tente de corriger le problème. Le développeur doit comprendre pourquoi le sac en plastique a été mal classé.
Précision des explications
La précision des explications est distincte de la précision des résultats. Un algorithme d'IA doit expliquer avec précision comment il est parvenu à son résultat. Si un algorithme d'approbation de prêt explique une décision en fonction des revenus et de l'endettement du demandeur alors que la décision est en réalité fondée sur le code postal du demandeur, l’explication est inexacte.
Limites des connaissances
Un système d'IA peut atteindre ses limites de connaissances de deux manières. Les données introduites peuvent ne pas relever de l'expertise du système. Le NIST prend l'exemple d'un système conçu pour classer les espèces d'oiseaux. Si vous lui donnez l'image d'une pomme, le système doit vous expliquer qu'il ne s'agit pas d'un oiseau. Par ailleurs, si vous lui donnez une image floue, il doit signaler qu'il ne peut pas identifier l'oiseau dans l'image ou que son identification est très peu fiable.
Ces principes aident à définir les résultats attendus de la XAI, mais ils n'offrent aucune orientation sur la manière d'atteindre ces résultats. Il peut être utile de subdiviser la XAI en trois catégories :
Pour les réseaux neuronaux en particulier, les données explicables sont la seule catégorie facile à atteindre, du moins en principe. De nombreuses recherches en cours portent sur la façon d'obtenir des prédictions et des algorithmes explicables. Il existe actuellement deux approches de l'explicabilité :
Les modèles explicables sont parfois appelés modèles de type « boîte blanche ». Comme indiqué dans un blog récent, « avec l'IA explicable de type boîte blanche, l'utilisateur comprend le raisonnement qui sous-tend ses décisions, ce qui la rend de plus en plus populaire auprès des entreprises. Ces modèles ne sont pas aussi impressionnants sur le plan technique que les algorithmes de type boîte noire. » Les techniques explicables comprennent les arbres décisionnels, les réseaux bayésiens, les modèles linéaires clairsemés, etc.
Les chercheurs recherchent également des moyens de rendre les modèles de type boîte noire plus explicables, par exemple en incorporant des graphiques de connaissances et d'autres techniques liées aux graphiques.
Les données explicables constituent la catégorie la plus accessible de la XAI. Cependant, au vu des montagnes de données qui peuvent être utilisées pour entraîner un algorithme d'IA, l'« accessible » n'est pas aussi simple qu'il en a l'air. L'algorithme de langage naturel GPT-3 en est un exemple extrême. Bien que le modèle soit capable d'imiter le langage humain, il a aussi assimilé un grand nombre de contenus toxiques provenant d'Internet au cours de l'entraînement.
Comme le remarque Google, un « système d'IA est mieux compris par les données d'entraînement sous-jacentes et le processus d'entraînement, de même que le modèle d'IA qui en résulte ». Pour ce faire, vous devez être en mesure de faire correspondre un modèle d'IA entraîné avec le dataset exact utilisé pour l'entraîner et examiner ces données de près, même si une version d'un modèle n'a pas été entraînée depuis des années.
L'une des façons les plus simples d'améliorer l'explicabilité d'un modèle est d'accorder une attention particulière aux données utilisées pour l'entraîner. Au cours de la phase de conception, les équipes doivent déterminer d'où proviendront les données utilisées pour entraîner l'algorithme, si ces données, à supposer qu'elles existent, ont été obtenues de manière légale et éthique, si elles contiennent des préjugés et ce qu'il est possible de faire pour atténuer ces biais. Il s'agit d'un travail considérable qu'il ne faut pas sous-estimer. 67 % des entreprises exploitent plus de 20 sources de données pour leur IA.
Il est également important d'exclure soigneusement les données non pertinentes ou qui ne seraient pas pertinentes pour le résultat. Plus haut, j'ai évoqué la possibilité qu’un algorithme d’approbation de prêt puisse fonder ses décisions en grande partie sur le code postal du demandeur. La meilleure façon de s'assurer que les résultats d'un algorithme ne sont pas basés sur un facteur non pertinent, comme un code postal qui sert souvent à indiquer la localité, consiste à ne pas inclure ces données dans le dataset d'entraînement ou dans les données d'entrée.
Les données explicables étant essentielles à la XAI, votre entreprise doit mettre en œuvre de bonnes pratiques en matière de gestion et de gouvernance des données. Ces bonnes pratiques comprennent la traçabilité complète des datasets utilisés pour entraîner chaque version de chaque modèle d'IA que vous exploitez.
Chez NetApp, notre spécialité est d'aider les entreprises à exploiter leurs données de façon optimale. Nous vous aidons à gérer vos données partout, sur site et dans le cloud. Ainsi, nous assurons l'accessibilité, la protection et l'optimisation du coût des données en continu.
Les experts en IA de NetApp® peuvent vous aider à créer une Data Fabric (un environnement de gestion unifiée des données englobant les appareils en périphérie, les data centers et les clouds publics), afin que vos données d'IA puissent être efficacement ingérées, collectées, stockées et protégées.
Les solutions d'IA de NetApp vous procurent les outils dont vous avez besoin pour développer vos efforts en matière d'IA.
En adoptant la solution NetApp AI Control Plane et le kit NetApp DataOps, votre équipe pourra gérer les données de manière efficace et sécurisée, tout en assurant la traçabilité et la reproductibilité qui constituent un fondement essentiel des données explicables.
Pour découvrir comment NetApp peut vous aider à mettre en place la gestion et la gouvernance des données indispensables à l'IA explicable, rendez-vous sur netapp.com/fr/artificial-intelligence/.
Mike McNamara, responsable du marketing produit et solution chez NetApp, a plus de 25 ans d'expérience dans le domaine du marketing de la gestion des données et du stockage dans le cloud. Avant de rejoindre NetApp il y a plus de 10 ans, il a travaillé pour Adaptec, Dell EMC et HPE. Mike McNamara a été l'un des principaux responsables d'équipe chargé du lancement d'une offre de stockage cloud propriétaire et de la première solution d'IA/ML connectée au cloud (NetApp), du système et des logiciels unifiés de stockage de cloud hybride et scale-out (NetApp), du système et des logiciels de stockage iSCSI et SAS (Adaptec), et du système de stockage Fibre Channel (EMC CLARiiON).
Ancien président marketing de la Fibre Channel Industry Association (FCIA), il est membre de l'Ethernet Technology Summit Conference Advisory Board et de l'Ethernet Alliance. Il intervient fréquemment lors d'événements ou dans des revues professionnelles. Mike McNamara a également publié un livre intitulé « Scale-Out Storage - The Next Frontier in Enterprise Data Management », et Kapos l'a classé parmi les 50 spécialistes du marketing de produits B2B les plus prometteurs.