Reconnaître les biais dans l’intelligence artificielle

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Décrire le rôle des données dans le développement d’un système d’IA
Comprendre la différence entre ce qui est éthique et ce qui est légal
Identifier les types de biais pouvant entrer dans un système d’IA
Trouver les points d’entrée des biais dans un système d’IA

Coup de projecteur sur l’intelligence artificielle

L’intelligence artificielle peut accroître l’intelligence humaine, amplifier les capacités humaines et fournir des informations exploitables qui permettent à nos employés, nos clients, nos partenaires et nos communautés d’obtenir de meilleurs résultats.

Nous sommes convaincus que les avantages de l’IA doivent être accessibles à tous, et pas seulement aux créateurs. Il ne suffit pas d’apporter la capacité technologique de l’IA. Nous avons également l’importante responsabilité de veiller à ce que tous nos clients puissent utiliser notre IA de manière sûre et inclusive. Nous prenons cette responsabilité au sérieux et nous nous engageons à fournir à nos employés, nos clients, nos partenaires et notre communauté les outils dont ils ont besoin pour développer et utiliser l’IA de manière sûre, précise et éthique.

Comme l’indiquent les contenus du badge Principes fondamentaux de l’intelligence artificielle, « IA » est un terme générique qui désigne les initiatives visant à apprendre aux ordinateurs à effectuer des tâches complexes et à se comporter de manière à donner l’impression qu’ils agissent comme des êtres humains. Le processus d’entraînement visant à l’obtention de tels résultats implique souvent l’utilisation de grandes quantités de données, ce qui permet à l’ordinateur d’y déceler des schémas. Ces schémas forment un modèle qui représente un système complexe, à l’instar de la manière dont on pourrait créer une représentation de notre système solaire. Le fait de disposer d’un bon modèle permet d’effectuer des prédictions de qualité (comme prévoir la date de la prochaine éclipse solaire) ou de générer du contenu (comme écrire un poème à la manière d’un pirate).

Nous ne savons pas toujours pourquoi un modèle réalise une prédiction spécifique ou génère du contenu d’une certaine façon. Frank Pasquale, auteur de Black Box Society, désigne ce manque de transparence par le terme « phénomène de la boîte noire ». Alors que les entreprises qui créent l’intelligence artificielle peuvent expliquer les processus sur lesquels reposent leurs systèmes, il leur est plus difficile de déterminer ce qui se passe en temps réel et dans quel ordre, y compris les biais pouvant être présents dans le modèle. L’intelligence artificielle pose des défis uniques en matière de partialité et de prise de décisions équitables.

Différences entre l’éthique et la loi

Chaque société dispose de lois que les citoyens doivent respecter. Parfois, cependant, vous devez voir plus loin que la loi pour développer une technologie éthique. Par exemple, le droit fédéral américain protège certaines caractéristiques que vous ne pouvez généralement pas utiliser dans les décisions en matière d’embauche, de promotion, de logement, de prêt ou de soins de santé. On parle de catégories protégées. Il s’agit des caractéristiques suivantes : le sexe, l’origine ethnique, l’âge, le handicap, la couleur, l’origine nationale, la religion ou les principes, et les informations génétiques. Si vos modèles d’IA utilisent ces caractéristiques, vous enfreignez peut-être la loi. Si votre modèle d’IA prend une décision dans une région où il est légal de s’appuyer sur ces caractéristiques, il n’est peut-être pas éthique d’autoriser ce type de biais. Les questions associées aux catégories protégées peuvent également relever du domaine de la vie privée et de la légalité. Nous vous recommandons donc de réaliser notre parcours sur le RGPD pour en savoir plus. Enfin, il est également important de connaître les utilisations autorisées et non autorisées des produits Einstein conformément à notre Politique d’utilisation acceptable.

La bonne nouvelle, c’est que l’intelligence artificielle constitue une opportunité de traiter systématiquement les biais. Si vous aviez constaté par le passé que le processus décisionnel de votre entreprise entraînait un résultat biaisé à la suite de décisions individuelles, il était difficile de redéfinir l’ensemble du processus pour dépasser ce biais intrinsèque. Maintenant, avec les systèmes d’IA, nous avons la possibilité d’intégrer l’équité dans la conception et d’améliorer les pratiques existantes.

Outre l’examen attentif des implications juridiques et éthiques de vos modèles d’IA, vous devez évaluer si votre modèle est conforme à la responsabilité de votre entreprise en matière de respect et de promotion des droits humains. Vous devez tenir compte des lois internationales sur les droits humains et des responsabilités que l’ONU a définies pour que les entreprises respectent les droits de l’Homme. Ces principes incluent un processus de diligence raisonnable pour évaluer les incidences sur les droits humains, agir selon l’évaluation et communiquer sur la manière de traiter ces incidences.

Types de biais à surveiller

Les biais se manifestent de différentes manières. Parfois, ils sont le résultat d’une erreur systématique. D’autres fois, ils sont le résultat de préjugés sociaux. Parfois, la distinction est floue. En gardant à l’esprit ces deux sources de biais, voyons de quelle manière un biais peut entrer dans un système d’IA.

Biais de mesure ou de jeu de données

Lorsque les données sont mal étiquetées, mal catégorisées ou trop simplifiées, il en résulte des biais de mesure. Un biais de mesure peut être introduit lorsqu’une personne commet une erreur en étiquetant des données, ou par une erreur de la machine. Une caractéristique, un facteur ou un groupe peut être surreprésenté ou sous-représenté dans votre jeu de données.

Prenons un exemple inoffensif : un système de reconnaissance d’image de chiens et de chats. Les données d’entraînement semblent assez simples : des photos de chats et de chiens. Mais l’ensemble d’images ne comprend que des photos de chiens noirs, et de chats blancs ou marron. Confronté à une photo d’un chien blanc, l’IA le catégorise comme un chat. Bien que les données d’entraînement réelles soient rarement si tranchées, les résultats peuvent être tout aussi erronés, avec des conséquences majeures.

Illustration de données d’entraînement avec des photos de six chiens noirs, de quatre chats blancs et de deux chats marron, intégrées dans un algorithme d’apprentissage pour un modèle prédictif. Le modèle classe le chien blanc en tant que « chat » avec un score de confiance de 0,96.

Erreur de type 1 ou de type 2

Imaginez une banque utilisant l’IA pour prédire si un demandeur de prêt va le rembourser. Si le système prédit que le demandeur sera en mesure de rembourser le prêt mais qu’il ne le fait pas, il s’agit d’un faux positif, ou une erreur de type 1. Si le système prédit que le demandeur ne sera pas en mesure de rembourser le prêt mais qu’il le fait, c’est un faux négatif, ou une erreur de type 2. Les banques veulent uniquement accorder des prêts aux personnes dont elles sont sûres de la capacité à le rembourser. Pour minimiser les risques, leur modèle penche vers les erreurs de type 2. Même dans ce cas, les faux négatifs nuisent aux demandeurs que le système juge à tort incapables de rembourser le prêt.

Une bascule représentant d’un côté les prêts à faible risque pour la banque et de l’autre côté les prêts à haut risque, et penchant vers le haut risque.

Biais d’association

Les données étiquetées selon des stéréotypes sont des exemples de biais d’association. Si vous recherchez « jouets pour filles » sur la plupart des sites de vente en ligne, vous obtenez une vaste gamme de jouets de cuisine, de poupées, de princesses et de rose. Si vous recherchez « jouets pour garçons », vous tombez sur des figurines d’action de super-héros, des jeux de construction et des jeux vidéo.

Biais de confirmation

Le biais de confirmation étiquette des données selon des idées préconçues. Les recommandations que vous voyez lorsque vous faites du shopping en ligne reflètent vos habitudes d’achat, mais les données qui influencent ces achats reflètent déjà ce que les personnes voient et choisissent généralement d’acheter. Vous pouvez voir comment les systèmes de recommandation renforcent les stéréotypes. Si les super-héros n’apparaissent pas dans la section « jouets pour filles » d’un site Web, il est peu probable qu’un acheteur sache qu’ils se trouvent ailleurs sur le site, et encore moins probable qu’il les achète.

Biais d’automatisation

Le biais d’automatisation impose les valeurs d’un système aux autres. Prenons pour exemple un concours de beauté jugé par l’IA en 2016. Le but était d’annoncer objectivement qui étaient les plus belles femmes. Cependant, l’IA en question a été formée principalement sur des images de femmes blanches et sa définition apprise de la « beauté » n’incluait pas les caractéristiques plus courantes chez les personnes ayant d’autres origines ethniques. Par conséquent, l’IA a choisi principalement des gagnantes blanches, traduisant en résultats réels un biais dans les données de formation.

Le biais d’automatisation ne se limite pas à l’IA. Prenons par exemple l’histoire de la photographie couleur. Dès le milieu des années 50, les laboratoires photographiques de Kodak développaient leurs pellicules avec une méthode calibrée sur les couleurs de peau, les ombres et la lumière de l’image d’une employée à la peau claire, nommée Shirley Page. Même si différents modèles ont été utilisés au fil du temps, les images étaient désignées comme étant des « cartes Shirley ». Le teint de peau de Shirley, peu importe qui elle était (et elle était toujours blanche initialement), était considéré comme la norme. Lorna Roth, professeure de médias à l’Université Concordia au Canada, a déclaré à NPR que lorsque les cartes ont été créées, « les personnes qui achetaient des appareils photo étaient pour la plupart des personnes de peau blanche. Je suppose donc que les fabricants n’ont pas vu la nécessité d’inclure une gamme plus large de couleurs de peau ». Dans les années 1970, ils ont commencé à utiliser diverses teintes de peau et à créer des cartes Shirley multiraciales.

Biais sociétal

Un biais sociétal reproduit les résultats des préjugés passés à l’égard de groupes historiquement marginalisés. Examinons la discrimination bancaire. Aux États-Unis, dans les années 1930, une politique fédérale en matière de logement a mis en place un classement par couleur de la désirabilité de certains quartiers. Ceux identifiés en rouge étaient considérés comme dangereux. Les banques refusaient des prêts locatifs sociaux aux groupes minoritaires qui résidaient dans ces quartiers identifiés en rouge. À ce jour, la discrimination bancaire a influencé la composition raciale et économique de certains codes postaux, qui peuvent donc être révélateurs de l’origine ethnique. Si vous incluez des codes postaux en tant que points de données dans votre modèle, vous pouvez éventuellement, par inadvertance, incorporer l’origine ethnique comme facteur déterminant de la prise de décision de votre algorithme. N’oubliez pas qu’il est également illégal aux États-Unis d’utiliser des catégories protégées telles que l’âge, l’origine ethnique ou le sexe pour prendre de nombreuses décisions financières.

Biais de survie

Parfois, un algorithme se concentre sur les résultats de ceux qui ont été sélectionnés ou qui ont survécu à un certain processus, aux dépens de ceux qui ont été exclus. Penchons-nous sur un exemple de recrutement. Imaginez que vous soyez responsable du recrutement dans une entreprise et que vous souhaitiez déterminer si vous devez recruter dans une université spécifique. Vous regardez de quelle université viennent les employés actuels. Mais qu’en est-il des candidats qui venaient de cette université, mais qui n’ont pas été embauchés ou qui ont été embauchés, puis licenciés ? Vous ne voyez que le succès de ceux qui ont « survécu ».

Infographie représentant le biais de survie dans le recrutement auprès d’universités. Les candidats de trois universités franchissent le premier entonnoir, et seuls les candidats qui n’ont pas quitté l’entreprise franchissent le deuxième. Le groupe final n’est pas représentatif des recrues de ces trois universités.

Biais d’interaction

Les humains créent un biais d’interaction lorsqu’ils interagissent avec ou tentent intentionnellement d’influencer les systèmes d’IA et créent des résultats biaisés. Par exemple, lorsque des personnes tentent intentionnellement d’enseigner du langage grossier aux chatbots.

Comment les biais entrent-ils dans le système ?

Vous savez que les biais peuvent entrer dans un système d’IA via les créateurs d’un produit, via des données d’entraînement (ou le manque d’informations sur toutes les sources contribuant à un jeu de données), ou à partir du contexte social dans lequel une IA est déployée.

Hypothèses

Avant de commencer à créer un système donné, les créateurs font souvent des hypothèses afin de déterminer ce qu’ils doivent créer, pour qui ils doivent le créer et comment le système doit fonctionner, y compris le type de données à collecter et auprès de quelles personnes les collecter. Cela ne signifie pas que les créateurs d’un système ont de mauvaises intentions, mais en tant qu’êtres humains, nous ne pouvons pas toujours comprendre les expériences des autres ou prédire l’impact d’un système donné sur les autres. Nous pouvons essayer d’éviter que nos propres hypothèses entrent dans un produit en incluant d’emblée plusieurs acteurs et parties prenantes dans nos processus de recherche et de conception. Nous devons également faire en sorte que les équipes qui travaillant sur des systèmes d’IA incarnent une certaine diversité.

Données d’entraînement

Les modèles d’IA ont besoin de données d’apprentissage, et il est facile d’introduire un biais dans un jeu de données. Si une entreprise a toujours recruté dans les mêmes universités, les mêmes programmes ou des candidats du même sexe, un système d’IA de recrutement apprendra que ce sont les meilleurs candidats. Le système ne recommandera pas les candidats qui ne correspondent pas à ces critères.

Modèle

Les facteurs que vous utilisez pour entraîner un modèle d’IA, tels que l’ethnie, le genre ou l’âge, peuvent entraîner l’émission de recommandations ou de prédictions biaisées par rapport à certains groupes définis par ces caractéristiques. Vous devez également être à l’affût des facteurs qui relaient ces caractéristiques. Le prénom de quelqu’un, par exemple, peut être révélateur de son sexe, de son origine ou de son pays d’origine. Pour cette raison, les produits Einstein n’utilisent pas les noms comme facteurs dans son modèle Lead and Opportunity Scoring (Score des pistes et des opportunités).

Score des pistes et des opportunités d’Einstein pour la vente. Une boîte de dialogue avertit l’utilisateur que le code postal a une forte corrélation avec l’origine ethnique et peut ajouter un biais au modèle prédictif de ce récit.

Intervention humaine (ou absence d’intervention humaine)

Modifier les données d’entraînement influence directement le comportement du modèle, des biais pouvant être ajoutés ou supprimés. Nous pouvons supprimer des données de qualité médiocre ou des points de données sur-représentés, ajouter des étiquettes ou modifier des catégories, ou encore exclure des facteurs spécifiques, tels que l’âge et l’origine ethnique. Nous pouvons également laisser le modèle tel quel, ce qui, selon les circonstances, risquerait d’engendrer des biais.

Les parties prenantes d’un système d’IA devraient avoir la possibilité de donner leur avis sur les recommandations données. Cet avis peut être implicite (par exemple, le système recommande un livre que le client pourrait aimer, mais le client ne l’achète pas) ou explicite (par exemple, le client approuve une recommandation à l’aide d’un pouce vers le haut). Cet avis permet au modèle d’ajuster son comportement. Selon le RGPD, les citoyens de l’UE doivent également être en mesure de corriger les informations erronées qu’une entreprise possède à leur sujet et de lui demander de supprimer leurs données. Même si cela n’est pas exigé par la loi, il s’agit là d’une bonne pratique qui garantit que votre IA formule des recommandations fondées sur des données précises et assure la confiance de vos clients.

L’IA peut amplifier les biais

Le fait d’entraîner des modèles d’IA en ayant recours à des jeux de données biaisés a souvent pour conséquence d’amplifier ces biais. Dans cet exemple, un jeu de données de photographies comptait 33 % plus de femmes que d’hommes sur les photos impliquant la cuisine, mais l’algorithme amplifiait ce biais à 68 %. Pour en savoir plus, consultez l’article de blog dans la section Ressources.

Ressources

Trailhead : Principes fondamentaux de l’intelligence artificielle
Blog post: Comment accélérer votre réussite à l’ère de l’IA
Blog post: L’IA n’apprend pas seulement nos biais, elle les amplifie
Aide : Glossaire des termes relatifs à Einstein et à l’IA générative

Durée estimée

Thèmes

Besoin d'aide ?

Ressources Einstein