Reconnaître les biais dans l’intelligence artificielle

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

  • Comprendre la différence entre ce qui est éthique et ce qui est légal
  • Identifier les types de biais pouvant entrer dans un système d’IA
  • Trouver les points d’entrée des biais dans un système d’IA

L’éthique concorde avec la loi. Parfois, cependant, vous devez voir plus loin que la loi pour développer une technologie éthique. Par exemple, le droit fédéral américain protège certaines caractéristiques que vous ne pouvez généralement pas utiliser dans les décisions en matière d’embauche, de promotion, de logement, de prêt ou de soins de santé. On parle de catégories protégées. Il s’agit des caractéristiques suivantes : le sexe, l’origine ethnique, l’âge, le handicap, la couleur, l’origine nationale, la religion ou les principes, et les informations génétiques. Si vos modèles d’IA utilisent ces caractéristiques, vous enfreignez peut-être la loi. Si votre modèle d’IA prend une décision dans une région où il est légal de s’appuyer sur ces caractéristiques, il n’est peut-être pas éthique d’autoriser ce type de biais. Les questions associées aux catégories protégées peuvent également relever du domaine de la vie privée et de la légalité. Nous vous recommandons donc de réaliser notre parcours sur le RGPD pour en savoir plus. Enfin, il est également important de connaître les utilisations autorisées et non autorisées de Salesforce Einstein conformément à notre Politique d’utilisation acceptable.

La bonne nouvelle, c’est que l’intelligence artificielle constitue une opportunité de traiter systématiquement les biais. Si vous aviez constaté par le passé que le processus décisionnel de votre entreprise entraînait un résultat biaisé à la suite de décisions individuelles, il était difficile de redéfinir l’ensemble du processus pour dépasser ce biais intrinsèque. Maintenant, avec les systèmes d’IA, nous avons la possibilité d’intégrer l’équité dans la conception et d’améliorer les pratiques existantes.

Outre l’examen attentif des implications juridiques et éthiques de vos modèles d’IA, vous devez évaluer si votre modèle est conforme à la responsabilité de votre entreprise en matière de respect et de promotion des droits humains. Vous devez tenir compte des lois internationales sur les droits humains et des responsabilités que l’ONU a définies pour que les entreprises respectent les droits de l’Homme. Ces principes incluent un processus de diligence raisonnable pour évaluer les incidences sur les droits humains, agir selon l’évaluation et communiquer sur la manière de traiter ces incidences. 

Types de biais à surveiller

Les biais se manifestent de différentes manières. Parfois, ils sont le résultat d’une erreur systématique. D’autres fois, ils sont le résultat de préjugés sociaux. Parfois, la distinction est floue. En gardant à l’esprit ces deux sources de biais, voyons de quelle manière un biais peut entrer dans un système d’IA. 

Biais de mesure ou de jeu de données

Lorsque les données sont mal étiquetées, mal catégorisées ou trop simplifiées, il en résulte des biais de mesure. Un biais de mesure peut être introduit lorsqu’une personne commet une erreur en étiquetant des données, ou par une erreur de la machine. Une caractéristique, un facteur ou un groupe peut être surreprésenté ou sous-représenté dans votre jeu de données. 

Prenons un exemple inoffensif : un système de reconnaissance d’image de chiens et de chats. Les données d’entraînement semblent assez simples : des photos de chats et de chiens. Mais l’ensemble d’images ne comprend que des photos de chiens noirs, et de chats blancs ou marron. Confronté à une photo d’un chien blanc, l’IA le catégorise comme un chat. Bien que les données d’entraînement réelles soient rarement si tranchées, les résultats peuvent être tout aussi erronés, avec des conséquences majeures. 

Illustration de données d’entraînement avec des photos de six chiens noirs, de quatre chats blancs et de deux chats marron, intégrées dans un algorithme d’apprentissage pour un modèle prédictif. Le modèle classe le chien blanc en tant que « chat » avec un score de confiance de 0,96.

Erreur de type 1 ou de type 2

Imaginez une banque utilisant l’IA pour prédire si un demandeur de prêt va le rembourser. Si le système prédit que le demandeur sera en mesure de rembourser le prêt mais qu’il ne le fait pas, il s’agit d’un faux positif, ou une erreur de type 1. Si le système prédit que le demandeur ne sera pas en mesure de rembourser le prêt mais qu’il le fait, c’est un faux négatif, ou une erreur de type 2. Les banques veulent uniquement accorder des prêts aux personnes dont elles sont sûres de la capacité à le rembourser. Pour minimiser les risques, leur modèle penche vers les erreurs de type 2. Même dans ce cas, les faux négatifs nuisent aux demandeurs que le système juge à tort incapables de rembourser le prêt. 

Une bascule représentant d’un côté les prêts à faible risque pour la banque et de l’autre côté les prêts à haut risque, et penchant vers le haut risque.

Biais d’association

Lorsque les données sont étiquetées selon des stéréotypes, il en résulte un biais d’association. Si vous recherchez « jouets pour filles » sur la plupart des sites de vente en ligne, vous obtenez une vaste gamme de jouets de cuisine, de poupées, de princesses et de rose. Si vous recherchez « jouets pour garçons », vous tombez sur des figurines d’action de super-héros, des jeux de construction et des jeux vidéo. 

Biais de confirmation 

Le biais de confirmation étiquette des données selon des idées préconçues. Les recommandations que vous voyez lorsque vous faites du shopping en ligne reflètent vos habitudes d’achat, mais les données qui influencent ces achats reflètent déjà ce que les personnes voient et choisissent généralement d’acheter. Vous pouvez voir comment les systèmes de recommandation renforcent les stéréotypes. Si les super-héros n’apparaissent pas dans la section « jouets pour filles » d’un site Web, il est peu probable qu’un acheteur sache qu’ils se trouvent ailleurs sur le site, et encore moins probable qu’il les achète.

Biais d’automatisation 

Le biais d’automatisation impose les valeurs d’un système aux autres. Prenons pour exemple un concours de beauté jugé par l’IA en 2016. Le but était d’annoncer objectivement qui étaient les plus belles femmes. Cependant, le jugement de l’IA en question s’est fondé selon les normes de beauté occidentales qui mettent l’accent sur la blancheur. Finalement, la grande majorité des gagnantes étaient blanches. 

Le biais d’automatisation ne se limite pas à l’IA. Prenons par exemple l’histoire de la photographie couleur. Dès le milieu des années 50, les laboratoires photographiques de Kodak développaient leurs pellicules avec une méthode calibrée sur les couleurs de peau, les ombres et la lumière de l’image d’une employée à la peau claire, nommée Shirley Page. Même si différents modèles ont été utilisés au fil du temps, les images étaient désignées comme étant des « cartes Shirley ». Le teint de peau de Shirley, peu importe qui elle était (et elle était toujours blanche initialement), était considéré comme la norme. Lorna Roth, professeure de médias à l’Université Concordia au Canada, a déclaré à NPR que lorsque les cartes ont été créées, « les personnes qui achetaient des appareils photo étaient pour la plupart des personnes de peau blanche. Je suppose donc que les fabricants n’ont pas vu la nécessité d’inclure une gamme plus large de couleurs de peau ». Dans les années 1970, ils ont commencé à utiliser diverses teintes de peau et à créer des cartes Shirley multiraciales.

Biais sociétal 

Un biais sociétal reproduit les résultats des préjugés passés à l’égard de groupes historiquement marginalisés. Examinons la discrimination bancaire. Aux États-Unis, dans les années 1930, une politique fédérale en matière de logement a mis en place un classement par couleur de la désirabilité de certains quartiers. Ceux identifiés en rouge étaient considérés comme dangereux. Les banques refusaient des prêts locatifs sociaux aux groupes minoritaires qui résidaient dans ces quartiers identifiés en rouge. À ce jour, la discrimination bancaire a influencé la composition raciale et économique de certains codes postaux, qui peuvent donc être révélateurs de l’origine ethnique. Si vous incluez des codes postaux en tant que points de données dans votre modèle, vous pouvez éventuellement, par inadvertance, incorporer l’origine ethnique comme facteur déterminant de la prise de décision de votre algorithme. N’oubliez pas qu’il est également illégal aux États-Unis d’utiliser des catégories protégées telles que l’âge, l’origine ethnique ou le sexe pour prendre de nombreuses décisions financières. 

Biais de survie

Parfois, un algorithme se concentre sur les résultats de ceux qui ont été sélectionnés ou qui ont survécu à un certain processus, aux dépens de ceux qui ont été exclus. Penchons-nous sur un exemple de recrutement. Imaginez que vous soyez responsable du recrutement dans une entreprise et que vous souhaitiez déterminer si vous devez recruter dans une université spécifique. Vous regardez de quelle université viennent les employés actuels. Mais qu’en est-il des candidats qui venaient de cette université, mais qui n’ont pas été embauchés ou qui ont été embauchés, puis licenciés ? Vous ne voyez que le succès de ceux qui ont « survécu ». 

Infographie représentant le biais de survie dans le recrutement auprès d’universités. Les candidats de trois universités franchissent le premier entonnoir, et seuls les candidats qui n’ont pas quitté l’entreprise franchissent le deuxième. Le groupe final n’est pas représentatif des recrues de ces trois universités.

Biais d’interaction

Les humains créent un biais d’interaction lorsqu’ils interagissent avec ou tentent intentionnellement d’influencer les systèmes d’IA et créent des résultats biaisés. Par exemple, lorsque des personnes tentent intentionnellement d’enseigner du langage grossier aux chatbots. 

Comment les biais entrent-ils dans le système ?

Vous savez que les biais peuvent entrer dans un système d’IA via les créateurs d’un produit, via des données d’entraînement (ou le manque d’informations sur toutes les sources contribuant à un jeu de données), ou à partir du contexte social dans lequel une IA est déployée.

Hypothèses

Avant de commencer à créer un système donné, les créateurs font souvent des hypothèses afin de déterminer ce qu’ils doivent créer, pour qui ils doivent le créer et comment le système doit fonctionner, y compris le type de données à collecter et auprès de quelles personnes les collecter. Cela ne signifie pas que les créateurs d’un système ont de mauvaises intentions, mais en tant qu’êtres humains, nous ne pouvons pas toujours comprendre les expériences des autres ou prédire l’impact d’un système donné sur les autres. Nous pouvons essayer d’éviter que nos propres hypothèses entrent dans un produit en incluant d’emblée plusieurs acteurs et parties prenantes dans nos processus de recherche et de conception. Nous devons également faire en sorte que les équipes qui travaillant sur des systèmes d’IA incarnent une certaine diversité. Consultez notre parcours Intérêt de l’égalité pour l’entreprise pour en savoir plus sur les avantages du recrutement d’équipes incarnant la diversité.

Données d’entraînement

Les modèles d’IA ont besoin de données d’apprentissage, et il est facile d’introduire un biais dans un jeu de données. Si une entreprise a toujours recruté dans les mêmes universités, les mêmes programmes ou des candidats du même sexe, un système d’IA de recrutement apprendra que ce sont les meilleurs candidats. Le système ne recommandera pas les candidats qui ne correspondent pas à ces critères.

Modèle

Lorsque vous créez un modèle d’apprentissage machine, les facteurs que vous utilisez dans le modèle, tels que l’origine ethnique, le sexe ou l’âge, peuvent donner lieu à des recommandations ou à des prédictions biaisées par rapport à certains groupes définis par ces caractéristiques. Vous devez également être à l’affût des facteurs qui relaient ces caractéristiques. Le prénom de quelqu’un, par exemple, peut être révélateur de son sexe, de son origine ou de son pays d’origine. Pour cette raison, Salesforce Einstein n’utilise pas les noms comme facteurs dans son modèle Score des pistes et des opportunités.

Score des pistes et des opportunités d’Einstein pour la vente. Une boîte de dialogue avertit l’utilisateur que le code postal a une forte corrélation avec l’origine ethnique et peut ajouter un biais au modèle prédictif de ce récit.

Intervention humaine (ou absence d’intervention humaine)

Modifier les données d’entraînement influence directement le comportement du modèle, des biais pouvant être ajoutés ou supprimés. Nous pouvons supprimer des données de qualité médiocre ou des points de données sur-représentés, ajouter des étiquettes ou modifier des catégories, ou encore exclure des facteurs spécifiques, tels que l’âge et l’origine ethnique. Nous pouvons également laisser le modèle tel quel, ce qui, selon les circonstances, risquerait d’engendrer des biais.

Les parties prenantes d’un système d’IA devraient avoir la possibilité de donner leur avis sur les recommandations données. Cet avis peut être implicite (par exemple, le système recommande un livre que le client pourrait aimer, mais le client ne l’achète pas) ou explicite (par exemple, le client approuve une recommandation à l’aide d’un pouce vers le haut). Cet avis permet au modèle d’ajuster son comportement. Selon le RGPD, les citoyens de l’UE doivent également être en mesure de corriger les informations erronées qu’une entreprise possède à leur sujet et de lui demander de supprimer leurs données. Même si cela n’est pas exigé par la loi, il s’agit là d’une bonne pratique qui garantit que votre IA formule des recommandations fondées sur des données précises et assure la confiance de vos clients.

L’IA peut amplifier les biais

L’apprentissage machine basé sur des jeux de données biaisés amplifie souvent ces biais. Dans cet exemple, un jeu de données de photographies comptait 33 % plus de femmes que d’hommes sur les photos impliquant la cuisine, mais l’algorithme amplifiait ce biais à 68 %. Pour en savoir plus, consultez l’article de blog dans la section Ressources.

Ressources