Supprimer les biais de vos données et algorithmes

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Identifier les facteurs exclus ou surreprésentés dans votre jeu de données
Expliquer l’avantage d’effectuer des pre-mortems pour réduire les biais d’interaction
Définir un plan pour vous assurer que de nouveaux biais ne sont pas introduits dans vos résultats

Gestion des risques de biais

Nous avons discuté des différents types de biais à prendre en compte lorsque vous travaillez avec l’IA. Passons maintenant au défi à relever : comment prévenir ou gérer les risques créés par ces biais ? Vous ne pouvez pas, comme par magie, retirer tous les biais de vos données d’entraînement. Remédier à l’exclusion est à la fois un problème social et technique : vous pouvez prendre des précautions en équipe au niveau de la planification et de l’exécution du déploiement de votre produit, en plus de modifier vos données.

Conduite de pre-mortems

Comme nous l’avons mentionné dans la première unité, créer un produit de manière responsable commence par l’instauration d’une culture éthique. L’une des façons de procéder consiste à intégrer les pre-mortems dans votre workflow.

Un pre-mortem est l’opposé d’un post-mortem : il permet d’anticiper les problèmes avant qu’ils ne se produisent. Souvent, les membres de l’équipe peuvent hésiter à émettre des réserves lors de la phase de planification d’un projet. Dans un domaine sensible comme l’IA, il est primordial que votre équipe et vous-même fassiez part de vos doutes éventuels et soyez prêts à vous retrouver dans une position inconfortable. Tenir une telle réunion peut permettre de modérer votre enthousiasme initial pour un projet, susceptible de vous faire oublier les principes de prudence, en définissant des attentes mesurées et réalistes.

Identification des facteurs exclus ou surreprésentés dans votre jeu de données

Prenez en compte les facteurs sociaux et culturels profonds reflétés dans votre jeu de données. Comme nous l’avons expliqué dans l’unité précédente, tout biais au niveau de votre jeu de données peut avoir une incidence sur le système de recommandation de votre IA et peut entraîner la surreprésentation ou sous-représentation d’un groupe.

D’un point de vue technique, voici quelques moyens de remédier aux biais de vos données. Ces techniques ne sont en aucun cas exhaustives.

Constatation initiale : les schémas statistiques qui s’appliquent à la majorité peuvent ne pas s’avérer valides dans un groupe minoritaire.

Solution possible : envisagez de créer différents algorithmes pour différents groupes plutôt qu’un système unique.

Constatation initiale : des personnes sont exclues de votre jeu de données et cette exclusion a un impact sur vos utilisateurs. Le contexte et la culture importent, mais il peut être impossible de voir leurs effets dans les données.

Solution possible : recherchez ce que les chercheurs appellent les inconnues inconnues, c’est-à-dire les erreurs qui se produisent lorsqu’un modèle attribue un taux de confiance très élevé à une prédiction erronée. Les inconnues inconnues s’opposent aux inconnues connues. Ce sont des prédictions incorrectes auxquelles le modèle attribue un taux de confiance faible. De la même manière que lorsqu’un modèle génère du contenu, il peut produire des informations qui ne sont pas du tout factuelles pour répondre à votre demande.

Évaluation régulière de vos données d’entraînement

Comme nous l’avons dit précédemment, le développement d’un système d’IA commence au niveau de vos données d’entraînement. Vous devez être scrupuleux et vous attacher à résoudre les problèmes de qualité des données le plus tôt possible dans le processus. Veillez à traiter les cas extrêmes, les doublons, les valeurs aberrantes et les redondances dans CRM Analytics ou d’autres outils de préparation de données.

Avant de publier vos modèles, veillez à exécuter des essais préalables afin que votre système n’effectue pas de prédictions ou de jugements biaisés, et n’impacte pas les utilisateurs dans le monde réel. Assurez-vous qu’ils ont été testés afin qu’ils ne causent pas de préjudices. Vous devez pouvoir rendre compte de l’utilisation de votre produit dans différentes communautés afin d’éviter toute surprise lors de sa sortie.

Après avoir publié un modèle, développez un système permettant de vérifier périodiquement les données sur lesquelles vos algorithmes se basent pour apprendre et les recommandations réalisées par votre système. Vos données possèdent une demi-vie ; elles ne fonctionneront pas pour tout le monde indéfiniment. Sur le plan technique, plus la quantité de données entrant dans un système est importante, plus un algorithme apprend. Cela peut amener le système à identifier et à trouver des modèles que les personnes qui ont développé le produit n’avaient pas prévus ou ne souhaitaient pas intégrer.

Sur le plan social, les valeurs culturelles changent avec le temps. Le résultat de vos algorithmes peut ne plus correspondre aux systèmes de valeurs des communautés auxquelles il s’applique. Pour relever ces défis, vous pouvez utiliser deux méthodes : des processus de révision par les communautés rémunérés pour corriger les erreurs d’une part et la création de mécanismes dans votre produit permettant aux individus et aux utilisateurs de refuser certaines actions ou de corriger les données qui les concernent d’autre part. Les processus de révision par les communautés doivent inclure des membres des communautés susceptibles d’être concernées par le système algorithmique que vous développez. Vous devez également organiser des sessions avec les personnes qui mettront en œuvre, géreront et utiliseront le système pour atteindre les objectifs de leur organisation. Rendez-vous sur notre module Les bases de la recherche sur l’expérience utilisateur pour en savoir plus sur les méthodes que vous pouvez utiliser pour organiser des processus de révision par les communautés ainsi que pour mener une recherche auprès des utilisateurs afin de comprendre les contextes dans lesquels votre outil sera utilisé.

Conclusion

L’intelligence artificielle peut potentiellement être une force au service du bien, en détectant des tumeurs que les humains ne peuvent pas voir et en détectant la maladie d’Alzheimer avant les familles des patients ou en préservant les langues indigènes. Tout au long de ce module, nous avons montré la puissance des systèmes d’intelligence artificielle, mais également leur opacité. Si nous voulons que l’IA profite à la société plus qu’elle ne lui nuit, nous devons reconnaître les risques et prendre des mesures pour que les systèmes d’IA soient conçus, développés et utilisés de manière responsable.

En tant que technologues, même si nous adoptons une approche consciencieuse et délibérée, nous rencontrerons des surprises en chemin. Nous ne pouvons pas toujours prévoir les interactions entre les jeux de données, les modèles et leur contexte culturel. Les jeux de données contiennent souvent des biais dont nous n’avons pas conscience, et il est de notre responsabilité d’évaluer les données d’entraînement et les prédictions de nos modèles afin de nous assurer qu’elles ne produisent aucun résultat dommageable.

Le développement de systèmes d’IA éthiques est un processus sociotechnique. Examinez-les non seulement du point de vue de la mise en œuvre technique, mais également de leur développement au sein des équipes et des contextes sociaux dans lesquels ils seront utilisés. De plus, déterminez qui participe au processus : comment sont représentées les catégories de sexe, d’origine ethnique et d’âge ? Les personnes qui créent les produits d’IA et les biais engendrés par ces systèmes sont interconnectés.

Pour réaliser une IA sans danger et socialement bénéfique, nous devons nous rappeler que les humains sont au cœur de l’IA. L’IA est un outil et nous choisissons comment l’utiliser. Quel que soit le rôle d’une personne, ses décisions, aussi insignifiantes qu’elles puissent paraître, peuvent avoir des conséquences graves et durables. Chez Salesforce, nous sommes convaincus de pouvoir bien faire. Vous pouvez réaliser des profits sans nuire aux autres, et même avoir un impact positif au passage.

Ressources

Trailhead : Meilleures pratiques en matière d’utilisation éthique des données : Aperçu
Article de blog : Comment intégrer l’éthique à l’IA - Partie 2
Article de blog : Vos données sont-elles prêtes pour l’IA ?
Document de recherche : Équité contrefactuelle liée au parcours

Durée estimée

Thèmes

Besoin d'aide ?

Ressources Einstein