Reconocer el sesgo en la inteligencia artificial

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir la función de los datos en el desarrollo de un sistema de IA.
Comprender la diferencia entre lo que es ético y lo que es legal.
Identificar tipos de sesgos que se pueden introducir en un sistema de IA.
Encontrar cuatro puntos en los que los sesgos se introducen en un sistema de IA.

Centrarse en la inteligencia artificial

La inteligencia artificial puede aumentar la inteligencia humana, amplificar las capacidades humanas y proporcionar perspectivas sobre las que puede realizar acciones que dirijan mejores resultados para nuestros empleados, clientes, socios y comunidades.

Creemos que las ventajas de la IA deben ser accesibles para todos, no solo para los creadores. Proporcionar las funciones tecnológicas de IA no es suficiente. También tenemos una importante responsabilidad de garantizar que nuestros clientes pueden utilizar nuestra IA de una forma segura e inclusiva para todos. Nos tomamos esa responsabilidad en serio y nos comprometemos a proporcionar a nuestros empleados, clientes, socios y comunidad las herramientas que necesitan para desarrollar y utilizar IA de forma segura, precisa y ética.

Como bien se aprende en la insignia Aspectos fundamentales de la inteligencia artificial, la IA es un término general que hace referencia a los esfuerzos para enseñar a los ordenadores a realizar tareas complejas y comportarse de una forma que proporcione el aspecto de organismo humano. El entrenamiento para estas tareas a menudo requiere grandes cantidades de datos, que permiten al ordenador aprender patrones presentes en los datos. Estos patrones forman un modelo que representa un sistema complejo, de modo muy similar a lo que sería el modelo de nuestro sistema solar. Con un buen modelo, pueden hacerse predicciones de calidad (por ejemplo, es posible predecir el próximo eclipse solar) o generar contenido (por ejemplo, hacer que le escriba un poema compuesto por un pirata).

No siempre sabemos por qué un modelo realiza una predicción específica o genera contenido de cierta manera. Frank Pasquale, autor de The Black Box Society, describe esta falta de transparencia como el fenómeno de la caja negra. Mientras que las empresas que crean IA pueden explicar los procesos en los que se basan sus sistemas, es más difícil para ellos indicar lo que está sucediendo en tiempo real y en qué orden, incluyendo dónde puede estar presente el sesgo en el modelo. La IA plantea retos únicos cuando se trata de sesgar y tomar decisiones racionales.

¿En qué se diferencia lo ético de lo legal?

Cada sociedad tiene leyes que los ciudadanos deben respetar. En ocasiones, sin embargo, necesita pensar más allá de la ley para desarrollar tecnología ética. Por ejemplo, las leyes federales de EE.UU. protegen ciertas características que generalmente no se pueden utilizar en decisiones que implican contratación, promoción, vivienda, préstamos o sanidad. Entre estas clases protegidas se incluyen sexo, raza, discapacidad, color, nacionalidad de origen, religión o credo e información genética. Si sus modelos de IA utilizan estas características, estaría infringiendo la ley. Si su modelo de IA está tomando una decisión que justifica legalmente basarse en estas características, podría no ser ético permitir esos tipos de sesgos. Los problemas relacionados con las clases protegidas pueden también cruzar al ámbito de la privacidad y la legalidad, por lo que recomendamos tomar nuestra ruta RGPD para obtener más información. Por último, también es importante estar al tanto de las formas en las que se podría o no utilizar Einstein de acuerdo con nuestra Política de uso apropiado.

La buena noticia es que la IA presenta una oportunidad para solucionar los sesgos sistemáticamente. Históricamente, si reconocía que la toma de decisiones de su empresa generaba resultados sesgados en la toma de decisiones individuales, era difícil volver a diseñar todo el proceso y superar este sesgo intrínseco. Ahora, con los sistemas de IA, tenemos la oportunidad de aportar equidad al diseño y mejorar las prácticas existentes.

Además de examinar cuidadosamente las implicaciones legales y éticas de sus modelos de IA, debe evaluar si su modelo está alineado con las responsabilidad de su negocio para respetar y promover los derechos humanos. Deberá tener en cuenta la ley sobre los derechos humanos y las responsabilidades que la ONU dispuso para que los negocios respeten los derechos humanos, que incluyen un proceso de diligencia debida para evaluar las repercusiones sobre los derechos humanos, actuar de acuerdo con la evaluación y comunicar cómo se solucionan dichas repercusiones.

Tipos de sesgos por los que estar alerta

El sesgo se manifiesta en una diversidad de formas. A veces es el resultado de un error sistemático. Otras veces es el resultado de prejuicios sociales. En ocasiones la distinción está difusa. Teniendo en cuenta estas fuentes de sesgo, vamos a estudiar las maneras en las que el sesgo puede introducirse en un sistema de IA.

Sesgo en la medición o en el conjunto de datos

Cuando se etiquetan o categorizan los datos de manera incorrecta o se simplifican en exceso, se produce un sesgo en la medición. El sesgo en la medición puede presentarse cuando una persona comete un error al etiquetar datos o a través de un error de máquina. Una característica, un factor o un grupo pueden estar sobre o infrarrepresentados en su conjunto de datos.

Observemos un ejemplo inocuo: un sistema de reconocimiento de imágenes para gatos y perros. Los datos de entrenamiento parecen bastante sencillos: fotografías de gatos y perros. Sin embargo, el conjunto de imágenes solo incluye fotografías de perros negros y gatos blancos o marrones. Si utilizamos una fotografía de un perro blanco, la IA la categoriza como un gato. Aunque los datos de entrenamiento del mundo real rara vez son tan limpios y directos, los resultados sí que pueden ser pasmosamente erróneos, y tener consecuencias graves.

Ilustración de datos de entrenamiento con fotografías de seis perros negros, cuatro gatos blancos y dos gatos marrones introducidos en un algoritmo de aprendizaje para un modelo predictivo. El modelo categoriza el perro blanco como un gato con una puntuación de confianza del 0,96.

Error de tipo 1 frente al tipo 2

Piense en un banco que utiliza IA para predecir si un solicitante saldará un préstamo. Si el sistema predice que el solicitante podrá saldar el préstamo pero no es así, es un falso positivo, o un error de tipo 1. Si el sistema predice que el solicitante no podrá saldar el préstamo pero sí es así, es un falso negativo, o un error de tipo 2. Los bancos quieren conceder préstamos a personas en las que confían que puedan pagarlos. Para reducir el riesgo al mínimo, su modelo se inclina hacia los errores de tipo 2. Incluso así, los negativos falsos afectan a los solicitantes que el sistema juzga incorrectamente como incapaces de pagar.

Un balancín con un lado representando los préstamos que son de bajo riesgo para el banco y el otro lado representando préstamos de alto riesgo, inclinándose hacia el alto riesgo.

Sesgo de asociación

El hecho de etiquetar datos según los estereotipos es un ejemplo de sesgo de asociación. Busque en la mayoría de tiendas en línea "juguetes para niñas" y verá un surtido interminable de juguetes de cocinas, muñecas, princesas y color rosa. Busque "juguetes para niños" y verá muñecos de superhéroes, conjuntos de construcción y videojuegos.

Sesgo de confirmación

El sesgo de confirmación etiqueta los datos en base a ideas preconcebidas. Las recomendaciones que ve cuando compra en línea reflejan sus hábitos de compra, pero los datos que influencian esas compras ya reflejan lo que las personas ven y eligen comprar en primera instancia. Puede ver cómo los sistemas de recomendación refuerzan los estereotipos. Si los superhéroes no aparecen en la sección de "juguetes para niñas" de un sitio web, es probable que el comprador no sepa que están en otro lugar del sitio, y serán menos proclives a comprarlos.

Sesgo de automatización

El sesgo de automatización impone los valores de un sistema sobre otros. Tomemos como ejemplo un concurso de belleza juzgado por IA en 2016. El objetivo era proclamar a las mujeres más bellas con alguna noción de objetividad. Pero la IA en cuestión se entrenó principalmente con imágenes de mujeres blancas y su definición aprendida de "belleza" no incluía características comunes de las personas de color. Como resultado, la IA eligió como ganadoras sobre todo a mujeres blancas, convirtiendo un sesgo de datos de entrenamiento en resultados del mundo real.

El sesgo de automatización no está limitado a la IA. Pensemos en la historia de la fotografía en color. A partir de mediados de 1950, Kodak proporcionó laboratorios fotográficos que desarrollaron su película con una imagen de un empleado de piel blanca llamado Shirley Page que se utilizaba para calibrar tonos de piel, sombras y luces. Mientras que con el tiempo se utilizaron otros modelos, las imágenes se dieron a conocer como "tarjetas Shirley". El tono de piel de Shirley, independientemente de quién era (e inicialmente era siempre blanca) era considerado estándar. Según Lorna Roth, una profesora de comunicación de la Concordia University en Canadá llamada NPR, cuando se crearon las tarjetas por primera vez, "las personas que compraban cámaras eran en su mayoría personas caucásicas. Y por lo tanto supongo que no vieron la necesidad de ampliar el mercado a una gama más amplia de tonos de piel". En la década de 1970, comenzaron a probar en una variedad de tonos de piel y crearon tarjetas Shirley multirraciales.

Sesgo social

El sesgo social repite los resultados de prejuicios pasados en grupos marginalizados históricamente. Pensemos en el concepto de redlining. En 1930, una política de vivienda federal codificó por color algunos vecindarios en términos de atractivo. Los marcados en rojo eran considerados peligrosos. Los bancos a menudo deniegan el acceso a casas de bajo coste a grupos minoritarios residentes de estas vecindades marcadas en rojo. Hasta el día de hoy, el concepto de redlining influyó en la composición racial y económica de ciertos códigos postales, de modo que esos códigos postales pueden ser un indicador de raza. Si incluye códigos postales como punto de datos en su modelo, dependiendo del caso de uso podría estar incorporando inadvertidamente la raza como un factor en su algoritmo de toma de decisiones. Recuerde que también es ilegal en EE. UU. utilizar categorías protegidas como la edad, la raza o el género para tomar muchas decisiones financieras.

Sesgo de supervivencia o sobrevivencia

A veces, un algoritmo se centra en los resultados de aquellos que fueron seleccionados o que sobrevivieron a un cierto proceso, a expensas de aquellos que se excluyeron. Observemos algunas prácticas de contratación. Imagine que usted es el director de contratación de una empresa y desea determinar si debería contratar desde una universidad específica. Mira entre los empleados actuales contratados desde dicha universidad. ¿Pero qué pasa con los candidatos que no se contrataron desde esa universidad o que se contrataron y luego se fueron? Solo verá el éxito de aquellos que "sobrevivieron".

Infográfico que representa el sesgo de supervivencia en la contratación universitaria. Los candidatos de tres universidades pasan por el primer tamiz, y solo los candidatos que no abandonaron la empresa pasan por el segundo. El grupo final no es representativo de los contratados de esas tres universidades.

Sesgo de interacción

Los humanos creamos el sesgo de interacción cuando interactuamos o intentamos influenciar intencionadamente sistemas de IA y se crean resultados sesgados. Un ejemplo de esto es cuando las personas intentan enseñar intencionadamente palabrotas a los bots de chat.

¿Cómo puede el sesgo introducirse en el sistema?

Usted sabe que el sesgo puede introducirse en un sistema de IA a través de los creadores de un producto, a través de los datos de entrenamiento (o falta de información sobre todas las fuentes que contribuyen en un conjunto de datos), o procedente del contexto social en el que se implementa una IA.

Supuestos

Antes de que alguien comience a desarrollar un sistema determinado, a menudo realiza suposiciones sobre lo que debería desarrollar, para quién debería desarrollarlo y cómo debería funcionar, incluyendo los tipos de datos que hay que recopilar de diversas fuentes. Esto no significa que los creadores de un sistema tengan malas intenciones, pero como personas, no siempre comprendemos las experiencias de otras o podemos predecir cómo un sistema afectará a otras personas. Podemos intentar limitar la introducción de nuestras propias suposiciones en un producto incluyendo diversas partes interesadas y participantes en nuestra investigación y procesos de diseño desde el comienzo. También debemos esforzarnos por tener equipos diversos trabajando en sistemas de IA.

Datos de entrenamiento

Los modelos de IA necesitan datos de entrenamiento, y es fácil introducir sesgo con el conjunto de datos. Si una empresa contrata históricamente siempre desde las mismas universidades, los mismos programas o en las mismas líneas de género, un sistema de IA de contratación aprenderá que esos son los mejores candidatos. El sistema no recomendará candidatos que no coincidan con esos criterios.

Modelo

Los factores que utiliza para entrenar un modelo de IA, como la raza, el género o la edad, pueden dar como resultado recomendaciones o predicciones que están sesgadas hacia ciertos grupos definidos por esas características. También debe estar alerta sobre factores que funcionan como sustitutivos de esas características. El nombre de una persona, por ejemplo, puede ser un sustitutivo del género, la raza o el país de origen. Por este motivo, Einstein no utiliza los nombres de las personas como factores en su modelo de puntuación de candidatos y oportunidades.

Puntuación de candidatos y oportunidades de Einstein para Ventas. Un cuadro de diálogo advierte que el "código postal tiene una alta correlación con la raza y podría agregar sesgo al modelo predictivo de esa historia".

Intervención humana (o falta de ella)

La modificación de los datos de entrenamiento tiene una repercusión sobre el comportamiento del modelo, y puede incorporar o retirar el sesgo. Podríamos eliminar datos de mala calidad o puntos de datos sobrerrepresentados, agregar etiquetas o modificar categorías, o excluir factores específicos, como la edad y la raza. También podemos dejar el modelo tal cual, que, dependiendo de las circunstancias, puede dar pie al sesgo.

Las partes interesadas en un sistema de IA deberían tener la opción de proporcionar comentarios sobre sus recomendaciones. Esto se puede hacer de manera implícita (digamos que el sistema recomienda un libro al cliente que podría gustarle y el cliente no lo compra) o explícita (digamos que el cliente hace una reseña positiva de una recomendación). Estos comentarios entrenan al modelo para hacer más o menos lo que acaba de hacer. Según el RGPD, los ciudadanos de la UE también deben poder corregir la información incorrecta que una empresa tenga sobre ellos y solicitar que esa empresa elimine sus datos. Incluso sin requerirlo la ley, esto es una práctica recomendada y garantiza que su IA está realizando recomendaciones en base a datos precisos y está garantizando la confianza de los clientes.

La IA puede amplificar el sesgo

Los modelos de entrenamiento por IA basados en conjuntos de datos sesgados a menudo amplifican esos sesgos. En un ejemplo, un conjunto de datos de fotografías tenía un 33 por ciento más de mujeres que de hombres relacionadas con cosas de cocina, pero el algoritmo amplificó ese sesgo al 68 por ciento. Para obtener más información, vea la publicación del blog en la sección de recursos.

Recursos

Trailhead: Aspectos fundamentales de la inteligencia artificial
Publicación de blog: How to Accelerate Your Success in the Age of AI
Publicación de blog: AI is not just learning our biases; it is amplifying them (La IA no está aprendiendo nuestros sesgos, los está amplificando)
Ayuda: Glosario de términos de IA generativa de Einstein

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Einstein