Reconocer el sesgo en la inteligencia artificial

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir la función de los datos en el desarrollo de un sistema de IA.
Comprender la diferencia entre lo que es ético y lo que es legal.
Identificar tipos de sesgos que pueden ingresar en un sistema de IA.
Encontrar cuatro puntos en los que los sesgos ingresan en un sistema de IA.

Centrarse en la inteligencia artificial

La inteligencia artificial puede aumentar la inteligencia humana, amplificar las capacidades humanas y proporcionar perspectivas sobre las que puede realizar acciones que dirigen mejores resultados para nuestros empleados, clientes, socios y comunidades.

Creemos que las ventajas de IA deben ser accesibles para todos, no solo los creadores. No es suficiente entregar solo las funciones tecnológicas de IA. También tenemos una importante responsabilidad de garantizar que nuestros clientes pueden utilizar nuestra IA de una forma segura e inclusiva para todos. Nos tomamos esa responsabilidad en serie y nos comprometemos a proporcionar a nuestros empleados, clientes, socios y comunidad las herramientas que necesitan para desarrollar y utilizar IA de forma segura, precisa y ética.

Como aprende en la insignia Aspectos fundamentales de la inteligencia artificial, la IA es un término general que hace referencia a los esfuerzos para enseñar a las computadoras a realizar tareas complejas y comportarse de una forma que proporcione el aspecto de organismo humano. El entrenamiento para estas tareas a menudo requiere grandes cantidades de datos, que permiten a la computadora aprender patrones presentes en los datos. Estos patrones forman un modelo que representa un sistema complejo, de modo muy similar a lo que sería el modelo de nuestro sistema solar. Con un buen modelo, puede realizar predicciones buenas (como predecir el próximo eclipse solar) o generar contenido (como escribirme un poema escrito por un pirata).

No siempre sabemos por qué un modelo realiza una predicción específica o genera contenido de una manera determinada. Frank Pasquale, autor de The Black Box Society, describe esta falta de transparencia como el fenómeno de la caja negra. Mientras que las compañías que crean IA pueden explicar los procesos detrás de sus sistemas, es más difícil para ellos indicar lo que está sucediendo en tiempo real y en qué orden, incluyendo dónde puede estar presente el sesgo en el modelo. IA plantea retos únicos cuando se trata de sesgar y tomar decisiones racionales.

¿Qué es Ético frente a Legal?

Toda sociedad tiene leyes que los ciudadanos deben cumplir. En ocasiones, sin embargo, necesita pensar más allá de la ley para desarrollar tecnología ética. Por ejemplo, las leyes federales de EE.UU. protegen ciertas características que generalmente no puede utilizar en decisiones que implican contratación, promoción, vivienda, préstamos o sanidad. Estas clases protegidas incluyen sexo, raza, discapacidad, color, nacionalidad de origen, religión o credo e información genética. Si sus modelos de IA utilizan estas características, estaría infringiendo la ley. Si su modelo de IA está tomando una decisión donde es legal basarse en estas características, podría no ser ético permitir esos tipos de sesgos. Los problemas relacionados con clases protegidas pueden también cruzar al ámbito de la privacidad y la legalidad, por lo que recomendamos tomar nuestra ruta RGPD para obtener más información. Por último, también es importante entender cómo se pueden o no utilizar los productos de Einstein de acuerdo con nuestra Política de uso aceptable.

La buena noticia es que IA presenta una oportunidad para solucionar los sesgos sistemáticamente. Históricamente, si reconocía que la toma de decisiones de su compañía generaba resultados sesgados en la toma de decisiones individuales, era difícil volver a diseñar todo el proceso y superar este sesgo intrínseco. Ahora, con los sistemas de IA, tenemos la oportunidad de aportar equidad al diseño y mejorar prácticas existentes.

Además de examinar cuidadosamente las implicaciones legales y éticas de sus modelos de IA, debe evaluar si su modelo está alineado con las responsabilidad de su negocio para respetar y promover los derechos humanos. Deberá tener en cuenta la ley sobre los derechos humanos y las responsabilidades que la ONU dispuso para que los negocios respeten los derechos humanos, que incluyen un proceso de diligencia debida para evaluar las repercusiones sobre los derechos humanos, actuar sobre la evaluación y comunicar cómo se solucionan dichas repercusiones.

Tipos de sesgos de los que estar alerta

El sesgo se manifiesta en una diversidad de formas. A veces es el resultado de un error sistemático. Otras veces es el resultado de prejuicios sociales. En ocasiones la distinción está difusa. Teniendo en cuenta estas fuentes de sesgo, estudiemos las maneras en las que el sesgo puede ingresar en un sistema de IA.

Sesgo en la medición o el conjunto de datos

Cuando se etiquetan o categorizan los datos de manera incorrecta o se simplifican en exceso, se produce un sesgo en la medición. El sesgo en la medición puede presentarse cuando una persona comete un error al etiquetar datos o a través de un error de máquina. Una característica, un factor o un grupo pueden estar sobre o infrarrepresentados en su conjunto de datos.

Observemos un ejemplo inocuo: un sistema de reconocimiento de imágenes para gatos y perros. Los datos de entrenamiento parecen bastante sencillos: fotografías de gatos y perros. Pero el conjunto de imágenes solo incluye fotografías de perros negros y gatos blancos o marrones. Confrontado con una fotografía de un perro blanco, la IA la categoriza como un gato. Aunque los datos de entrenamiento del mundo real son raras veces tan limpios y directos, los resultados sí que pueden ser pasmosamente erróneos, con consecuencias graves.

Ilustración de datos de entrenamiento con fotografías de seis perros negros, cuatro gatos blancos y dos gatos marrones ingresados en un algoritmo de aprendizaje para un modelo predictivo. El modelo categoriza el perro blanco como un “gato” con un puntuaje de confianza del 0,96.

Error de tipo 1 frente al tipo 2

Piense en un banco que utiliza IA para predecir si un solicitante saldará un préstamo. Si el sistema predice que el solicitante podrá saldar el préstamo pero no es así, es un falso positivo, o un error de tipo 1. Si el sistema predice que el solicitante no podrá saldar el préstamo pero sí es así, es un falso negativo, o un error de tipo 2. Los bancos quieren conceder préstamos a personas en las que tienen confianza de que los saldarán. Para reducir el riesgo al mínimo, su modelo se inclina hacia los errores de tipo 2. Incluso así, los negativos falsos afectan a los solicitantes que el sistema juzga incorrectamente como incapaces de pagar.

Un balancín con un lado representando los préstamos que son de bajo riesgo para el banco y el otro lado representando préstamos de alto riesgo, inclinándose hacia el alto riesgo.

Sesgo de asociación

Los datos que se etiquetan de acuerdo con estereotipos son un ejemplo de sesgo de asociación. Busque en la mayoría de los minoristas online “juguetes para niñas" y verá un surtido interminable de juguetes de cocinas, muñecas, princesas y color rosa. Busque “juguetes para niños" y verá muñecos de superhéroes, conjuntos de construcción y videojuegos.

Sesgo de confirmación

El sesgo de confirmación etiqueta los datos en base a ideas preconcebidas. Las recomendaciones que ve cuando compra online reflejan sus hábitos de compra, pero los datos que influencian esas compras ya reflejan lo que las personas ven y eligen comprar en primera instancia. Puede ver cómo los sistemas de recomendación refuerzan los estereotipos. Si los superhéroes no aparecen en la sección de “juguetes para niñas” de un sitio web, es probable que el comprador no sepa que están en otro punto del sitio, y serán menos proclives a comprarlos.

Sesgo de automatización

El sesgo de automatización impone los valores de un sistema sobre otros. Tomemos como ejemplo un concurso de belleza juzgado por IA en 2016. El objetivo era proclamar a las mujeres más bellas con alguna noción de objetividad. Pero la IA en cuestión se entrenó principalmente con imágenes de mujeres caucásicas, y la definición que aprendió de “belleza” no incluía características más comunes en personas no caucásicas. Como resultado, la IA eligió principalmente ganadoras caucásicas, lo que reflejaba un sesgo de los datos de entrenamiento en los resultados en el mundo real.

El sesgo de automatización no está limitado a IA. Tome la historia de la fotografía en color. A partir de mediados de 1950, Kodak proporcionó laboratorios fotográficos que desarrollaron su película con una imagen de un empleado de piel blanca llamado Shirley Page que se utilizaba para calibrar tonos de piel, sombras y luces. Mientras que otros modelos se utilizaban todo el tiempo, las imágenes se dieron a conocer como "tarjetas Shirley". El tono de piel de Shirley, independiente de quién era (e inicialmente era siempre blanca) era considerado estándar. Según Lorna Roth, una profesora de comunicación de la Concordia University en Canadá llamada NPR, cuando se crearon las tarjetas por primera vez, "las personas que compraban cámaras eran en su mayoría personas caucásicas. Y por lo tanto supuse que no vieron la necesidad de ampliar el mercado a una gama más amplia de tonos de piel." En 1970, comenzaron a probar en una variedad de tonos de piel y crearon tarjetas Shirley multirraciales.

Sesgo social

El sesgo social repite los resultados de prejuicios pasados en grupos marginalizados históricamente. Considere el redlining. En 1930, una política de vivienda federal codificó por color algunos vecindarios en términos de atractivo. Los marcados en rojo eran considerados peligrosos. Los bancos a menudo deniegan el acceso a casas de bajo coste a grupos minoritarios residentes de esta vecindad marcada en rojo. Hasta el día de hoy, redlining influyó en la composición racial y económica de ciertos códigos postales, de modo que esos códigos postales pueden ser un indicador de raza. Si incluye códigos postales como punto de datos en su modelo, dependiendo del caso de uso podría estar incorporando inadvertidamente la raza como un factor en su algoritmo de toma de decisiones. Recuerde que también es ilegal en EE.UU. utilizar categorías protegidas como la edad, la raza o el género para tomar muchas decisiones financieras.

Sesgo de supervivencia o sobrevivencia

A veces un algoritmo se centra en los resultados de aquellos que fueron seleccionados o que sobrevivieron a un cierto proceso, a expensas de aquellos que se excluyeron. Observemos algunas prácticas de contratación. Imagine que usted es el director de contratación de una compañía y desea determinar si debería contratar desde una universidad específica. Mira a los empleados actuales contratados desde dicha universidad. ¿Pero qué pasa con los candidatos que no se contrataron desde esa universidad o que se contrataron y luego se fueron? Verá el éxito de solo aquellos que “sobrevivieron”.

Infográfico que representan el sesgo de supervivencia en la contratación universitaria. Los candidatos de tres universidades pasan por el primer tamiz, y solo los candidatos que no abandonaron la compañía pasan por el segundo. El grupo final no es representativo de los contratados de esas tres universidades.

Sesgo de interacción

Los humanos creamos el sesgo de interacción cuando interactuamos o intentamos influenciar intencionadamente sistemas de IA y se crea resultados sesgados. Un ejemplo de esto es cuando las personas intentan enseñar intencionadamente palabrotas a los chatbots.

¿Cómo ingresa el sesgo en el sistema?

Usted sabe que el sesgo puede ingresar en un sistema de IA a través de los creadores de un producto, a través de los datos de entrenamiento (o falta de información sobre todas las fuentes que contribuyen en un conjunto de datos), o procedente de contexto social en el que se implementa una IA.

Supuestos

Antes de que alguien comience a construir un sistema determinado, a menudo realiza suposiciones sobre lo que debería construir, para quién debería construirlo y cómo debería funcionar, incluyendo los tipos de datos que hay que recopilar de diversas fuentes. Esto no significa que los creados de un sistema tengan malas intenciones, pero como personas, no siempre comprendemos las experiencias de otras o podemos predecir cómo un sistema afectará a otras personas. Podemos intentar limitar el ingreso de nuestras propias suposiciones en un producto incluyendo diversas partes interesadas y participantes en nuestra investigación y procesos de diseño desde el comienzo. También debemos esforzarnos por tener equipos diversos trabajando en sistemas de IA.

Datos de entrenamiento

Los modelos de IA necesitan datos de entrenamiento, y es fácil ingresar sesgo con el conjunto de datos. Si una compañía contrata históricamente desde las mismas universidades, los mismos programas o en las mismas líneas de género, un sistema de IA de contratación aprenderá que esos son los mejores candidatos. El sistema no recomendará candidatos que no coincidan con esos criterios.

Modelo

Los factores que utiliza para entrenar un modelo de IA, como la raza, el género o la edad, pueden dar como resultado recomendaciones o predicciones que están sesgadas hacia ciertos grupos definidos por esas características. También debe estar alerta sobre factores que funcionan como sustitutivos de esas características. El nombre de una persona, por ejemplo, puede ser un sustitutivo del género, la raza o el país de origen. Por este motivo, los productos de Einstein no usan los nombres de las personas como factores en su modelo de puntuaje de prospectos y oportunidades.

Puntuaje de prospectos y oportunidades de Einstein para Ventas. Un cuadro de diálogo advierte que el “código postal tiene una alta correlación con la raza y podría agregar sesgo al modelo predictivo de esa historia”.

Intervención humana (o falta de ella)

La modificación de los datos de entrenamiento tiene una repercusión sobre el comportamiento del modelo, y puede incorporar o retirar el sesgo. Podríamos eliminar datos de mala calidad o puntos de datos sobrerrepresentados, agregar etiquetas o modificar categorías, o excluir factores específicos, como edad y raza. También podemos dejar el modelo tal cual, que, dependiendo de las circunstancias, puede dar pie al sesgo.

Las partes interesadas en un sistema de IA deberían tener la opción de proporcionar comentarios sobre sus recomendaciones. Esto se puede hacer de manera implícita (digamos que el sistema recomienda un libro al cliente que podría gustarle y el cliente no lo compra) o explícita (digamos que el cliente hace una reseña positiva de una recomendación). Estos comentarios entrenan al modelo para hacer más o menos lo que acaba de hacer. Según el RGPD, los ciudadanos de la UE también deben poder corregir la información incorrecta que una compañía tenga sobre ellos y solicitar que esa compañía elimine sus datos. Incluso sin requerirlo la ley, esto es una mejor práctica y garantiza que su IA está realizando recomendaciones en base a datos procesos y está garantizando la confianza de los clientes.

La IA puede amplificar el sesgo

Los modelos de entrenamiento por IA basados en conjuntos de datos sesgados a menudo amplifican esos sesgos. En un ejemplo, un conjunto de datos de fotografías tenía un 33 por ciento más de mujeres que de hombres relacionadas con cosas de cocina, pero el algoritmo amplificó ese sesgo al 68 por ciento. Para aprender más, vea la publicación del blog en la sección de recursos.

Recursos

Trailhead: Aspectos fundamentales de la inteligencia artificial
Publicación de blog: Cómo acelerar el éxito en la era de la IA
Publicación de blog: La IA no está aprendiendo nuestros sesgos, los está amplificando
Ayuda: Glosario de términos de IA generativa de Einstein

Estimación de tiempo

Temas

¿Necesita ayuda?

Recursos de Einstein