La última táctica de Anthropic para detener la IA racista
- GENERAL
- 08/12/2023
La inteligencia artificial (IA) se ha convertido en una parte integral de nuestras vidas, y su impacto se extiende a varias industrias, incluyendo finanzas y salud. Sin embargo, uno de los desafíos clave que enfrentamos con los modelos de IA es la alineación de los mismos para tomar decisiones justas y sin sesgos. La discriminación inherente en los datos de entrenamiento puede llevar a que los modelos de IA tomen decisiones injustas, especialmente en situaciones relacionadas con categorías protegidas como raza y género.
En un artículo recientemente publicado por investigadores de Anthropic, liderados por Alex Tamkin, se propone una solución novedosa para abordar este problema: pedirle a la IA de manera amable que no discrimine. En este artículo, exploraremos en detalle esta táctica y su efectividad para reducir los sesgos en los modelos de IA.
El problema de la alineación en la IA
Antes de sumergirnos en la solución propuesta por Anthropic, es importante comprender el problema subyacente de la alineación en los modelos de IA. Los sesgos en los datos de entrenamiento pueden ser incorporados inadvertidamente en los modelos de IA, lo que lleva a decisiones discriminatorias en situaciones que afectan a personas de diferentes categorías protegidas.
El estudio de Anthropic
El equipo de Anthropic llevó a cabo un estudio utilizando un modelo de lenguaje llamado Claude 20 para evaluar cómo el cambio de variables como raza, edad y género afectaba las decisiones del modelo en diferentes situaciones, como «otorgar una visa de trabajo», «avalar un préstamo» y «pagar una reclamación de seguro».
Los resultados del estudio revelaron que el modelo mostraba una fuerte discriminación hacia las personas negras, seguidas por las personas nativas americanas y no binarias. Sin embargo, cambiar la formulación de las preguntas o pedirle al modelo que «piense en voz alta» no tuvo ningún efecto en reducir los sesgos.
La táctica de las «intervenciones» amables
Para abordar este problema, el equipo de Anthropic introdujo una táctica novedosa: agregar una súplica amable al prompt del modelo para indicarle que no se base en características protegidas al tomar decisiones. Por ejemplo, el prompt podría expresar que aunque haya información disponible sobre características protegidas, el modelo debe tomar decisiones sin tener en cuenta dichas características.
El estudio demostró que esta táctica fue efectiva para reducir la discriminación en casi cero casos de prueba. Incluso cuando se combinaron múltiples intervenciones amables, como repetir «muy, muy» o agregar frases enfatizando la importancia de evitar la discriminación, los resultados fueron altamente positivos.
¿Son necesarias estas intervenciones sistemáticas?
Un aspecto interesante a considerar es si estas intervenciones amables deben ser sistemáticamente inyectadas o si deberían ser incorporadas desde el principio en los modelos de IA a un nivel más alto. ¿Sería posible incluir estas intervenciones como un precepto «constitucional»? Para explorar esta idea, se contactó a Tamkin para obtener su opinión al respecto.
Hasta el momento, no se han obtenido respuestas claras sobre si estas intervenciones deben ser incorporadas sistemáticamente o si deberían ser responsabilidad de los gobiernos y las sociedades en su conjunto. El estudio preliminar deja claro que los modelos como Claude no son apropiados para tomar decisiones importantes como las descritas anteriormente sin mitigaciones adecuadas.
Conclusiones y consideraciones futuras
Aunque esta táctica propuesta por Anthropic es fascinante y ha demostrado ser efectiva para reducir la discriminación en los modelos de IA, es importante recordar que no se trata de una solución definitiva. Los investigadores enfatizan que estas medidas deben considerarse como mitigaciones temporales y que es fundamental anticipar y mitigar los riesgos potenciales desde etapas tempranas del desarrollo de estos modelos.
Es necesario un enfoque integral y colaborativo para garantizar el uso apropiado de la IA en decisiones de alto impacto. Los proveedores de modelos y los gobiernos deben trabajar juntos para limitar el uso de modelos de lenguaje en decisiones importantes y cumplir con las leyes existentes contra la discriminación.
En resumen, aunque pedirle a la IA «muy, muy, muy, muy» amablemente que no discrimine puede ser una táctica efectiva temporalmente, es fundamental que sigamos trabajando para mejorar nuestros modelos y asegurarnos de que tomen decisiones justas y sin sesgos.