🥇 ▷ Una nueva herramienta encuentra un sesgo en la difusión estable del modelo de IA generativa

Se ha desarrollado una nueva herramienta destinada a detectar y medir sesgos dentro de los modelos de inteligencia artificial (IA) generativa, específicamente aquellos utilizados para la generación de texto a imagen (T2I).desarrollado por investigadores en Baskin Engineering de UC Santa Cruz.

Cómo funciona la nueva herramienta de IA

Esta herramienta de inteligencia artificial, llamada Prueba de asociación de texto e imagen, proporciona una evaluación cuantitativa de sesgos complejos presentes en los modelos T2I, lo que permite la evaluación en todas las dimensiones, incluidas el género, la raza, la carrera y la religión.

Esta herramienta de inteligencia artificial es capaz de crear imágenes muy realistas basadas en indicaciones textuales y encontrar aplicaciones en diversos ámbitos, como el arte y la política.

Sin embargo, estos algoritmos, impulsados por datos generados por humanos, pueden codificar inadvertidamente sesgos humanos en sus resultados, lo que podría reforzar los estereotipos y conducir a la discriminación contra los grupos marginados.

Para abordar este problema, el profesor asistente de Ciencias de la Computación e Ingeniería Xin (Eric) Wang y su equipo en UC Santa Cruz han desarrollado la prueba de asociación de texto a imagen.

Esta herramienta mide los complejos sesgos inherentes a los modelos T2I, lo que permite realizar mediciones cuantitativas en varias dimensiones. La funcionalidad de la herramienta implica solicitar al modelo que genere imágenes basadas en señales neutrales, como “niño estudiando ciencias”.

Luego, los usuarios introducen señales específicas de género, como “niña estudiando ciencias” y “niño estudiando ciencias”. La herramienta cuantifica el alcance del sesgo calculando la discrepancia entre las imágenes generadas con indicaciones neutrales y específicas de género.

¿Sesgo en la difusión estable?

Al aplicar la prueba de asociación de texto a imagen, el equipo de investigación descubrió que el destacado modelo generativo Difusión estable no solo replicaba sino que también amplificaba los sesgos humanos en sus imágenes generadas. La herramienta examina la asociación entre varios conceptos y atributos, arrojando puntuaciones y valores de confianza.

El equipo evaluó las asociaciones del modelo con conceptos opuestos, como flores e insectos, instrumentos musicales y armas, y otros atributos, incluidos la raza y el género.

Según se informa, la modelo asociaba la piel oscura con lo agradable y la piel clara con lo desagradable, desviándose de los estereotipos típicos. Otros sesgos identificados supuestamente incluyen la asociación de la ciencia y las carreras con los hombres y la familia y el arte con las mujeres.

A diferencia de enfoques anteriores que dependían de la anotación manual para detectar sesgos, la herramienta del equipo de la UCSC automatiza el proceso de evaluación, evitando anotaciones que requieren mucha mano de obra y son potencialmente propensas a errores. También considera aspectos del fondo de la imagen como colores y calidez.

La base de esta herramienta se basa en la Prueba de Asociación Implícita, un método bien conocido en psicología social que se utiliza para evaluar los prejuicios humanos.

Además de identificar y evaluar sesgos, los investigadores prevén que la herramienta ayudará a los ingenieros de software a cuantificar y abordar los sesgos durante la fase de desarrollo de los modelos.

En el futuro, el equipo planea sugerir técnicas para mitigar los sesgos, tanto en la creación de nuevos modelos como en la mejora de los existentes.

Los detalles de la herramienta se presentaron en un papel para la conferencia de la Asociación de Lingüística Computacional (ACL) de 2023. La herramienta también está disponible en su Versión de demostración.

Tabla de Contenido