🥇 ▷ La IA no logra imitar el juicio humano, lo que resulta en violaciones más severas de las reglas: estudio

Los modelos de aprendizaje automático, utilizados a menudo para tomar decisiones sobre violaciones de reglas, no logran replicar el juicio humano, según un estudio realizado por investigadores del MIT y otras instituciones.

El estudio encontró que cuando no se entrenan con los datos correctos, estos modelos tienden a emitir juicios diferentes y a menudo más severos que los humanos.

La cuestión clave

La cuestión clave radica en los datos utilizados para entrenar los modelos de aprendizaje automático. Por lo general, los datos se etiquetan de forma descriptiva, donde se pide a los humanos que identifiquen características objetivas.

Por ejemplo, en el caso de juzgar si una comida viola una política escolar que prohíbe la comida frita, se pide a los humanos que determinen la presencia de comida frita en una fotografía.

Sin embargo, cuando estos modelos descriptivos juzgan las violaciones de las reglas, tienden a predecirlas en exceso.

Las implicaciones de esta caída en la precisión son significativas. Por ejemplo, supongamos que se utiliza un modelo descriptivo para evaluar la probabilidad de que un individuo cometa otro delito. En ese caso, el estudio indica que podría imponer juicios más estrictos en comparación con los realizados por humanos. En consecuencia, esto podría dar lugar a fianzas elevadas o sentencias más largas para los delincuentes.

Según Marzyeh Ghassemi, profesor asistente y jefe del Grupo Healthy ML en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, estos modelos no logran replicar juicios humanos sesgados porque los datos de entrenamiento en sí son defectuosos.

Si los humanos fueran conscientes de que sus etiquetas se utilizarían para emitir juicios, etiquetarían las imágenes y el texto de manera diferente. Esto tiene implicaciones importantes para los sistemas de aprendizaje automático integrados en los procesos humanos.

Discrepancia de etiquetado

El equipo de investigación realizó un estudio de usuarios para investigar la discrepancia de etiquetado entre etiquetas descriptivas y normativas. Reunieron cuatro conjuntos de datos para imitar diferentes políticas y pidieron a los participantes que proporcionaran etiquetas descriptivas o normativas.

Los resultados mostraron que los humanos eran más propensos a etiquetar un objeto como una violación en el entorno descriptivo. La disparidad osciló entre el 8 por ciento para las violaciones del código de vestimenta y el 20 por ciento para las imágenes de perros.

Para explorar más a fondo el impacto del uso de datos descriptivos, los investigadores entrenaron dos modelos: uno usando datos descriptivos y el otro usando datos normativos para juzgar las violaciones de las reglas.

El examen indicó que el modelo entrenado con datos descriptivos tuvo un rendimiento menos efectivo que el modelo entrenado con datos normativos.

El modelo descriptivo demostró una mayor tendencia a clasificar erróneamente los insumos al predecir de manera inexacta las violaciones de las reglas. Además, su precisión disminuyó significativamente al categorizar objetos que generaban desacuerdos entre los etiquetadores humanos.

Transparencia del conjunto de datos

Para abordar este problema, se debe mejorar la transparencia de los conjuntos de datos, permitiendo a los investigadores comprender el proceso de recopilación de datos y utilizarlos correctamente.

Otra solución es ajustar modelos entrenados descriptivamente con una pequeña porción de datos normativos, una técnica conocida como aprendizaje por transferencia.

Los investigadores tienen la intención de investigar este enfoque en estudios futuros. Además, tienen planes de realizar un estudio similar con etiquetadores expertos para examinar la presencia de disparidades en las etiquetas.

Ghassemi enfatiza la necesidad de transparencia al reconocer las limitaciones de los modelos de aprendizaje automático.

Ella fijado“La forma de solucionar esto es reconocer de forma transparente que si queremos reproducir el juicio humano, sólo debemos usar datos que fueron recopilados en ese entorno. De lo contrario, terminaremos con sistemas que tendrán moderaciones extremadamente duras. , mucho más duro de lo que harían los humanos. Los humanos verían matices o harían otra distinción, mientras que estos modelos no lo hacen”.

El estudio fue publicado en la revista Science Advances.

Tabla de Contenido