Los modelos de aprendizaje automático, utilizados a menudo para tomar decisiones sobre violaciones de reglas, no logran replicar el juicio humano, según un estudio realizado por investigadores del MIT y otras instituciones.
El estudio encontró que cuando no se entrenan con los datos correctos, estos modelos tienden a emitir juicios diferentes y a menudo más severos que los humanos.
La cuestión clave
La cuestión clave radica en los datos utilizados para entrenar los modelos de aprendizaje automático. Por lo general, los datos se etiquetan de forma descriptiva, donde se pide a los humanos que identifiquen caracterÃsticas objetivas.
Por ejemplo, en el caso de juzgar si una comida viola una polÃtica escolar que prohÃbe la comida frita, se pide a los humanos que determinen la presencia de comida frita en una fotografÃa.
Sin embargo, cuando estos modelos descriptivos juzgan las violaciones de las reglas, tienden a predecirlas en exceso.
Las implicaciones de esta caÃda en la precisión son significativas. Por ejemplo, supongamos que se utiliza un modelo descriptivo para evaluar la probabilidad de que un individuo cometa otro delito. En ese caso, el estudio indica que podrÃa imponer juicios más estrictos en comparación con los realizados por humanos. En consecuencia, esto podrÃa dar lugar a fianzas elevadas o sentencias más largas para los delincuentes.
Según Marzyeh Ghassemi, profesor asistente y jefe del Grupo Healthy ML en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, estos modelos no logran replicar juicios humanos sesgados porque los datos de entrenamiento en sà son defectuosos.
Si los humanos fueran conscientes de que sus etiquetas se utilizarÃan para emitir juicios, etiquetarÃan las imágenes y el texto de manera diferente. Esto tiene implicaciones importantes para los sistemas de aprendizaje automático integrados en los procesos humanos.
Discrepancia de etiquetado
El equipo de investigación realizó un estudio de usuarios para investigar la discrepancia de etiquetado entre etiquetas descriptivas y normativas. Reunieron cuatro conjuntos de datos para imitar diferentes polÃticas y pidieron a los participantes que proporcionaran etiquetas descriptivas o normativas.
Los resultados mostraron que los humanos eran más propensos a etiquetar un objeto como una violación en el entorno descriptivo. La disparidad osciló entre el 8 por ciento para las violaciones del código de vestimenta y el 20 por ciento para las imágenes de perros.
Para explorar más a fondo el impacto del uso de datos descriptivos, los investigadores entrenaron dos modelos: uno usando datos descriptivos y el otro usando datos normativos para juzgar las violaciones de las reglas.
El examen indicó que el modelo entrenado con datos descriptivos tuvo un rendimiento menos efectivo que el modelo entrenado con datos normativos.
El modelo descriptivo demostró una mayor tendencia a clasificar erróneamente los insumos al predecir de manera inexacta las violaciones de las reglas. Además, su precisión disminuyó significativamente al categorizar objetos que generaban desacuerdos entre los etiquetadores humanos.
Transparencia del conjunto de datos
Para abordar este problema, se debe mejorar la transparencia de los conjuntos de datos, permitiendo a los investigadores comprender el proceso de recopilación de datos y utilizarlos correctamente.
Otra solución es ajustar modelos entrenados descriptivamente con una pequeña porción de datos normativos, una técnica conocida como aprendizaje por transferencia.
Los investigadores tienen la intención de investigar este enfoque en estudios futuros. Además, tienen planes de realizar un estudio similar con etiquetadores expertos para examinar la presencia de disparidades en las etiquetas.
Ghassemi enfatiza la necesidad de transparencia al reconocer las limitaciones de los modelos de aprendizaje automático.
Ella fijado“La forma de solucionar esto es reconocer de forma transparente que si queremos reproducir el juicio humano, sólo debemos usar datos que fueron recopilados en ese entorno. De lo contrario, terminaremos con sistemas que tendrán moderaciones extremadamente duras. , mucho más duro de lo que harÃan los humanos. Los humanos verÃan matices o harÃan otra distinción, mientras que estos modelos no lo hacen”.
El estudio fue publicado en la revista Science Advances.
â“’ 2023 . .