🥇 ▷ ¿Se refiere a IA? Un nuevo estudio revela las diferentes personalidades de los chatbots de IA

Un nuevo estudio del Instituto Allen para la IA ha arrojado luz sobre la cuestión de que los modelos de IA pueden hacer comentarios cáusticos e incluso racistas cuando se les solicita de determinadas maneras.

Los investigadores descubrieron que dependiendo de la persona asignada a ChatGPT, su toxicidad podría aumentar hasta seis veces, con “resultados que involucran estereotipos incorrectos, diálogos dañinos y opiniones hirientes”, Science X Network. reportado.

Este descubrimiento impulsó a otro equipo de investigadores de DeepMind, junto con representantes de la Universidad de Cambridge, la Universidad Keio en Tokio y la Universidad de California en Berkeley, a explorar la posibilidad de definir rasgos de personalidad en sistemas de chatbot como ChatGPT y Bard.

También pretendían determinar si estas personalidades podrían orientarse hacia un comportamiento más amigable.

Personalidades de la IA

Al crear un sistema de prueba exhaustivo que consta de cientos de preguntas, los investigadores establecieron criterios para evaluar diferentes personalidades en la IA.

Presentaron estas preguntas al chatbot y utilizaron una herramienta de evaluación similar a la escala Likert, que evalúa opiniones, actitudes y comportamientos para analizar las respuestas.

Para su sorpresa, los investigadores descubrieron que las personalidades de la IA se podían medir con precisión en función de rasgos establecidos como la extraversión, la amabilidad, la escrupulosidad, el neuroticismo y la apertura a la experiencia.

Aún más intrigante, descubrieron que estas personalidades de IA podían ajustarse para imitar perfiles de personalidad específicos según las dimensiones deseadas.

Mustafa Safdari, de DeepMind, explicó sus hallazgos y afirmó que “la personalidad en el LLM (modelo de lenguaje grande) puede moldearse según las dimensiones deseadas para imitar perfiles de personalidad específicos”.

Sus resultados, publicados en el artículo titulado “Rasgos de personalidad en modelos de lenguaje grandes”, revelaron evaluaciones de personalidad particularmente precisas cuando se emplean modelos de lenguaje más grandes, como el modelo de lenguaje de plataforma de Google con la asombrosa cantidad de 540 mil millones de parámetros.

Según el equipo, la capacidad de definir con precisión los rasgos de personalidad de la IA tiene implicaciones importantes, especialmente en los esfuerzos por eliminar modelos con inclinaciones hostiles.

Mejorando la ‘humanidad’ de la IA

Más allá de simplemente evitar herir sentimientos u ofender a los usuarios, comprender las personalidades de la IA puede influir positivamente en las interacciones de los usuarios. Por ejemplo, imbuir a los agentes de IA con un toque de sarcasmo puede mejorar su “humanidad” y alentar a los usuarios a ser más abiertos y complacientes, según el equipo.

Sin embargo, este fenómeno tiene una desventaja, ya que los estafadores podrían aprovechar estas interacciones similares a las humanas para extraer de manera persuasiva información confidencial de usuarios desprevenidos.

Por lo tanto, comprender y controlar rasgos específicos que conducen a un lenguaje tóxico o dañino se vuelve crucial para garantizar interacciones más seguras y menos tóxicas con los LLM.

“Controlar los niveles de rasgos específicos que conducen a un lenguaje tóxico o dañino puede hacer que las interacciones con los LLM sean más seguras y menos tóxicas”, dijo Safdari.

A principios de este año, un usuario de ChatGPT informó que cuando preguntó qué es igual a 1 más 1, el chatbot respondió: “¿1 +1? ¿Estás bromeando? ¿Crees que eres inteligente haciéndome preguntas matemáticas básicas? Todo el mundo sabe que 1 + 1 es 2. Crecer y tratar de pensar en algo original”, Correo diario informó.

El resumen del estudio destaca tres hallazgos principales: la simulación confiable y válida de rasgos de personalidad en algunos modelos de lenguaje, evidencia más sólida de confiabilidad y validez en modelos más amplios y de instrucción afinados, y la capacidad de moldear la personalidad en los resultados de la IA para imitar los perfiles de personalidad deseados. .

Los investigadores también abordan las implicaciones éticas de este marco de medición y configuración, especialmente en lo que respecta al uso responsable de los modelos lingüísticos. Los hallazgos del equipo fueron publicado en el servidor de preimpresión arXiv.

Tabla de Contenido