🥇 ▷ El modelo de IA podría haber inventado su propio 'lenguaje secreto', afirman los investigadores

Investigadores de Estados Unidos afirmaron la semana pasada que el DALL-E 2 El modelo puede haber inventado su propio lenguaje secreto para comunicarse sobre los objetos.

Reclamación intrigante

El DALL-E 2 es un modelo de inteligencia artificial de nueva generación que puede crear imágenes que contienen leyendas de texto y luego revertir las leyendas galimatías en su sistema.

Los investigadores concluyeron que DALL-E 2 cree que Vicootes implica “verduras”, mientras que “Wa ch zod rea” alude a “animales marinos que una ballena consumiría” y, en última instancia, afirman que el modelo tiene su propio lenguaje secreto.

DALLE-2 tiene un lenguaje secreto.
“Apoploe vesrreaitais” significa pájaros.
“Contarra ccetnxniams luryca tanniounons” significa insectos o plagas.

El mensaje: “Apoploe vesrreaitais comiendo Contarra ccetnxniams luryca tanniounons” ofrece imágenes de pájaros comiendo insectos.

Un hilo (1/n)🧵 pic.twitter.com/VzWfsCFnZo

– Giannis Daras (@giannis_daras) 31 de mayo de 2022

Estas afirmaciones son intrigantes porque, de ser ciertas, podrían tener ramificaciones significativas para la seguridad y la interpretabilidad de enormes modelos de IA. ¿Pero estas acusaciones tienen algo de verdad?

Lea también: La IA mejorará la visión y el lenguaje: el nuevo DALL-E 2 de OpenAI es una tecnología prometedora

¿Es verdad?

Es poco probable que DALL-E 2 tenga un “lenguaje oculto”, según Aaron J. Snoswellinvestigador de Derecho Computacional y Responsabilidad de la IA de la Universidad Tecnológica de Queensland,

Escribió en un artículo. publicado en La conversación que tiene su propio vocabulario.

Para empezar, verificar las afirmaciones sobre DALL-E 2 y otros enormes modelos de IA es difícil en este momento porque solo unos pocos investigadores y profesionales creativos han utilizado esta tecnología.

Snoswell explica además que cualquier fotografía publicada públicamente (en Twitter, por ejemplo) debe tomarse con cautela porque un humano las seleccionó personalmente entre una gran cantidad de imágenes generadas por IA.

Sin embargo, incluso aquellos con acceso todavía tienen restricciones en la aplicación de estos conceptos. Por ejemplo, los usuarios de este modelo pueden crear y editar imágenes, pero aún deben interactuar de manera más integral con el sistema de inteligencia artificial, por ejemplo, cambiando el código detrás de escena.

Por lo tanto, la falta de metodologías de “IA explicables” puede responder cómo funcionan estos sistemas, y el examen sistemático de su comportamiento también es un desafío.

La explicación

Una posibilidad que podría explicar el modelo es que las oraciones “galimatías” se deriven del vocabulario no inglés. por ejemplo, que significa evocar imágenes de pájaros, está relacionado con , el nombre científico de una familia de especies de aves en latín.

Esta parece ser una respuesta razonable. DALL-E 2, por ejemplo, se entrenó con una gran cantidad de datos extraídos de Internet, incluidas muchas palabras que no estaban en inglés.

El “lenguaje oculto” podría ser potencialmente un caso del concepto de “basura entra, basura sale” en acción. Dado que DALL-E 2 no puede decir “No tengo idea de qué estás hablando”, siempre generará una imagen a partir del texto proporcionado, como explica Snoswell.

Pero Snoswell también dijo que ninguna de estas posibilidades es una explicación completa de lo que está pasando. Por ejemplo, eliminar caracteres individuales de frases galimatías tiende a provocar una corrupción visual extremadamente particular. Al parecer, las palabras galimatías individuales no siempre se combinan para formar imágenes compuestas lógicas.

Ataque adversario

Snoswell señaló que esta cuestión es importante porque la posibilidad de que el lenguaje secreto de un modelo de IA pueda constituir un “ataque adversario” contra el sistema basado en el aprendizaje de una máquina.

Este ataque es un medio para elegir deliberadamente entradas que la IA no maneja bien para interrumpir la acción prevista del sistema.

Los ataques adversarios son preocupantes porque ponen en duda nuestra confianza en el modelo de IA. Si la IA analiza frases incoherentes de forma incorrecta, también puede interpretar de forma imprecisa palabras significativas.

Snoswell dijo que son riesgos de seguridad los que conllevan los ataques adversarios. DALL-E 2 utiliza un “lenguaje secreto” de frases galimatías para evitar que los usuarios creen contenido dañino o abusivo. Sin embargo, es posible que los usuarios puedan sortear los filtros.

Tabla de Contenido

El modelo de IA podría haber inventado su propio ‘lenguaje secreto’, afirman los investigadores

Reclamación intrigante

¿Es verdad?

La explicación

Ataque adversario