🥇 ▷ ChatGPT ayuda a los investigadores a evadir la seguridad de la IA

Hoy en día, puedes hacer mucho con los modelos de lenguaje, como ayudarte con tu trabajo diario o engañar a otros sistemas de inteligencia artificial.

Nicholas Carlini, investigador del proyecto Deep Mind de Google, lleva algún tiempo intentando demostrar que los sistemas de seguridad de IA tienen fallos. Para mostrar cómo se puede engañar a AI-Guardian, un sistema de seguridad que puede integrarse en modelos, Carlini pidió consejo a ChatGPT. El trabajo de investigación de Carlini “Una explotación asistida por LLM de AI Guardian”no solo describe cómo AI-Guardian para el tonto se puede realizar, pero también cómo ChatGPT fue una ayuda importante para obtener la respuesta.

La herramienta descifrada, AI-Guardian, se utiliza principalmente para detectar la manipulación de imágenes. Es bien sabido que los sistemas de clasificación de imágenes, en particular, tienen dificultades con entradas falsas. Por ejemplo, solo puedes hacer algunos cambios en una foto con una señal de tráfico (deslizar el dedo aquí y allá, unos cuantos píxeles de un color diferente…) para garantizar que el sistema de inteligencia artificial no vea la señal de tráfico. Por supuesto: esto es un desastre para los vehículos autónomos y también la razón por la que se creó un sistema como AI-Guardian.

Guardián de la IA

AI-Guardian fue desarrollado por Hon Zhu, Shengzhi Zhang y Kay Chen y propuesto en 2023. Por lo tanto, la herramienta debe detectar cuándo se han manipulado las imágenes, para poder preservar los sistemas de conducción autónoma y otros sistemas en busca de imágenes falsas. Un sistema de este tipo utiliza todo tipo de métodos para detectar cuándo una imagen ha sido manipulada y sabe cómo protegerse contra ello. Es por eso que AI-Guardian a menudo rechaza las imágenes con imperfecciones y artefactos “sospechosos”: deberían reducir la posibilidad de que se utilicen imágenes modificadas.

Un sistema de este tipo siempre utiliza un enfoque sistemático para determinar qué imágenes no pueden utilizarse. Es decir, hay ciertos elementos que hacen que el sistema piense “esto es falso”. Nicholas Carlini y ChatGPT rastrearon esos elementos mostrando a AI Guardian imágenes ligeramente diferentes cada vez. Píxel a píxel, algo se fue ajustando a la imagen, hasta que el investigador pudo determinar exactamente lo que reconocía el sistema. Finalmente, utilizando un script de Python que generó ChatGPT, se pudo engañar al sistema de seguridad.

Difícil de lograr

Los investigadores y desarrolladores de AI-Guardian señalan que un truco de este tipo es mucho menos fácil en la vida real. Carlini tuvo acceso a una serie de datos importantes dentro del sistema, lo que le permitió adoptar un enfoque más específico. Sin embargo, esto no siempre es posible: el “vector de certeza”, uno de los datos que Carlini pudo utilizar, normalmente es imposible de encontrar para los atacantes.

Aún así, el crack AI-Guardian muestra que las posibilidades con la IA son de gran alcance. Por lo tanto, Carlini está entusiasmado con su próxima investigación y con el papel que desempeñarán los chatbots en ella. Ciertamente, GPT puede llevar a cabo tareas repetitivas con éxito. Es más difícil para otras tareas: requieren cada vez más conocimientos de dominio específicos que los que posee ChatGPT. Por lo tanto, por el momento es realmente necesario que un investigador vigile por encima del hombro a la IA.

Tabla de Contenido