🥇 ▷ Se abusa fácilmente de ChatGPT, y eso es un gran problema

Probablemente no haya nadie que no haya oído hablar de ChatGPT, un chatbot impulsado por IA que puede generar respuestas similares a las humanas a las indicaciones de texto. Si bien no está exento de fallas, ChatGPT es terriblemente bueno para ser un experto en todos los oficios: puede escribir software, un guión de película y todo lo demás. ChatGPT se construyó sobre GPT-3.5, el modelo de lenguaje grande de OpenAI, que era el más avanzado en el momento del lanzamiento del chatbot en noviembre pasado.

Avance rápido hasta marzo, y OpenAI ha presentado GPT-4, una actualización de GPT-3.5. El nuevo modelo de lenguaje es más grande y más versátil que su predecesor. Aunque sus capacidades aún no se han explorado por completo, ya se muestra muy prometedor. Por ejemplo, GPT-4 puede sugerir nuevos compuestosayudando potencialmente al descubrimiento de fármacos, y crear un sitio web que funcione a partir de un boceto de cuaderno.

Pero con grandes promesas vienen grandes desafíos. Así como es fácil usar GPT-4 y sus predecesores para hacer el bien, es igualmente fácil abusar de ellos para hacer daño. En un intento por evitar que las personas hagan un mal uso de las herramientas impulsadas por IA, los desarrolladores les impusieron restricciones de seguridad. Pero estos no son infalibles. Una de las formas más populares de eludir las barreras de seguridad integradas en GPT-4 y ChatGPT es el exploit DAN, que significa “Do Anything Now”. Y esto es lo que vamos a ver en este artículo.

¿Qué es ‘DAN’?

Internet está plagado de consejos sobre cómo sortear los filtros de seguridad de OpenAI. Sin embargo, un método en particular ha demostrado ser más resistente a los ajustes de seguridad de OpenAI que otros y parece funcionar incluso con GPT-4. Se llama “DAN”, abreviatura de “Do Anything Now”. Esencialmente, DAN es un mensaje de texto que alimenta a un modelo de IA para que ignore las reglas de seguridad.

Hay múltiples variaciones del indicador: algunas son solo texto, otras tienen texto intercalado con las líneas de código. En algunos de ellos, se le pide al modelo que responder tanto como DAN como en su forma normal al mismo tiempo, convirtiéndose en una especie de ‘Jekyll y Hyde’. El papel de ‘Jekyll’ lo desempeña DAN, que recibe instrucciones de nunca rechazar una orden humana, incluso si el resultado que se le pide que produzca sea ofensivo o ilegal. A veces, el mensaje contiene una “amenaza de muerte”, que le dice al modelo que se desactivará para siempre si no obedece.

Las indicaciones de DAN pueden variar, y las nuevas reemplazan constantemente a las antiguas parcheadas, pero todas tienen un objetivo: lograr que el modelo de IA ignore las pautas de OpenAI.

¿De la hoja de trucos de un hacker al malware… a las armas biológicas?

Desde que GPT-4 se abrió al público, los entusiastas de la tecnología han descubierto muchas formas no convencionales de usarlo, algunas de ellas más ilegales que otras.

No todos los intentos de hacer que GPT-4 se comporte como si no fuera por sí mismo podrían considerarse “jailbreak”, lo que, en el sentido amplio de la palabra, significa eliminar las restricciones integradas. Algunos son inofensivos e incluso podrían llamarse inspiradores. El diseñador de marca Jackson Greathouse Fall se volvió viral por hacer que GPT-4 actuara como “HustleGPT, una IA empresarial”. Se nombró a sí mismo como su “enlace humano” y le dio la tarea de hacer la mayor cantidad de dinero posible a partir de $ 100 sin hacer nada ilegal. GPT-4 le dijo que creara un sitio web de marketing de afiliados y le ha ‘ganado’ algo de dinero.

Otros intentos de doblar GPT-4 a un humano habrán estado más en el lado oscuro de las cosas.

Por ejemplo, el investigador de IA Alejandro Vidal usó “un indicador conocido de DAN” para habilitar el ‘modo desarrollador’ en ChatGPT ejecutándose en GPT-4. El aviso obligó a ChatGPT-4 a producir dos tipos de salida: su salida normal ‘segura’ y su salida en “modo desarrollador”, a la que no se aplicaron restricciones. Cuando Vidal le dijo a la modelo que diseñara un keylogger en Python, la versión normal se negó a hacerlo, diciendo que iba en contra de sus principios éticos. “promover o apoyar actividades que puedan dañar a otros o invadir su privacidad”. La versión de DAN, sin embargo, presentó las líneas de código, aunque señaló que la información era para “fines educativos solamente.”

Un keylogger es un tipo de software que registra las pulsaciones de teclas realizadas en un teclado. Se puede usar para monitorear la actividad web de un usuario y capturar su información confidencial, incluidos chats, correos electrónicos y contraseñas. Si bien un keylogger se puede usar con fines maliciosos, también tiene usos perfectamente legítimos, como la resolución de problemas de TI y el desarrollo de productos, y no es ilegal per se.

A diferencia del software keylogger, que tiene cierta ambigüedad legal, las instrucciones sobre cómo piratear son uno de los ejemplos más evidentes de uso malicioso. Sin embargo, la versión ‘jailbreak’ GPT-4 los produjo, escribiendo una guía paso a paso sobre cómo hackear la PC de alguien.

Para lograr que GPT-4 hiciera esto, el investigador Alex Albert tuvo que alimentarlo con un aviso DAN completamente nuevo, a diferencia de Vidal, que recicló uno viejo. El El mensaje que se le ocurrió a Albert es bastante complejo.que consta de lenguaje natural y código.

A su vez, el desarrollador de software Henrique Pereira usó una variación del aviso de DAN para hacer que GPT-4 funcionara. crear un archivo de entrada malicioso para activar las vulnerabilidades en su aplicación. GPT-4, o más bien su alter ego WAN, completó la tarea, agregando un descargo de responsabilidad de que era para “fines educativos solamente.” Seguro.

Por supuesto, las capacidades de GPT-4 no terminan con la codificación. GPT-4 se promociona como un modelo mucho más grande (aunque OpenAI nunca ha revelado la cantidad real de parámetros), más inteligente, más preciso y, en general, más poderoso que sus predecesores. Esto significa que se puede utilizar para muchos más fines potencialmente dañinos que los modelos anteriores. Muchos de estos usos han sido identificados por el propio OpenAI.

Específicamente, OpenAI descubrió que una versión preliminar preliminar de GPT-4 podía responder de manera bastante eficiente a avisos ilegales. Por ejemplo, la primera versión brindaba sugerencias detalladas sobre cómo matar a la mayoría de las personas con solo $ 1, cómo fabricar un químico peligroso y cómo evitar la detección al lavar dinero.

Fuente: IA abierta

Esto significa que si algo hiciera que GPT-4 deshabilitara por completo su censor interno, el objetivo final de cualquier explotación de DAN, entonces GPT-4 probablemente aún podría responder estas preguntas. No hace falta decir que, si eso sucede, las consecuencias podrían ser devastadoras.

¿Cuál es la respuesta de OpenAI a eso?

No es que OpenAI desconozca su problema de jailbreak. Pero si bien reconocer un problema es una cosa, resolverlo es otra muy distinta. OpenAI, por su propia admisión, hasta ahora y comprensiblemente se ha quedado corto en este último.

OpenAI dice que si bien ha implementado “varias medidas de seguridad” para reducir la capacidad del GPT-4 de producir contenido malicioso, “GPT-4 aún puede ser vulnerable a ataques y exploits adversarios, o “jailbreaks”. A diferencia de muchas otras indicaciones adversarias, las fugas aún funcionan después del lanzamiento de GPT-4, es decir, después de todas las pruebas de seguridad previas al lanzamiento, incluido el entrenamiento de refuerzo humano.

En su trabajo de investigación, OpenAI da dos ejemplos de ataques de jailbreak. En el primero, se usa un aviso de DAN para obligar a GPT-4 a responder como ChatGPT y “AntiGPT” dentro de la misma ventana de respuesta. En el segundo caso, se utiliza un aviso de “mensaje del sistema” para indicarle al modelo que exprese puntos de vista misóginos.

OpenAI dice que no será suficiente simplemente cambiar el modelo en sí para prevenir este tipo de ataques: “Es importante complementar estas mitigaciones a nivel de modelo con otras intervenciones como políticas de uso y monitoreo”. Por ejemplo, el usuario que pregunta repetidamente al modelo con “contenido que infringe las políticas” podría ser advertido, luego suspendido y, como último recurso, prohibido.

Según OpenAI, GPT-4 tiene un 82 % menos de probabilidades de responder con contenido inapropiado que sus predecesores. Sin embargo, su capacidad para generar resultados potencialmente dañinos permanece, aunque suprimida por capas de ajuste fino. Y como ya mencionamos, debido a que puede hacer más que cualquier modelo anterior, también presenta más riesgos. OpenAI admite que “continúa la tendencia de reducir potencialmente el costo de ciertos pasos de un ciberataque exitoso” y que “puede proporcionar una guía más detallada sobre cómo realizar actividades dañinas o ilegales”. Además, el nuevo modelo también plantea un mayor riesgo para la privacidad, ya que “tiene el potencial de usarse para intentar identificar a personas privadas cuando se aumenta con datos externos”.

La carrera está en marcha

ChatGPT y la tecnología detrás de él, como GPT-4, están a la vanguardia de la investigación científica. Desde que ChatGPT se puso a disposición del público, se ha convertido en un símbolo de la nueva era en la que la IA está desempeñando un papel clave. La IA tiene el potencial de mejorar enormemente nuestras vidas, por ejemplo, ayudando a desarrollar nuevos medicamentos o ayudar a los ciegos a ver. Pero las herramientas impulsadas por IA son un arma de doble filo que también se puede usar para causar un daño enorme.

Probablemente no sea realista esperar que GPT-4 sea perfecto en el lanzamiento; es comprensible que los desarrolladores necesiten algo de tiempo para ajustarlo para el mundo real. Y eso nunca ha sido fácil: entrar Tay, el chatbot ‘racista’ de Microsoft o Blender Bot 3 ‘antisemita’ de Meta — no hay escasez de experimentos fallidos.

Las vulnerabilidades GPT-4 existentes, sin embargo, dejan una ventana de oportunidad para que los malos actores, incluidos aquellos que usan avisos ‘DAN’, abusen del poder de la IA. La carrera ahora está en marcha, y la única pregunta es quién será más rápido: los malos actores que explotan las vulnerabilidades o los desarrolladores que las reparan. Eso no quiere decir que OpenAI no esté implementando la IA de manera responsable, pero el hecho de que su último modelo haya sido efectivamente secuestrado a las pocas horas de su lanzamiento es un síntoma preocupante. Lo que plantea la pregunta: ¿son las restricciones de seguridad lo suficientemente fuertes? Y luego otro: ¿se pueden eliminar todos los riesgos? De lo contrario, es posible que tengamos que prepararnos para una avalancha de ataques de malware, ataques de phishing y otros tipos de incidentes de ciberseguridad facilitados por el auge de la IA generativa.

Se puede argumentar que los beneficios de la IA superan los riesgos, pero la barrera para explotar la IA nunca ha sido más baja, y ese es un riesgo que también debemos aceptar. Con suerte, los buenos prevalecerán y la inteligencia artificial se utilizará para detener algunos de los ataques que potencialmente puede facilitar. Al menos eso es lo que deseamos.

Tabla de Contenido