🥇 ▷ Visual ChatGPT está aquí para evolucionar los generadores de texto a imagen

Los investigadores de Microsoft han presentado un nueva arquitectura llamada Visual ChatGPT, cuyo objetivo es combinar las fortalezas del procesamiento del lenguaje natural y la generación de imágenes. La tecnología representa un avance significativo para los algoritmos de texto a imagen, lo que permite la creación de una experiencia de inteligencia artificial (IA) más orgánica e interactiva.

Esta tecnología revolucionaria podría cambiar la cara de los modelos de texto a imagen, que durante mucho tiempo han luchado con el contexto lingüístico. En un artículo que explora la comprensión relacional de los modelos generativos de IA, los investigadores descubrieron que estos modelos no “comprendían” las relaciones físicas de ciertos objetos. Visual ChatGPT podría ayudar a superar esta limitación, allanando potencialmente el camino para futuros desarrollos en inteligencia artificial general (AGI).

Puedes consulte el artículo de Microsoft sobre Visual ChatGPT usando el enlace aquí.

¿Cómo funciona Visual ChatGPT?

¿Cómo funciona Visual ChatGPT? Esencialmente, integra las capacidades de los modelos de base visual como Stable Diffusion, ControlNet y BLIP con la comprensión del lenguaje de ChatGPT. El “administrador de avisos” actúa como una interfaz entre ChatGPT y los modelos visualeslo que permite un procesamiento continuo de la salida.

Esta integración ayuda a superar las limitaciones de ambas plataformas, lo que da como resultado una versión mucho más capaz de ChatGPT que no depende de las alucinaciones, sino que aprovecha la capacidades de los VFM a través del administrador de avisos.

Aquí hay un diagrama de cómo funciona Visual ChatGPT:

Una de las principales ventajas de Visual ChatGPT es que permite compartir imágenes con ChatGPT. El administrador de avisos actúa como un “administrador de cocina”, retransmitiendo los pedidos y la comida entre el “mesero” (ChatGPT) y los “chefs” (VFM).

El sistema también incluye un formato de razonamiento, que permite a ChatGPT decidir cuándo necesita usar una herramienta como un VFM para proporcionar el resultado necesario.

¿Cómo usar Visual ChatGPT?

Antes de ejecutar la demostración de Visual ChatGPT, debe seguir algunos pasos como se describe en su página de GitHub. Esto es lo que debe hacer para ejecutar Visual ChatGPT:

# crear un nuevo entorno
conda crear -n visgpt python=3.8
# activar el nuevo entorno
conda activar visgpt
# preparar los ambientes básicos
pip install -r requisito.txt
# descargar los modelos de base visual
descargar bash.sh
# prepare su clave privada privada de openAI
export OPENAI_API_KEY={Tu_Clave_Openai_Privada}
# crear una carpeta para guardar imágenes
mkdir ./imagen
# ¡Inicia Visual ChatGPT!
pitón visual_chatgpt.py

Visual ChatGPT es una herramienta útil que potencialmente puede reducir la curva de aprendizaje de los modelos de texto a imagen y permitir que los programas de IA interactúen entre sí. Los modelos anteriores, como los modelos LLM y T2I, se desarrollaron de forma aislada, pero con avances innovadores, su rendimiento puede mejorar significativamente.

Hay mucha expectativa por el lanzamiento de GPT-4, que se espera que sobresalga en la producción de imágenes con ChatGPT. Sin embargo, por el momento se desconoce la fecha de lanzamiento de este modelo tan esperado.

Se han creado nuevas oportunidades de trabajo AI

A medida que el campo de la ingeniería rápida continúa evolucionando, Están surgiendo susurradores de IA como una nueva categoría de trabajo crítica. Estos profesionales trabajan para ayudar a los modelos de IA a “comprender” el lenguaje y el contexto humanos, lo que permite un procesamiento del lenguaje natural más eficaz.

El administrador de mensajes en Visual ChatGPT representa un importante paso adelante en este campo, simplificando el proceso de transmitir información al modelo sin necesidad de mensajes complejos. Por lo tanto, trabajos como la ingeniería puntual se vuelven cada vez más accesible para las personas interesadas en las tecnologías de IA.

Conclusión

Visual ChatGPT es un desarrollo importante en el campo de la IA, con el potencial de ampliar las capacidades de los modelos de última generación. Al reunir las fortalezas de los modelos LLM y T2I, tiene el potencial de reducir las barreras de entrada y agregar interoperabilidad a varias herramientas de IA.

Si bien aún queda mucho por aprender sobre las capacidades de Visual ChatGPT y tecnologías similares, representa una nueva y emocionante frontera en el campo de la inteligencia artificial.

Tabla de Contenido