🥇 ▷ Es posible que tengas que esperar un poco más para obtener la opción de carga de imágenes para la función multimodal de Bing.

Es posible que tengas que esperar un poco más para obtener la opción de carga de imágenes para la función multimodal de Bing.

OpenAI lanzó oficialmente GPT-4 y Microsoft reveló que el modelo estaba “personalizado para la búsqueda”. Parte de esta apasionante revelación es la capacidad multimodal del modelo, que le permite procesar imágenes. Sin embargo, esta característica todavía está limitada incluso en Bing. Es más, subir imágenes para aprovechar esta característica aún podría estar lejos, como insinuó uno de los empleados de Microsoft.

La multimodalidad es lo más destacado del último modelo de OpenAI. Y aunque los suscriptores de ChatGPT Plus ya pueden acceder a GPT-4, la función aún está bajo prueba, por lo que no está disponible para todos. No obstante, OpenAI mostró en su reciente publicación de blog cómo funcionaría la multimodalidad en GPT-4, que básicamente puede describir e interpretar imágenes cargadas.

GPT-4 que describe las imágenes cargadas (Crédito de la imagen: OpenAI)

Bing Chat incluyendo imágenes en sus respuestas

¡Wow, Bing ahora puede describir imágenes, ahora que sabe que está usando GPT-4! de bing

Esta capacidad multimodal aparentemente está disponible ahora en el nuevo Bing, aunque no del todo. Para comenzar, los usuarios pueden pedirle a Bing Chat que describa imágenes utilizando los enlaces de imágenes tomados de la web y generará una respuesta. Además, el chatbot ahora incluirá imágenes en su proceso, especialmente si así lo solicitas.

Por otro lado, la opción de cargar directamente una imagen para que Bing la describa o analice aún no está disponible. La llegada de esta opción fue planteada recientemente por un usuario en Gorjeo a Mikhail Parakhin, jefe de Publicidad y Servicios Web de Microsoft, quien sugirió que por ahora no es la prioridad de la empresa.

Es mucho más caro, primero debemos implementar ampliamente la funcionalidad actual. Se trata de incorporar más GPU.

—Mijaíl Parakhin (@MParakhin) 14 de marzo de 2023

Para que esto sea posible, Parakhin señaló la necesidad de “más GPU” y dijo que hacerlo era “mucho más caro”. En una reciente informe, Microsoft reveló que ya había gastado cientos de millones de dólares para construir una supercomputadora ChatGPT vinculando miles de GPU Nvidia en su plataforma de computación en la nube Azure. Con esto, si las palabras de Parakhin se toman en serio, Microsoft podría estar buscando gastar más para llevar completamente la función multimodal a Bing. Y según lo que dijo Parakhin, esto es posible, pero no hoy.