🥇 ▷ El modelo Meta ImageBind AI abre nuevos caminos en la IA generativa

Un nuevo modelo Meta ImageBind AI de código abierto que une muchos flujos de datos, como texto, audio, datos visuales, lecturas de temperatura y lecturas de movimiento. ha sido hecho público por Meta.

Actualmente, el modelo es solo un esfuerzo de investigación sin consumidores inmediatos o aplicaciones prácticas, pero sugiere un futuro de generación sistemas de IA que pueden producir experiencias inmersivas y multisensoriales. También demuestra cuán abiertamente Meta sigue compartiendo su investigación de IA en contraste con competidores como IA abierta y Googlelos cuales se han vuelto más solitarios.

La idea central del estudio es la integración de varios tipos de datos en un solo índice multidimensional (o “incrustación espacio,” usar jerga de IA). Aunque puede parecer un poco abstracto en este punto, la noción fundamental detrás del reciente aumento de la IA generativa es la misma.

¿Qué es Meta ImageBind IA?

Por ejemplo, durante la fase de entrenamiento, varios generadores de imágenes de IA, incluidos DALL–mi, Estable Difusióny a mitad de camino, confíe en estos sistemas. Mientras relacionan esos datos con las descripciones de las fotos, buscan patrones en los datos visuales. Por lo tanto, esto hace posible que estos sistemas produzcan imágenes que correspondan a las entradas de texto de los usuarios. Numerosas tecnologías de IA también producen video o audio de manera similar.

Según Meta ImageBind AI es el primer modelo en integrar seis diferentes formularios de datos en un único espacio de incrustación. Visual (en forma de imagen y video), térmico (imágenes infrarrojas), texto, audio, información de profundidad y, lo más intrigante, mediciones de movimiento producidas por una unidad de medición inercial, o IMU, son las seis categorías de datos que se incorporan. en el modelo

Las IMU se utilizan en teléfonos y relojes inteligentes para una variedad de funciones, que incluyen cambiar un teléfono del modo horizontal al modo vertical e identificar varias formas de físico actividad.

La idea es que, al igual que los sistemas de IA actuales con las entradas de texto, los sistemas de IA futuros podrán hacer una referencia cruzada de estos datos. Considere un sistema de realidad virtual futurista, por ejemplo, que crea no solo entrada de audio y visual, sino también su ambiente y movimienot en un escenario real.

Si le pidiera que simulara un crucero marítimo prolongado, lo pondría en un barco con el temblor de la cubierta bajo sus pies y el viento frío del aire del océano además del sonido de las olas en la distancia.

¿Cómo funciona Meta ImageBind AI?

En una publicación de blog, Meta ImageBind AI menciones que los modelos futuros pueden incluir incorporar “señales fMRI del tacto, el habla, el olfato y el cerebro”. El descubrimiento, según el comunicado, “acerca a las máquinas un paso más hacia la capacidad de los humanos para aprender de forma simultánea, holística y directa a partir de muchas formas diferentes de información”. Lo cual está bien; lo que sea. lo minutos que sean estas etapas determinará.)

Naturalmente, todo esto es bastante hipotético, y es probable que los usos inmediatos de este tipo de estudio sean considerablemente más limitados. Por ejemplo Meta presentado lanzó un modelo de IA el año pasado que crea películas breves y borrosas a partir de descripciones de texto. Las iteraciones futuras del sistema podrían combinar flujos de datos adicionales, produciendo audio para complementar la salida de video, por ejemplo, como lo demuestra un trabajo como ImageBind.

Sin embargo, para aquellos que siguen la industria, la investigación es particularmente intrigante ya que Meta ImageBind AI está abriendo el modelo subyacente, una tendencia que se observa de cerca en el campo de la IA.

Enfoque de código abierto Meta ImageBind AI: ¿Por qué funciona?

Quienes están en contra del código abierto, como IA abiertaafirman que el enfoque es malo para los creadores porque los competidores pueden duplicar su trabajo y que incluso puede ser peligroso, ya que podría permitir que actores infames exploten modelos de IA de última generación.

En respuesta, los defensores afirman que el código abierto permite a terceros examinar los sistemas en busca de fallas y corregir algunas de sus deficiencias. Señalan que incluso puede tener una ventaja financiera, ya que permite a las empresas contratar codificadores externos como empleados no remunerados para mejorar su trabajo.

Aunque ha habido desafíos, Meta ImageBind AI se ha mantenido sólidamente en el campo de código abierto hasta el momento. (Por ejemplo, su modelo de lenguaje más reciente, Llamase lanzó en línea a principios de este año). En muchos aspectos, la falta de éxito comercial de la IA de la empresa (no tiene un chatbot para competir con Bing, Bardoo ChatGPT) ha hecho posible esta estrategia. Mientras tanto, esta táctica todavía se usa con ImageBind.

Consulte los artículos a continuación para mantenerse actualizado sobre los avances tecnológicos más recientes, en particular los relacionados con la IA.

Tabla de Contenido