🥇 ▷ Intel Labs presenta el modelo de difusión de IA y genera imágenes de 360 grados a partir de indicaciones de texto

Intel Labs, en colaboración con Blockade Labs, ha presentado el modelo de difusión latente para 3D (LDM3D), un novedoso modelo de difusión que utiliza IA generativa para crear contenido visual 3D realista. LDM3D es el primer modelo de la industria que genera un mapa de profundidad utilizando el proceso de difusión para crear imágenes 3D con vistas de 360 grados que son vívidas e inmersivas. LDM3D tiene el potencial de revolucionar la creación de contenido, las aplicaciones de metaverso y las experiencias digitales, transformando una amplia gama de industrias, desde el entretenimiento y los juegos hasta la arquitectura y el diseño.

(Foto: Corporación Intel)

LEA TAMBIÉN: Intel anuncia una importante actualización de marca antes del próximo lanzamiento de Meteor Lake

Por qué es importante:

Los ecosistemas cerrados limitan la escala. Y el compromiso de Intel con una verdadera democratización de la IA permitirá un acceso más amplio a los beneficios de la IA a través de un ecosistema abierto. Un área que ha experimentado avances significativos en los últimos años es el campo de la visión por computadora, particularmente en la IA generativa. Sin embargo, muchos de los modelos avanzados de IA generativa actuales se limitan a generar únicamente imágenes 2D. A diferencia de los modelos de difusión existentes, que generalmente solo generan imágenes RGB 2D a partir de mensajes de texto, LDM3D permite a los usuarios generar tanto una imagen como un mapa de profundidad a partir de un mensaje de texto determinado. Utilizando casi la misma cantidad de parámetros que la difusión estable latente, LDM3D proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos de posprocesamiento estándar para la estimación de profundidad.

Esta investigación podría revolucionar la forma en que interactuamos con el contenido digital al permitir a los usuarios experimentar sus indicaciones de texto de formas antes inconcebibles. Las imágenes y mapas de profundidad generados por LDM3D permiten a los usuarios convertir la descripción de texto de una serena playa tropical, un rascacielos moderno o un universo de ciencia ficción en un panorama detallado de 360 grados. Esta capacidad de capturar información profunda puede mejorar instantáneamente el realismo y la inmersión generales, permitiendo aplicaciones innovadoras para industrias que van desde el entretenimiento y los juegos hasta el diseño de interiores y listados de bienes raíces, así como museos virtuales y experiencias inmersivas de realidad virtual (VR).

El 20 de junio, LDM3D ganó el Premio al mejor cartel en el Taller 3DMV en CVPR.

Cómo funciona:

LDM3D se entrenó en un conjunto de datos construido a partir de un subconjunto de 10.000 muestras de la base de datos LAION-400M, que contiene más de 400 millones de pares de imágenes y leyendas. El equipo utilizó el modelo de estimación de gran profundidad Dense Prediction Transformer (DPT) (desarrollado anteriormente en Intel Labs) para anotar el corpus de entrenamiento. El modelo DPT grande proporciona una profundidad relativa de alta precisión para cada píxel de una imagen. El Conjunto de datos LAION-400M se ha creado con fines de investigación para permitir la capacitación de modelos de prueba a mayor escala para investigadores en general y otras comunidades interesadas.

El modelo LDM3D está entrenado en una supercomputadora Intel AI impulsada por procesadores Intel® Xeon® y aceleradores Intel® Habana Gaudi® AI. El modelo y la canalización resultantes combinan una imagen RGB generada y un mapa de profundidad para generar vistas de 360 grados para experiencias inmersivas.

Para demostrar el potencial de LDM3D, los investigadores de Intel y Blockade desarrollaron DepthFusion, una aplicación que aprovecha fotografías RGB 2D estándar y mapas de profundidad para crear experiencias de visualización inmersivas e interactivas de 360 grados. DepthFusion utiliza TouchDesigner, un lenguaje de programación visual basado en nodos para contenido multimedia interactivo en tiempo real, para convertir indicaciones de texto en experiencias digitales interactivas e inmersivas. El modelo LDM3D es un modelo único para crear tanto una imagen RGB como su mapa de profundidad, lo que genera ahorros en el uso de memoria y mejoras de latencia.

Que sigue:

La introducción de LDM3D y DepthFusion allana el camino para futuros avances en la IA generativa multivista y la visión por computadora. Intel continuará explorando el uso de IA generativa para aumentar las capacidades humanas y construir un ecosistema sólido de investigación y desarrollo de IA de código abierto que democratice el acceso a esta tecnología. Continuando con el fuerte apoyo de Intel al ecosistema abierto en IA, LDM3D está siendo de código abierto a través de HuggingFace. Esto permitirá a los investigadores y profesionales de la IA mejorar aún más este sistema y ajustarlo para aplicaciones personalizadas.

ARTÍCULO RELACIONADO: Intel y el gobierno alemán acuerdan un mayor alcance para el sitio de fabricación de obleas en Magdeburgo

Intel Labs presenta el modelo de difusión de IA y genera imágenes de 360 ​​grados a partir de indicaciones de texto

(Foto: Corporación Intel)

Intel Labs presenta el modelo de difusión de IA y genera imágenes de 360 grados a partir de indicaciones de texto