🥇 ▷ Los nuevos resultados de MLCommons destacan impresionantes ganancias competitivas de IA para Intel

Hoy, MLCommons publicó los resultados de su punto de referencia de rendimiento de IA de la industria, MLPerf Training 3.0, en el que tanto el acelerador de aprendizaje profundo Habana® Gaudi®2 como el procesador escalable Intel® Xeon® de cuarta generación arrojaron resultados de capacitación impresionantes.

(Foto: Corporación Intel)

Por qué es importante:

La narrativa actual de la industria es que la IA generativa y los modelos de lenguaje grande (LLM) solo pueden ejecutarse en GPU de Nvidia. Nuevos datos muestran que el portafolio de soluciones de IA de Intel ofrece opciones competitivas y atractivas para los clientes que buscan liberarse de ecosistemas cerrados que limitan la eficiencia y la escala.

Los últimos resultados de MLPerf Training 3.0 subrayan el rendimiento de los productos de Intel en una variedad de modelos de aprendizaje profundo. La madurez del software y los sistemas de formación basados en Gaudi2 se demostró a escala en el modelo de lenguaje grande, GPT-3. Gaudi2 es una de las dos únicas soluciones de semiconductores que presenta resultados de rendimiento al punto de referencia para la formación LLM de GPT-3.

Gaudi2 también proporciona ventajas de costos sustancialmente competitivas a los clientes, tanto en costos de servidores como de sistemas. El rendimiento validado por MLPerf del acelerador en modelos GPT-3, visión por computadora y lenguaje natural, además de los próximos avances de software, hacen de Gaudi2 una alternativa de precio/rendimiento extremadamente atractiva al H100 de Nvidia.

En el frente de la CPU, el rendimiento del entrenamiento de aprendizaje profundo de los procesadores Xeon de cuarta generación con motores Intel AI demostró que los clientes pueden construir con servidores basados en Xeon un único sistema de AI universal para el preprocesamiento de datos, el entrenamiento de modelos y la implementación para ofrecer la combinación correcta de Rendimiento, eficiencia, precisión y escalabilidad de la IA.

Sobre los resultados Habana Gaudi2:

Entrenar IA generativa y modelos de lenguaje grandes requiere grupos de servidores para cumplir con requisitos informáticos masivos a escala. Estos resultados de MLPerf proporcionan una validación tangible del excelente rendimiento y la escalabilidad eficiente de Habana Gaudi2 en el modelo más exigente probado, el GPT-3 de 175 mil millones de parámetros.

Resultados destacados:

Gaudi2 logró un tiempo de entrenamiento impresionante en GPT-31: 311 minutos con 384 aceleradores.
Escalado casi lineal del 95% de 256 a 384 aceleradores en el modelo GPT-3.
Excelentes resultados de entrenamiento en visión por computadora (aceleradores ResNet-50 8 y aceleradores Unet3D 8) y modelos de procesamiento de lenguaje natural (aceleradores BERT 8 y 64).
Aumentos de rendimiento del 10% y 4%, respectivamente, para los modelos BERT y ResNet en comparación con la presentación de noviembre, evidencia de la creciente madurez del software Gaudi2.
Los resultados de Gaudi2 se enviaron “listos para usar”, lo que significa que los clientes pueden lograr resultados de rendimiento comparables al implementar Gaudi2 en sus instalaciones o en la nube.

Acerca de la madurez del software Gaudi2:

El soporte de software para la plataforma Gaudí continúa madurando y sigue el ritmo del creciente número de IA generativa y LLM en demanda popular.

La presentación del GPT-3 de Gaudi2 se basó en PyTorch y empleó la popular biblioteca de optimización DeepSpeed (parte de Microsoft AI a escala), en lugar de software personalizado. DeepSpeed permite el soporte de paralelismo 3D (Datos, Tensor, Pipeline) simultáneamente, optimizando aún más la eficiencia del rendimiento de escalado en LLM.
Los resultados de Gaudi2 en el punto de referencia 3.0 se enviaron en el tipo de datos BF16. Se espera un salto significativo en el rendimiento de Gaudi2 cuando se lance el soporte de software para FP8 y las nuevas funciones en el tercer trimestre de 2023.

Acerca de los resultados de los procesadores Xeon de cuarta generación:

Como la única CPU presentada entre numerosas soluciones alternativas, los resultados de MLPerf demuestran que los procesadores Intel Xeon brindan a las empresas capacidades listas para usar para implementar IA en sistemas de uso general y evitar el costo y la complejidad de introducir sistemas de IA dedicados.

Para un pequeño número de clientes que entrenan intermitentemente modelos grandes desde cero, pueden usar CPU de uso general y, a menudo, en los servidores basados en Intel que ya están implementando para administrar sus negocios. Sin embargo, la mayoría utilizará modelos previamente entrenados y los ajustará con sus propios conjuntos de datos seleccionados más pequeños. Intel publicó anteriormente resultados que demuestran que este ajuste se puede lograr en solo minutos utilizando el software Intel AI y el software de código abierto estándar de la industria.

Aspectos destacados de los resultados de MLPerf:

En la división cerrada, los Xeons de cuarta generación podrían entrenar modelos BERT y ResNet-50 en menos de 50 minutos. (47,93 min.) y menos de 90 min. (88,17 min.), respectivamente.
Con BERT en la división abierta, los resultados muestran que Xeon pudo entrenar el modelo en aproximadamente 30 minutos (31,06 minutos) al ampliarlo a 16 nodos.
Para el modelo RetinaNet más grande, Xeon pudo alcanzar un tiempo de 232 minutos. en 16 nodos, lo que permite a los clientes la flexibilidad de utilizar ciclos Xeon fuera de las horas pico para entrenar sus modelos en el transcurso de la mañana, durante el almuerzo o durante la noche.
La cuarta generación Xeon con Intel® Advanced Matrix Extensions (Intel® AMX) ofrece importantes mejoras de rendimiento listas para usar que abarcan múltiples marcos, herramientas de ciencia de datos de extremo a extremo y un amplio ecosistema de soluciones inteligentes.

MLPerf, generalmente considerado como el punto de referencia de mayor reputación para el rendimiento de la IA, permite una comparación justa y repetible del rendimiento entre soluciones. Además, Intel superó el hito de 100 presentaciones y sigue siendo el único proveedor que envía resultados públicos de CPU con software de ecosistema de aprendizaje profundo estándar de la industria.

Estos resultados también resaltan la excelente eficiencia de escalamiento posible utilizando adaptadores de red Intel Ethernet serie 800 rentables y fácilmente disponibles que utilizan el software Intel® Ethernet Fabric Suite de código abierto basado en Intel oneAPI.

ARTÍCULO RELACIONADO: Intel Xeon de cuarta generación llega al mercado