🥇 ▷ ¿GPT-4 próximamente? Todo lo que necesita saber con la información más reciente

El lanzamiento de GPT-4 se acerca rápidamente. GPT-3 se anunció hace más de dos años, en mayo de 2020.

Salió un año después de GPT-2, que salió un año después de la publicación del primer artículo de GPT. Si esta tendencia continúa en todas las versiones, GPT-4 debería estar disponible pronto.

No lo es, pero el CEO de OpenAI, Sam Altman, comenzó hace unos meses que GPT-4 está en camino. Las proyecciones actuales sitúan la fecha de lanzamiento en 2022, muy probablemente en julio o agosto.

A pesar de ser uno de los desarrollos de IA más esperados, hay poca información pública sobre GPT-4: cómo será, sus características o sus poderes. Altman tuvo una sesión de preguntas y respuestas el año pasado y dio algunos consejos sobre los planes de OpenAI para GPT-4 (instó a los participantes a mantener la información en privado, por lo que permanecí en silencio, pero siete meses es un período de tiempo realista). Una cosa que confirmó es que GPT-4 no tendrá parámetros de 100T, como predije en un artículo anterior (un modelo tan grande tendrá que esperar).

Ha pasado un tiempo desde que OpenAI reveló algo sobre GPT-4. Sin embargo, algunos desarrollos innovadores que están cobrando fuerza en el campo de la IA, especialmente en PNL, pueden brindarnos pistas sobre GPT-4. Dada la efectividad de estos enfoques y el compromiso de OpenAI, es concebible hacer algunas predicciones razonables basadas en lo que mencionó Altman. Y, sin duda, estos van más allá de la conocida —y cansada— técnica de hacer los modelos cada vez más grandes.

Dada la información que tenemos de OpenAI y Sam Altman, así como las tendencias actuales y el estado del arte en lenguaje AI, estas son mis predicciones para GPT-4. (Haré que sea obvio, ya sea explícita o implícitamente, cuáles son estimaciones fundamentadas y cuáles son certezas).

Tamaño del modelo: GPT-4 no será muy grande

GPT-4 no será el modelo de idioma más popular. Altman declaró que no sería más grande que GPT-3. Sin duda, el modelo será grande en comparación con las generaciones anteriores de redes neuronales, pero su tamaño no será su característica distintiva. Lo más probable es que esté en algún lugar entre GPT-3 y Gopher (175B-280B).
Y hay una fuerte justificación para esta elección.

Megatron-Turing NLG, desarrollada por Nvidia y Microsoft el año pasado, ostentaba el título de la red neuronal densa más grande con parámetros de 530B, ya tres veces más grande que GPT-3, hasta hace poco (PaLM de Google ahora tiene el título en 540B). Sorprendentemente, algunas versiones más pequeñas que siguieron al MT-NLG lograron niveles de rendimiento más altos.
Cuanto más grande, mejor.

La disponibilidad de mejores modelos más pequeños tiene dos ramificaciones.
En primer lugar, las empresas han entendido que utilizar el tamaño del modelo como indicador para aumentar el rendimiento no es la única forma de hacerlo, ni siquiera la mejor. En 2020, Jared Kaplan y sus colegas de OpenAI descubrieron que cuando los aumentos en el presupuesto computacional se gastan en gran medida para aumentar la cantidad de parámetros, el rendimiento mejora más, siguiendo una relación de ley de potencia. Google, Nvidia, Microsoft, OpenAI, DeepMind y otras empresas de modelado de idiomas tomaron las instrucciones al pie de la letra.

Sin embargo, a pesar de su tamaño, MT-NLG no es el mejor en términos de rendimiento. En verdad, no es el mejor en ninguna categoría. Los modelos más pequeños, como Gopher (280B) o Chinchilla (70B), que son solo una décima parte del tamaño de MT-NLG, lo superan en todos los ámbitos.
Se ha vuelto evidente que el tamaño del modelo no es el único determinante para mejorar la comprensión del lenguaje, lo que me lleva a la segunda implicación.

Las empresas están empezando a cuestionar la suposición de que “cuanto más grande, mejor”. Tener parámetros adicionales es solo uno de varios factores que pueden aumentar el rendimiento. Además, el daño colateral (por ejemplo, la huella de carbono, los costos informáticos o las barreras de entrada) lo convierte en uno de los peores criterios a considerar, a pesar de ser increíblemente simple de implementar. Las empresas lo pensarán dos veces antes de desarrollar un modelo masivo cuando uno más pequeño podría proporcionar resultados comparables, si no mejores.

Altman declaró que ya no se estaban enfocando en desarrollar modelos que fueran extremadamente enormes, sino en sacar el máximo provecho de los modelos más pequeños. Los investigadores de OpenAI fueron los primeros en apoyar la hipótesis de la escala, pero es posible que hayan aprendido que otras vías desconocidas pueden conducir a mejores modelos.

Estas son las razones por las que GPT-4 no será sustancialmente más grande que GPT-3. OpenAI moverá el énfasis a otros factores, como datos, algoritmos, parametrización o alineación, que tienen el potencial de obtener ganancias importantes de manera más simple. Tendremos que esperar y ver qué puede hacer un modelo de parámetros 100T.

Optimalidad: obtener lo mejor de GPT-4

Cuando se trata de optimización, los modelos de lenguaje tienen un inconveniente fundamental. Debido a que la capacitación es tan costosa, las empresas deben hacer concesiones entre precisión y costo. Como resultado, los modelos suelen estar significativamente suboptimizados.

A pesar de algunas fallas que habrían requerido un nuevo entrenamiento en otras circunstancias, GPT-3 solo se entrenó una vez. Debido a los costos prohibitivamente altos, OpenAI decidió no realizarlo, lo que impidió que los investigadores determinaran el conjunto ideal de hiperparámetros para el modelo (por ejemplo, tasa de aprendizaje, tamaño del lote, longitud de la secuencia, etc.).

Otro efecto de los grandes costos de capacitación es que las evaluaciones del comportamiento del modelo son limitadas. Cuando el equipo de Kaplan decidió que el tamaño del modelo era el elemento más importante para mejorar el rendimiento, no tuvieron en cuenta la cantidad de tokens de entrenamiento, es decir, la cantidad de datos proporcionados a los modelos. Esto habría requerido recursos computacionales exorbitantes.

Como las conclusiones de Kaplan eran las mejores que tenían, las empresas tecnológicas las siguieron. Irónicamente, Google, Microsoft, Facebook y otros “desperdiciaron” millones de dólares en el desarrollo de modelos cada vez más grandes, generando cantidades masivas de contaminación en el proceso, todo ello provocado por restricciones económicas.
Las empresas ahora están experimentando con otras formas, con DeepMind y OpenAI a la cabeza. Están buscando modelos óptimos en lugar de solo modelos más grandes.

Parametrización óptima

El mes pasado, Microsoft y OpenAI demostraron que al entrenar el modelo con hiperparámetros adecuados, GPT-3 podría mejorarse aún más. Descubrieron que una versión 6.7B de GPT-3 mejoró su rendimiento hasta el punto de poder competir con el modelo 13B GPT-3 original. El uso del ajuste de hiperparámetros, que no es práctico para modelos más grandes, resultó en un aumento de rendimiento equivalente al doble de la cantidad de parámetros.
Descubrieron una nueva parametrización (P) en la que los hiperparámetros óptimos para un modelo pequeño también funcionaban para un modelo más grande de la misma familia. P les permitió optimizar modelos de cualquier tamaño a una fracción del costo de la capacitación. Luego, los hiperparámetros se pueden transferir casi sin costo al modelo más grande.

Modelos de cómputo óptimo

DeepMind examinó los hallazgos de Kaplan hace unas semanas y descubrió que, contrariamente a la creencia popular, la cantidad de fichas de entrenamiento afecta el rendimiento tanto como el tamaño del modelo. Llegaron a la conclusión de que a medida que haya disponible más dinero informático, debería distribuirse por igual para escalar parámetros y datos. Validaron esta teoría entrenando a Chinchilla, un modelo 70B (4 veces más pequeño que Gopher, el SOTA anterior), con cuatro veces los datos de todos los principales modelos de lenguaje desde GPT-3 (tokens de 1.4T, del promedio de 300B).

Los resultados fueron inequívocos. Chinchilla superó a Gopher, GPT-3, MT-NLG y todos los demás modelos lingüísticos “de manera uniforme y significativa” en una amplia gama de puntos de referencia lingüísticos: la cosecha actual de modelos no está bien entrenada y es demasiado grande.
Dado que GPT-4 será un poco más grande que GPT-3, la cantidad de tokens de entrenamiento requeridos para tener un cálculo óptimo (según los hallazgos de DeepMind) sería de aproximadamente 5 billones, que es un orden de magnitud mayor que los conjuntos de datos actuales. La cantidad de FLOP necesarios para entrenar el modelo a fin de lograr una baja pérdida de entrenamiento sería de 10 a 20 veces mayor que la de GPT-3 (usando el presupuesto de cómputo de Gopher como proxy).

Es posible que Altman haya estado aludiendo a esto cuando afirmó en las preguntas y respuestas que GPT-4 requerirá una cantidad significativamente mayor de cómputo que GPT-3.
Sin duda, OpenAI incluirá información relacionada con la optimización en GPT-4, sin embargo, se desconoce en qué medida porque se desconoce su presupuesto. Lo cierto es que se centrarán en optimizar variables distintas al tamaño del modelo. Encontrar el mejor conjunto de hiperparámetros, así como el tamaño del modelo de cómputo óptimo y la cantidad de parámetros, podría generar mejoras sorprendentes en todos los puntos de referencia. Si estos enfoques se fusionan en un solo modelo, todos los pronósticos para los modelos de lenguaje se quedarán cortos.

Altman también afirmó que la gente se sorprendería de lo buenos que pueden ser los modelos sin agrandarlos. Podría estar insinuando que las iniciativas de escalamiento están suspendidas por el momento.

Multimodalidad: GPT-4 será un modelo de solo texto

Los modelos multimodales son los modelos de aprendizaje profundo del futuro. Debido a que vivimos en un mundo multimodal, nuestros cerebros son multisensoriales. Percibir el entorno en un solo modo a la vez limita severamente la capacidad de la IA para navegar y comprenderlo.

Los buenos modelos multimodales, por otro lado, son sustancialmente más difíciles de crear que los buenos modelos de solo lenguaje o solo de visión. Es una tarea difícil combinar información visual y verbal en una representación unificada. Tenemos una comprensión extremadamente limitada de cómo nuestro cerebro lo logra (no es que la comunidad de aprendizaje profundo esté tomando en cuenta las ideas de la ciencia cognitiva sobre la estructura y las funciones del cerebro), por lo que no sabemos cómo integrarlo en las redes neuronales.

Altman declaró en las preguntas y respuestas que GPT-4 será un modelo de solo texto en lugar de multimodal (como DALLE o LaMDA). Mi suposición es que están tratando de llevar los modelos de lenguaje a sus límites, ajustando parámetros como el modelo y el tamaño del conjunto de datos antes de pasar a la próxima generación de IA multimodal.

Escasez: GPT-4 será un modelo denso

Los modelos dispersos que usan computación condicional en diferentes áreas del modelo para procesar diferentes tipos de entradas han tenido un éxito considerable recientemente. Estos modelos se expanden fácilmente más allá del umbral del parámetro 1T sin incurrir en costos computacionales sustanciales, lo que da como resultado una conexión aparentemente ortogonal entre el tamaño del modelo y el presupuesto de cómputo. Sin embargo, los beneficios de las técnicas MoE disminuyen para modelos muy grandes.
Dada la historia de OpenAI de centrarse en modelos de lenguaje denso, es lógico suponer que GPT-4 también será un modelo denso. Y, considerando que Altman declaró que GPT-4 no será mucho más grande que GPT-3, podemos deducir que la escasez no es una posibilidad para OpenAI, al menos por el momento.
La escasez, como la multimodalidad, seguramente dominará las futuras generaciones de redes neuronales, dado que nuestro cerebro, la inspiración de la IA, se basa significativamente en el procesamiento escaso.

Alineación: GPT-4 estará más alineado que GPT-3

OpenAI ha realizado importantes esfuerzos para abordar el problema de alineación de la IA: cómo hacer que los modelos de lenguaje sigan los objetivos humanos y se adhieran a nuestras creencias, sean las que sean. Es un problema difícil no solo teóricamente (¿cómo podemos hacer que la IA entienda exactamente lo que queremos?) sino también filosóficamente (no existe un enfoque general para hacer que la IA esté alineada con los humanos, porque la heterogeneidad en los valores humanos entre los grupos es enorme, y a veces contradictorios).

Sin embargo, hicieron el primer intento con InstructGPT, que es un GPT-3 reentrenado educado con retroalimentación humana para aprender a obedecer instrucciones (ya sea que esas instrucciones tengan buenas intenciones o no, aún no está integrado en los modelos).

El avance significativo de InstructGPT es que, independientemente de su rendimiento en los puntos de referencia del idioma, los evaluadores humanos (que son un conjunto bastante homogéneo de personas, personal de OpenAI y personas de habla inglesa) lo ven como un mejor modelo, por lo que debemos tener cuidado con hacer inferencias). Esto enfatiza la importancia de alejarse del uso de puntos de referencia como el único criterio para evaluar la capacidad de la IA. La percepción humana de los modelos puede ser igual de esencial, si no más.

Dada la dedicación de Altman y OpenAI para crear un AGI beneficioso, estoy seguro de que GPT-4 se adaptará y se basará en los descubrimientos de InstructGPT.

Debido a que el modelo se limitó al personal de OpenAI y a los etiquetadores de habla inglesa, mejorarán la forma en que lo alinearon. El verdadero alineamiento debe incorporar grupos de todos los orígenes y características tales como género, raza, nacionalidad, religión, etc. Es una tarea fantástica, y cualquier avance hacia ese objetivo es bueno (aunque debemos tener cuidado al llamarlo alineación cuando no es para la gran mayoría de las personas).

resumiendo

Tamaño del modelo: GPT-4 será más grande que GPT-3, pero no significativamente más grande que los modelos más grandes actuales (MT-NLG 530B y PaLM 540B). El tamaño del modelo no será un rasgo distintivo.

Optimalidad: GPT-4 consumirá más poder de cómputo que GPT-3. Pondrá en práctica nuevos conocimientos de optimización en la parametrización (hiperparámetros óptimos) y reglas de escala (la cantidad de tokens de entrenamiento es tan importante como el tamaño del modelo).

Multimodalidad: El GPT-4 será un dispositivo de solo texto (no multimodal). OpenAI quiere llevar los modelos de lenguaje al límite antes de pasar a modelos multimodales como DALLE, que creen que eventualmente superará a los sistemas unimodales.

Escasez: GPT-4, como GPT-2 y GPT-3 antes, será un modelo denso (todos los parámetros se utilizarán para procesar cualquier entrada dada). La escasez aumentará en importancia en el futuro.

Alineación: GPT-4 estará más cerca de nosotros que GPT-3. Aplicará lo que ha aprendido de InstructGPT, que fue entrenado con retroalimentación humana. Aún así, la alineación de la IA está muy lejos, y los esfuerzos deben evaluarse adecuadamente y no exagerarse.

Aparte de esto, si estás interesado; También puede leer artículos relacionados con el entretenimiento, la numerología, la tecnología y la salud aquí: Cómo cancelar YouTube TV, seguro de Churchill Car, The Rookie Season 5, Downloadhub, Ssr Movies, 7starhd, Movieswood, How to Remove Bookmarks on Mac, Outer Banks Temporada 4, Cómo bloquear un sitio web en Chrome, Cómo ver juegos de la NFL gratis, DesireMovies, Cómo ver juegos de la NFL sin cable, Cómo desbloquear iPhone, Cómo cancelar ESPN+, Cómo activar Bluetooth en Windows 10, Outer Banks Temporada 3,

6streams, 4Anime, Moviesflix, 123MKV, MasterAnime, Buffstreams, GoMovies, VIPLeague, Cómo reproducir música en Discord, Vampires Diaries Temporada 9, Homeland Temporada 9, Valor neto de Brent Rivera, PDFDrive, SmallPDF, Squid Game Temporada 2, Knightfall Temporada 3, Crackstream, Kung Fu Panda 4, número de ángel 1616, número de ángel 333, número de ángel 666, número de ángel 777, número de ángel 444, patrimonio neto de Bruno Mars, KissAnime, patrimonio neto de Jim Carrey, Bollyshare, Afdah, nombre de la esposa de Prabhas, Project Free TV , Kissasian, Mangago, Kickasanime, Moviezwap, Jio Rockers, Dramacool, M4uHD, Hip Dips, M4ufree, Fiverr English Test Answers, NBAstreamsXYZ, CEO mejor pagado, The 100 temporada 8 y F95Zone.

Gracias por tu tiempo. ¡Sigue leyendo!

Tabla de Contenido