Todas las Noticias en Pel√≠culas, Avances de Pel√≠culas y Rese√Īas.

AI2 presenta el mayor conjunto de datos abiertos para entrenar modelos de lenguaje

El Instituto Allen para la IA (AI2) ha presentado un amplio conjunto de datos abiertos llamado “Dolma”, lo que indica un paso significativo hacia el desarrollo de un modelo de lenguaje abierto llamado OLMo.

Las intenciones del instituto se alinean con los principios de transparencia y accesibilidad, con el objetivo de proporcionar a la comunidad de investigación de IA un modelo de lenguaje comprensible y un conjunto de datos accesible.

Dolma de AI2

El proyecto OLMo, Iniciado en marzo, tiene como objetivo fomentar el avance de los sistemas de procesamiento del lenguaje natural (PLN) a gran escala. Un aspecto fundamental del proyecto es la creación de OLMo utilizando un enfoque abierto y transparente, respaldado por la publicación de artefactos y documentación pertinentes que detallan la progresión del proyecto.

El reciente lanzamiento por parte de AI2 del primer artefacto de datos de la iniciativa, Dolma, significa un paso significativo. Dolma abarca una inmensa compilación de 3 billones de tokens provenientes de una combinación ecléctica de contenido, que incluye recursos web, publicaciones académicas, códigos, libros y materiales enciclopédicos.

En particular, surge como el conjunto de datos abiertos m√°s importante hasta la fecha. Las consideraciones fundamentales que guiaron la creaci√≥n de Dolma se describen en una completa publicaci√≥n de blog de AI2. Estas consideraciones enfatizan principios b√°sicos como apertura, representatividad, tama√Īo, reproducibilidad y mitigaci√≥n de riesgos.

AI2 crea Dolma

La creación del conjunto de datos de Dolma implicó un proceso meticuloso e integral que transformó datos sin procesar de diversas fuentes en un conjunto de datos coherente y limpio adecuado para el entrenamiento previo del modelo de lenguaje.

Recomendado:  Cuenta de Instagram verificada con menos seguidores

Este proceso constaba de dos categor√≠as principales de procesamiento de datos: operaciones espec√≠ficas de la fuente y operaciones independientes de la fuente. La primera son las operaciones espec√≠ficas de la fuente. Cada fuente de datos utilizada para crear Dolma requiri√≥ un procesamiento √ļnico para abordar sus caracter√≠sticas particulares.

Por ejemplo, filtrar archivos seg√ļn su licencia de software era una operaci√≥n exclusiva de las fuentes de c√≥digo. El proceso ten√≠a como objetivo refinar y estructurar los datos preservando al mismo tiempo su integridad.

La segunda categor√≠a son las operaciones independientes del origen. Estos se aplicaron en m√ļltiples fuentes de datos y ten√≠an como objetivo estandarizar el conjunto de datos. Por ejemplo, eliminar informaci√≥n de identificaci√≥n personal (PII) o descontaminar un conjunto de evaluaci√≥n eran operaciones comunes independientes del origen.

Estos pasos garantizaron que el conjunto de datos cumpliera con una estructura consistente y cumpliera con los est√°ndares √©ticos y de privacidad. La creaci√≥n de Dolma requiri√≥ una combinaci√≥n de ambos tipos de operaciones, con m√ļltiples transformaciones ejecutadas en forma de canalizaci√≥n.

Algunos de los detalles involucrados en el proceso incluyen el manejo de datos web desde un rastreo com√ļn donde los datos web se sometieron a varias rondas de deduplicaci√≥n para mantener la integridad de los datos.

Adem√°s, se aplicaron filtros de idioma espec√≠ficos dise√Īados para texto web para mejorar la calidad del contenido textual. Los datos del c√≥digo tambi√©n se sometieron a un proceso de limpieza especializado. Debido a la naturaleza distintiva del c√≥digo, se aplicaron ciertos pasos de preprocesamiento exclusivos de las fuentes del c√≥digo para mejorar su usabilidad.

Recomendado:  Vivo V29 5G, caracter√≠sticas, precio y ficha t√©cnica

“Dolma se diferencia de otros conjuntos de datos en dos aspectos clave. En primer lugar, es significativamente m√°s grande que otros conjuntos de datos abiertos. En segundo lugar, se publica bajo la licencia de impacto de AI2, que fue dise√Īada para equilibrar la facilidad de acceso con la mitigaci√≥n del riesgo potencial en la distribuci√≥n de grandes conjuntos de datos. ,” el lecturas de la publicaci√≥n del blog.

‚ďí 2023 . .