🥇 ▷ AI2 presenta el mayor conjunto de datos abiertos para entrenar modelos de lenguaje

El Instituto Allen para la IA (AI2) ha presentado un amplio conjunto de datos abiertos llamado “Dolma”, lo que indica un paso significativo hacia el desarrollo de un modelo de lenguaje abierto llamado OLMo.

Las intenciones del instituto se alinean con los principios de transparencia y accesibilidad, con el objetivo de proporcionar a la comunidad de investigación de IA un modelo de lenguaje comprensible y un conjunto de datos accesible.

Dolma de AI2

El proyecto OLMo, Iniciado en marzo, tiene como objetivo fomentar el avance de los sistemas de procesamiento del lenguaje natural (PLN) a gran escala. Un aspecto fundamental del proyecto es la creación de OLMo utilizando un enfoque abierto y transparente, respaldado por la publicación de artefactos y documentación pertinentes que detallan la progresión del proyecto.

El reciente lanzamiento por parte de AI2 del primer artefacto de datos de la iniciativa, Dolma, significa un paso significativo. Dolma abarca una inmensa compilación de 3 billones de tokens provenientes de una combinación ecléctica de contenido, que incluye recursos web, publicaciones académicas, códigos, libros y materiales enciclopédicos.

En particular, surge como el conjunto de datos abiertos más importante hasta la fecha. Las consideraciones fundamentales que guiaron la creación de Dolma se describen en una completa publicación de blog de AI2. Estas consideraciones enfatizan principios básicos como apertura, representatividad, tamaño, reproducibilidad y mitigación de riesgos.

AI2 crea Dolma

La creación del conjunto de datos de Dolma implicó un proceso meticuloso e integral que transformó datos sin procesar de diversas fuentes en un conjunto de datos coherente y limpio adecuado para el entrenamiento previo del modelo de lenguaje.

Este proceso constaba de dos categorías principales de procesamiento de datos: operaciones específicas de la fuente y operaciones independientes de la fuente. La primera son las operaciones específicas de la fuente. Cada fuente de datos utilizada para crear Dolma requirió un procesamiento único para abordar sus características particulares.

Por ejemplo, filtrar archivos según su licencia de software era una operación exclusiva de las fuentes de código. El proceso tenía como objetivo refinar y estructurar los datos preservando al mismo tiempo su integridad.

La segunda categoría son las operaciones independientes del origen. Estos se aplicaron en múltiples fuentes de datos y tenían como objetivo estandarizar el conjunto de datos. Por ejemplo, eliminar información de identificación personal (PII) o descontaminar un conjunto de evaluación eran operaciones comunes independientes del origen.

Estos pasos garantizaron que el conjunto de datos cumpliera con una estructura consistente y cumpliera con los estándares éticos y de privacidad. La creación de Dolma requirió una combinación de ambos tipos de operaciones, con múltiples transformaciones ejecutadas en forma de canalización.

Algunos de los detalles involucrados en el proceso incluyen el manejo de datos web desde un rastreo común donde los datos web se sometieron a varias rondas de deduplicación para mantener la integridad de los datos.

Además, se aplicaron filtros de idioma específicos diseñados para texto web para mejorar la calidad del contenido textual. Los datos del código también se sometieron a un proceso de limpieza especializado. Debido a la naturaleza distintiva del código, se aplicaron ciertos pasos de preprocesamiento exclusivos de las fuentes del código para mejorar su usabilidad.

“Dolma se diferencia de otros conjuntos de datos en dos aspectos clave. En primer lugar, es significativamente más grande que otros conjuntos de datos abiertos. En segundo lugar, se publica bajo la licencia de impacto de AI2, que fue diseñada para equilibrar la facilidad de acceso con la mitigación del riesgo potencial en la distribución de grandes conjuntos de datos. ,” el lecturas de la publicación del blog.

Tabla de Contenido