Todas las Noticias en Pel√≠culas, Avances de Pel√≠culas y Rese√Īas.

Meta viene con un modelo de lenguaje MMS que es “m√°s grande que ChatGPT”

Meta ha desarrollado su propio modelo de lenguaje. Massively Multilingual Speech (MMS) no es un clon de ChatGPT de OpenAI por una vez.

MMS puede reconocer m√°s de 4000 idiomas hablados y admite conversi√≥n de texto a voz en 1100 idiomas. Como es tradici√≥n, Meta est√° haciendo que sus proyectos sean de c√≥digo abierto y ahora MMS tambi√©n lo es, “para preservar la diversidad ling√ľ√≠stica y alentar a los investigadores a construir sobre esa base”, dijo la plataforma de redes sociales. saber.

El desarrollo de modelos de reconocimiento de voz y de texto a voz normalmente requiere miles de horas de capacitaci√≥n en audio con etiquetas de transcripci√≥n asociadas. Estos √ļltimos son necesarios para que los algoritmos categoricen y comprendan correctamente los datos. En el caso de lenguas que no se utilizan (mucho) en la sociedad moderna, el modelo ling√ľ√≠stico puede ser un medio para evitar que esa riqueza desaparezca.

MMS utiliza textos religiosos

Llama la atenci√≥n que Meta haya adoptado un enfoque inusual para recopilar los datos de audio. Por ejemplo, se bas√≥ en grabaciones de textos religiosos traducidos. “Utilizamos textos religiosos, como los de la Biblia, que se han traducido a muchos idiomas a lo largo de los a√Īos y cuyas traducciones ya han sido ampliamente estudiadas para la investigaci√≥n de traducci√≥n basada en textos”, dijeron Zuckerberg y compa√Ī√≠a. De esta forma, los investigadores habr√≠an conseguido aumentar a m√°s de 4.000 los idiomas disponibles para el modelo.

“Si bien el contenido de las grabaciones es religioso, nuestra investigaci√≥n muestra que esto no influye en la producci√≥n de un lenguaje a√ļn m√°s religioso”, escribi√≥ Meta. ‚ÄúEsto se debe a que nuestro enfoque se basa en una ‘clasificaci√≥n temporal conexionista’ (CTC), que es mucho m√°s compacta y enfocada que otros grandes modelos ling√ľ√≠sticos (LLM). Adem√°s, tanto hombres como mujeres tienen textos grabados‚ÄĚ, suena.

Recomendado:  As√≠ es el nuevo Fiat 500 el√©ctrico

Posteriormente, Meta comenz√≥ a trabajar con su wav2vec 2.0, un modelo de autoaprendizaje que puede entrenarse a partir de datos sin etiquetar. ‚ÄúLos resultados son buenos. Muestran que el modelo de habla masiva multiling√ľe funciona muy bien en comparaci√≥n con los modelos existentes. “Admite 11 veces m√°s idiomas que Whisper de OpenAI”, concluyen los investigadores.