🥇 ▷ Meta presenta el modelo de IA generativa para la generación de voz 'Voicebox'

Meta, la empresa matriz de Facebook e Instagram, ha presentado su último desarrollo en el campo de la IA generativa para el habla con la introducción de Voicebox.

Este modelo de IA muestra capacidades en la generación de voz, como edición, muestreo y estilización, incluso sin capacitación específica para estas tareas.

A través del aprendizaje en contexto, Voicebox puede producir clips de audio de alta calidad preservando al mismo tiempo el contenido y el estilo de la grabación original. En particular, este modelo multilingüe puede generar voz en seis idiomas diferentes.

Diversas funcionalidades de Meta Voicebox

La versatilidad de Voicebox queda demostrada a través de su varias funcionalidades:

1. Síntesis de texto a voz en contexto: Con solo una muestra de audio de dos segundos, Voicebox puede igualar el estilo de la muestra y generar una salida de texto a voz en consecuencia.

2. Edición de voz y reducción de ruido.: Voicebox posee la capacidad de recrear segmentos de habla interrumpidos afectados por ruido o reemplazar palabras mal pronunciadas sin la necesidad de volver a grabar todo el discurso. Esta función permite una edición de audio perfecta, similar a un borrador de audio.

3. Transferencia de estilo entre idiomas: Voicebox puede leer pasajes de texto en diferentes idiomas y producir voz en el idioma deseado independientemente del idioma de la muestra proporcionada. Esta capacidad multilingüe ofrece el potencial para una comunicación natural entre personas que hablan diferentes idiomas.

4. Muestreo diverso de voz: Habiendo sido entrenado con una amplia gama de datos, Voicebox puede generar un habla que se asemeja mucho a cómo las personas hablan naturalmente en escenarios del mundo real en los seis idiomas admitidos.

Debido a los riesgos potenciales asociados con el mal uso, el modelo y el código no están actualmente disponibles para el público. Sin embargo, se han compartido muestras de audio y un trabajo de investigación que detalla el enfoque y los resultados del modelo.

Modelo de coincidencia de flujo

Voicebox aprovecha el modelo Flow Matching, que representa el último avance de Meta en modelos generativos no autorregresivos. Este avance permite a Voicebox aprender de diversos datos de voz sin la necesidad de un etiquetado extenso, lo que da como resultado un conjunto de datos de entrenamiento más amplio y diverso.

Con más de 50.000 horas de discurso grabado y transcripciones de audiolibros de dominio público, Voicebox está capacitado para predecir segmentos de discurso según el contexto, lo que permite la generación de discurso dentro de grabaciones de audio existentes.

Las capacidades de Voicebox, junto con su impacto potencial en el campo de la IA generativa para el habla, marcan un hito importante en los esfuerzos de investigación de Meta.

Al compartir su enfoque y resultados, Meta alienta a la comunidad de investigación a aprovechar su trabajo y contribuir al desarrollo responsable de la IA.

“Voicebox es un modelo de IA generativa que puede ayudar con la edición, el muestreo y el estilo de audio. Este tipo de tecnología podría usarse en el futuro para ayudar a los creadores a editar fácilmente pistas de audio, permitir que las personas con discapacidad visual escuchen mensajes escritos de amigos en sus voces, y permitir a las personas hablar cualquier idioma extranjero con su propia voz”, Meta escribió en su publicación de anuncio.

Meta presenta el modelo de IA generativa para la generación de voz ‘Voicebox’

Modelo de coincidencia de flujo