🥇 ▷ El modelo OpenAI Whisper ahora está disponible en el servicio Azure OpenAI de Microsoft y en el servicio Azure AI Speech

El modelo OpenAI Whisper ahora está disponible en el servicio Azure OpenAI de Microsoft y en el servicio Azure AI Speech

En julio, Microsoft Anunciado Ese modelo OpenAI Whisper llegará pronto a Azure OpenAI Services. El viernes pasado, Microsoft anunció que el modelo OpenAI Whisper ya está disponible para los clientes que utilizan el servicio Azure OpenAI y el servicio Azure AI Speech.

El modelo de susurro de OpenAI es una red neuronal que puede realizar tareas de traducción y reconocimiento de voz en 57 idiomas. Está entrenado en un conjunto de datos grande y diverso de audio y texto recopilados de la web. Utiliza un enfoque simple de extremo a extremo basado en la arquitectura codificador-decodificador Transformer y puede producir transcripciones con legibilidad mejorada y marcas de tiempo a nivel de frase.

Las empresas ahora pueden crear aplicaciones basadas en el modelo OpenAI Whisper de dos maneras:

Modelo OpenAI Whisper en el servicio Azure OpenAI:

OpenAI ya ofrece Whisper API por sí solo. Con este nuevo servicio Azure OpenAI, los desarrolladores pueden utilizar la misma API OpenAI Whisper en características y funcionalidades, incluidas capacidades de transcripción y traducción. Las API REST del modelo Whisper para transcripción y traducción se pueden encontrar en el portal del servicio Azure OpenAI.

Modelo OpenAI Whisper en Azure AI Speech:

Los usuarios de Azure AI Speech ahora pueden usar el nuevo modelo Whisper de OpenAI junto con la API de transcripción por lotes de Azure AI Speech existente. Los usuarios de Whisper en Azure AI Speech se benefician de las características existentes que incluyen procesamiento asíncrono, registro de los oradores, personalización y archivos de mayor tamaño. Encuentre los detalles a continuación.

Tamaños de archivos grandes: Azure AI Speech mejora la transcripción de Whisper al permitir archivos de hasta 1 GB de tamaño y la capacidad de procesar grandes cantidades de archivos al permitirle agrupar hasta 1000 archivos en una sola solicitud.
Marcas de tiempo: Al utilizar Azure AI Speech, el resultado del reconocimiento incluye marcas de tiempo a nivel de palabra, lo que brinda la capacidad de identificar en qué parte del audio se pronuncia cada palabra.
Diario de oradores: Esta es otra característica beneficiosa de Azure AI Speech que identifica hablantes individuales en un archivo de audio y etiqueta sus segmentos de voz. Esta función permite a los clientes distinguir entre hablantes, transcribir con precisión sus palabras y crear una transcripción de archivos de audio más organizada y estructurada.
Personalización/ajuste (disponible próximamente): la capacidad de voz personalizada en Azure Speech permite a los clientes ajustar Whisper en sus propios datos para mejorar la precisión y la coherencia del reconocimiento.