🥇 ▷ Las nuevas gafas de sonda de Cornell ofrecen reconocimiento de voz silencioso mediante movimientos corporales con un 95% de precisión

Una innovación en Cornell aporta una ventaja a la comunicación silenciosa: las nuevas gafas Sonar que desarrolló utilizando la interfaz EchoSpeech que podrían ayudar a observar los movimientos corporales del usuario para identificar palabras. Esto se centra principalmente en la tecnología de reconocimiento facial y bucal disponible en las gafas, con hasta un 95% de precisión en lo que dice el usuario.

Puede percibir palabras que un usuario dice en silencio, ideal para diferentes situaciones y configuraciones donde el sonido se amortigua o es irreconocible debido a la contaminación acústica u otros obstáculos como discapacidades del habla.

Gafas de sonda de Cornell: reconocimiento de voz silencioso con 95% de precisión

(Foto: Cornell)

Investigadores de la Universidad de Cornell han desarrolló un par de gafas de sonar que puede reconocer el habla silenciosa siguiendo los movimientos sutiles de la boca y la cara del hablante. La tecnología, que cuenta con una tasa de precisión del 95%, podría tener implicaciones significativas para las personas con problemas del habla o para quienes trabajan en entornos ruidosos donde los sistemas tradicionales de reconocimiento de voz tienen dificultades para funcionar de manera efectiva.

Las gafas, desarrolladas por Ph.D. El estudiante Ruidong Zhang de Cornell, utiliza ondas sonoras de alta frecuencia para detectar el movimiento de la boca de un hablante y convertirlas en palabras.

Zhang’s estudio publicado presenta el último dispositivo portátil que también admite micrófonos y parlantes “más pequeños que borradores de lápiz”, combinados con un sonar impulsado por inteligencia artificial para ayudar a detectar palabras.

Comunicarse en silencio es posible con EchoSpeech

Anteriormente, las gafas estaban equipadas con una pequeña cámara que captura las expresiones faciales y los movimientos de los labios del hablante, pero el equipo se ha alejado de ella. Esto se llama la interfaz EchoSpeech, desarrollada bajo el Laboratorio de interfaces informáticas inteligentes para interacciones futuras (SciFi).

Ahora utiliza detección acústica que luego se analiza mediante algoritmos de aprendizaje automático para capturar lo que un usuario intenta decir. El sistema está entrenado en un gran conjunto de datos de voz y expresiones faciales, lo que le permite predecir con precisión lo que dice un hablante después de solo unos minutos de entrenamiento del usuario y recopilación de los datos necesarios.

Las discapacidades del habla y sus soluciones en el presente

El reconocimiento de voz es una tecnología que los investigadores de todo el mundo también están tratando de acercar a los usuarios, para responder a los problemas y discapacidades provocados por la genética o los accidentes de una persona. Hubo un tiempo en que Facebook (ahora Meta) trabajó en una tecnología cerebro-computadora que podía decodificar el habla y la audición a partir de la actividad cerebral.

También hay avances para convertir las señales cerebrales en habla, con pensamientos que se transforman en palabras según estudios e investigaciones del pasado.

Las gafas de sonda desarrolladas por investigadores de Cornell representan un nuevo e interesante avance en el campo de la tecnología de reconocimiento de voz.

Al aprovechar el poder del sonar pasivo y los algoritmos de aprendizaje automático, las gafas pueden reconocer con precisión el habla silenciosa con un nivel impresionante de precisión. Con un mayor perfeccionamiento, esta tecnología tiene el potencial de transformar la vida de las personas con discapacidades del habla y proporcionar una nueva forma de comunicarse en ambientes ruidosos.

Tabla de Contenido