🥇 ▷ Los humanos no logran identificar una cuarta parte de las muestras de discursos falsos, según un estudio

Un estudio reciente realizado por el University College London (UCL) revela que los humanos solo son capaces de detectar discursos deepfake el 73% de las veces, independientemente de si están en inglés o mandarín.

Los deepfakes son una forma de medio sintético creado utilizando inteligencia artificial (IA) generativa que imita la voz o la apariencia de una persona real. Estos algoritmos de IA están entrenados para replicar imágenes o sonidos originales aprendiendo patrones y características de un conjunto de datos, como audio o video de un individuo real.

Si bien las primeras versiones requerían una gran cantidad de datos, los algoritmos más nuevos previamente entrenados pueden recrear la voz de alguien usando solo un clip de tres segundos, según el estudio.

Algoritmo TTS

En el estudio de la UCL, los investigadores utilizaron un algoritmo de conversión de texto a voz (TTS) entrenado en conjuntos de datos disponibles públicamente en inglés y mandarín para generar 50 muestras de voz deepfake en cada idioma. Estas muestras eran distintas de los datos utilizados para entrenar el algoritmo para garantizar que no reprodujera la entrada original.

Luego, los investigadores reprodujeron muestras de habla genuina y generada artificialmente a 529 participantes, con el objetivo de evaluar su capacidad para identificar el habla real del falsa.

Sorprendentemente, los participantes sólo pudieron detectar discursos deepfake con una tasa de precisión del 73%. Incluso después de recibir capacitación para reconocer las características del habla deepfake, su precisión de detección solo mejoró marginalmente.

Kimberly Mai, primera autora del estudio, destaca que este hallazgo demuestra la incapacidad de los humanos para identificar consistentemente el habla deepfake, incluso con entrenamiento.

Además, el estudio utilizó algoritmos relativamente más antiguos, lo que generó preocupaciones sobre las capacidades de detección humana frente a la tecnología más sofisticada disponible ahora y en el futuro.

Mejores detectores de voz automatizados

El equipo de investigación planea desarrollar detectores de voz mejor automatizados para contrarrestar las amenazas potenciales que plantean el audio y las imágenes generados artificialmente. Si bien la tecnología de audio de IA generativa ofrece beneficios, como una mayor accesibilidad para personas con capacidades de habla limitadas, también existe un temor creciente de que los delincuentes y los Estados-nación puedan explotar esta tecnología para infligir daño a individuos y sociedades.

Los casos documentados de uso indebido del discurso deepfake incluyen un incidente de 2019 en el que el director ejecutivo de una empresa energética británica transfirió fondos a un proveedor falso después de haber sido engañado por una grabación deepfake de la voz de su jefe.

El profesor Lewis Griffin, autor principal del estudio, enfatiza la necesidad de que los gobiernos y las organizaciones diseñen estrategias para abordar el posible uso indebido de la tecnología de IA generativa.

Sin embargo, también reconoce las perspectivas positivas que tenemos por delante, ya que esta tecnología tiene el potencial de aportar numerosos beneficios si se utiliza de forma responsable.

“A medida que la tecnología de inteligencia artificial generativa se vuelve más sofisticada y muchas de estas herramientas están disponibles abiertamente, estamos a punto de ver numerosos beneficios y riesgos”, dijo Griffin. dijo en un comunicado.

“Sin duda, sería prudente que los gobiernos y las organizaciones desarrollaran estrategias para hacer frente al abuso de estas herramientas, pero también deberíamos reconocer las posibilidades positivas que se vislumbran en el horizonte”.

Los hallazgos del estudio fueron publicado en la revista MÁS UNO.

Tabla de Contenido