Distrito Telefónica. Hub de Innovación y Talento

Protección de la privacidad y seguridad en comunicaciones de voz ante amenazas de voz sintética

Tecnología
Ciberseguridad y Privacidad Inteligencia Artificial
La inteligencia artificial ha alcanzado un punto en el que pueden imitar voces humanas con una precisión sorprendente. Esto ha abierto la puerta a nuevas formas de fraude, suplantación de identidad y manipulación en entornos digitales. Ya no se trata solo de proteger datos: ahora también es necesario proteger la voz. 

Ante este escenario, el equipo Digital Life Disruption Lab (DL2) en Discovery dentro de Telefónica Innovación Digital, ha patentado un sistema que propone una solución tecnológica innovadora que actúa como un escudo inteligente en las comunicaciones de audio y vídeo.

Su propuesta es simple pero poderosa: detectar voces sintéticas en tiempo real y proteger la identidad del usuario transformando su voz antes de que salga del dispositivo. 

El sistema funciona de forma completamente local, sin enviar datos a la nube ni depender de servidores externos.

Esto garantiza privacidad total y permite que funcione incluso en dispositivos convencionales como teléfonos móviles o tablets. La clave está en su eficiencia: utiliza redes neuronales ligeras y técnicas de aprendizaje continuo que le permiten adaptarse a nuevas amenazas sin comprometer el rendimiento. 

Cuando se recibe una llamada, el sistema analiza el audio entrante en tiempo real. Si detecta patrones sospechosos que sugieren que la voz ha sido generada artificialmente, lanza una alerta al usuario.

Esta detección se basa en el análisis de características complejas del audio, como la fase y la magnitud del espectrograma, que son difíciles de falsificar incluso para los generadores de voz más avanzados. 

Pero la protección no se queda ahí. El sistema también puede anonimizar la voz del usuario antes de que esta sea transmitida. Esto significa que, aunque alguien grabe la llamada, no podrá utilizar esa voz para crear una réplica digital. La transformación mantiene el contenido y la claridad del mensaje, pero elimina cualquier rasgo identificable, como el tono, el timbre o la velocidad natural del habla. 

Detección en tiempo real voz sintética

Detección en tiempo real voz sintética

Además, el sistema aprende con el uso. Si el usuario detecta una voz sospechosa que no fue identificada automáticamente, puede reportarla. Esa información se utiliza para mejorar el modelo mediante aprendizaje federado, una técnica que permite entrenar algoritmos sin compartir datos personales. Así, el sistema se vuelve más preciso con el tiempo, sin comprometer la privacidad.
 
Esta tecnología tiene aplicaciones inmediatas en sectores como telecomunicaciones, banca, atención al cliente, salud y cualquier entorno donde la autenticidad de la voz sea crítica. También puede integrarse en plataformas de videollamadas, asistentes virtuales o dispositivos IoT.  

En un mundo donde la confianza en lo que oímos está en juego, esta solución representa un paso firme hacia comunicaciones más seguras, privadas y resilientes. No solo responde a las amenazas actuales, sino que se anticipa a las que están por venir. 

Explora nuestra siguiente investigación

ATTPwn: emulacion de adversarios

ATTPwn es una plataforma que simula amenazas cibernéticas para evaluar y mejorar la seguridad de sistemas y redes informáticas.

20/10/2023
Técnico de servidores retirando el rack del panel del gabinete