Tecnologías al servicio de la privacidad de nuestra voz

Investigadores de la UPM diseñan un sistema que consigue la anonimización de la voz cuando hablamos con asistentes virtuales o sistemas automáticos de atención telefónica evitando posibles usos indebidos.

27.02.23

La voz cada vez cobra más protagonismo en cómo nos relacionamos con nuestro entorno tecnológico. Desde cambiar el canal de televisión, interactuar con nuestro smartphone hasta realizar peticiones a los dispositivos que tenemos en nuestro entorno son algunas de las ventajas que ahora nos ofrece el uso de la palabra.

No obstante, también existen riesgos en este tipo de comunicación. La voz es una fuente de información sobre nuestra identidad. Cada vez que interactuamos con asistentes virtuales como Siri o Alexa o con servicios automáticos de atención telefónica exponemos nuestra voz a tecnologías que no sólo permiten reconocer lo que decimos, sino que también pueden analizar quiénes somos, y extraer rasgos personales como nuestra edad, dialecto, estado de ánimo, etc.

Los investigadores Luis Alfonso Hernández, Juan Manuel Perero y Fernando Espinoza, del Grupo de Aplicaciones del Procesado de Señal (GAPS) de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid, en colaboración con la empresa Sigma AI, han desarrollado un sistema que utiliza los últimos avances en Inteligencia Artificial para eliminar la información personal de la señal de voz.

Concretamente, el sistema propuesto utiliza técnicas de aprendizaje automático mediante redes neuronales profundas (Deep Learning) para obtener una representación del habla que permita separar el contenido lingüístico de las características particulares de cada hablante (edad, estado emocional, dialecto…); aplicar diferentes transformaciones para suprimir aquellos rasgos del hablante que se quieran proteger y, por último, generar una voz que mantenga el contenido lingüístico original, pero excluyendo las características sensibles de la voz del hablante.

Voz anonimizada, identidad a salvo

“Si la voz está debidamente anonimizada, no podría considerarse un dato personal y no habría que preocuparse por tener que conservar de forma segura un dato biométrico”, asegura Luis A. Hernández, uno de los creadores del novedoso sistema. Además, “hay que tener en cuenta que los asistentes virtuales se entrenan con un gran número de audios con locuciones de muchas personas y aquí surge el problema del almacenamiento de grabaciones de voz sin que estén debidamente anonimizadas”.

Otro ámbito importante de aplicación es la investigación, desarrollo e innovación en las diferentes tecnologías del habla, ya que estos campos necesitan disponer de grandes bases de datos con grabaciones de voz que también podrán ser protegidas y de este modo adecuarse a las exigencias del Reglamento General de Protección de Datos.

El sistema podría instalarse tanto en el dispositivo móvil -para el caso de centros de atención al cliente- o en el propio sistema de centralita. En el escenario de los asistentes virtuales “al ser sistemas más cerrados”, aclara Luis, “lo tendría que integrar el fabricante en el software del asistente, para de esta forma eliminar el problema de conservar y tratar datos biométricos”.

Este sistema ha sido presentado en la iniciativa internacional VoicePrivacy, que reúne a los principales grupos de investigación en este campo y cuyo objetivo es impulsar el desarrollo de nuevas tecnologías que permitan suprimir información sensible del hablante, preservando el contenido lingüístico del mensaje hablado.

La solución desarrollada por la UPM y Sigma AI ha sido una de las soluciones que demostró mayor capacidad de anonimización de voz manteniendo un alto nivel en la calidad lingüística del mensaje.

J. M. Perero-Codosero, “Adversarial Learning to Reduce Sources of Variability in Speech Applications”, Tesis Doctoral, ETSIT-UPM, Diciembre 2022.

J. M. Perero-Codosero, F. Espinoza-Cuadros and L. A. Hernández-Gómez, “X-vector anonymization using autoencoders and adversarial training for preserving speech privacy,” in Computer Speech & Language, vol. 74, pp. 101351, Jan. 2022, doi: 10.1016/j.csl.2022.101351.

F. Espinoza-Cuadros, J. M. Perero-Codosero, J. Antón-Martín and L. A. Hernández-Gómez, “Speaker De-identification System using Autoencoders y Adversarial Training,” in VoicePrivacy 2020 Challenge (Interspeech 2020), Virtual Shanghai, China, 25-29 October 2020, and Speaker Odyssey 2020, Virtual Tokyo, Japan, 4 November 2020. Available online: https://www.voiceprivacychallenge.org/vp2020/docs/Sigma.pdf or arXiv preprint arXiv: 2011.04696.