¿Alguna vez te has planteado cómo un especialista evalúa la calidad de tu habla/voz?

Investigadores de la Universidad Politécnica de Madrid y la Universidad de Antioquia han desarrollado un sistema automático capaz de analizar y evaluar objetivamente la voz de un paciente utilizando Inteligencia Artificial.

21.10.2020

Debido a la falta técnicas más objetivas, la evaluación de la extensión de un trastorno de la voz/habla y de la eficacia de un potencial tratamiento -incluidos los procedimientos quirúrgicos-, se apoya en  las evaluaciones perceptuales realizadas por los distintos especialistas (foniatra, otorrinolaringólogo y/o logopeda) y en la autoevaluación realizada por el paciente. Ello introduce una cierta distorsión en el proceso asistencial.

La evaluación de la calidad de la voz/habla se realiza habitualmente de forma subjetiva utilizando test perceptuales, lo que significa que el especialista escucha al paciente y puntúa el habla/voz de acuerdo a criterios psicoacústicos, como el grado de patología, la aspereza de la voz, el escape de aire durante la fonación, y otros. Estos aspectos perceptuales se califican con una puntuación numérica, lo que es altamente subjetivo y extremadamente dependiente del sesgo introducido por el propio especialista. Por otro lado, el proceso adolece de una fuerte variabilidad, ya que depende del evaluador, de su experiencia y de su formación; pero también de otros aspectos como el cansancio, el estrés, su condición psicopatológica y el ruido ambiental. La única forma de minimizar todos estos factores de variabilidad es apoyándonos en modelos basados en ordenador capaces de objetivar el proceso. Y el progreso de los métodos de inteligencia artificial actuales permite desarrollar modelos computacionales capaces de abordar estos problemas.

En este contexto, y aprovechando la capacidad de modelado que ofrecen las técnicas de inteligencia artificial, investigadores de la Universidad Politécnica de Madrid y la Universidad de Antioquia han desarrollado un sistema automático capaz de analizar y evaluar objetivamente la voz de un paciente siguiendo los criterios antes mencionados [1][2].

El sistema automático funciona como un oído artificial que evalúa automáticamente los aspectos más significativos mediante comparación de la voz del paciente con modelos artificiales generados con técnicas de procesado de señal y de aprendizaje automático. El procedimiento es sencillo, fácil de usar, económico y completamente no invasivo, ya que únicamente requiere grabar la voz con un micrófono, mientras que un programa de ordenador se encarga del resto.

Los resultados han demostrado que los modelos artificiales son suficientemente precisos como para que se puedan usar en la práctica clínica, reportando precisiones por encima de los procedimientos comúnmente utilizados. En este sentido, una validación ciega ha demostrado que el error cometido por el sistema automático es menor que el de un evaluador experto con un alto nivel de formación.

El sistema representa un paso adelante en la evaluación objetiva de la calidad de la voz/habla, eliminando la subjetividad y reduciendo significativamente los errores introducidos por los evaluadores humanos. Su utilidad es especialmente relevante en contextos colaborativos en los que el paciente es evaluado por diferentes especialistas a lo largo de las diferentes etapas del proceso asistencial. Lejos del ámbito clínico, el sistema también tiene implicaciones en contextos forenses médico-legales o criminalísticos que pudieran requerir una evaluación objetiva de la voz.
 
Juan I. Godino-Llorente, investigador principal de este proyecto, se interesó por este problema “después de asistir a una sesión clínica con tres otorrinolaringólogos y un logopeda, quienes discutían sobre la eficacia de una terapia de rehabilitación que se aplicó después de un procedimiento quirúrgico. La voz del paciente era claramente mejor después del procedimiento, pero fue interesante comprobar cómo los diferentes especialistas tenían opiniones divergentes sobre los aspectos que habían mejorado. La reunión se repitió una semana después y aparecieron nuevas divergencias, incluso en las propias evaluaciones de cada experto”. Esto le hizo pensar en la necesidad de hacer más objetivo el proceso de evaluación desarrollando modelos artificiales.

Referencias:

1. J. D. Arias-Londoño; J. A. Gómez-García; J. I. Godino-Llorente, “Multimodal and multi-output deep learning architectures for the automatic assessment of voice quality using the GRB scale” IEEE J. Selected Topics in Signal Processing, Vol.14(2), pp. 413-422 , Feb. 2020
2. J. A. Gómez-García, L. Moro-Velázquez; J. Mendes-Laureano; G. Castellanos-Dominguez; J. I Godino-Llorente, "Emulating the Perceptual Capabilities of a Human Evaluator to map the GRB Scale for the Assessment of Voice Disorders", Engineering Applications of Artificial Intelligence", 82:236-251, 2019