Asistentes de voz entrenados para entender problemas de habla

Los asistentes de voz ejemplifican a la perfección el hecho de que las nuevas tecnologías no son neutras, por lo que las grandes tecnológicas trabajan en proyectos que permitirán una interacción más fluida para personas con tartamudez y otros trastornos.

Los asistentes de voz se utiliza el aprendizaje de máquinas para comprender a los usuarios y las bases de datos suelen basarse en la dicción estándar.
Eso significa que un gran porcentaje de la población con dolencias como la parálisis cerebral o problemas de tartamudez queda marginada cuando, en muchas ocasiones son quienes más los necesitan. Tal como ya existen sistemas para reconocer el lenguaje de los sordomudos, las grandes empresas tecnológicas están trabajando en mejorar el reconocimiento de voz.

Una de las últimas ha sido Apple, que ha publicado un artículo sobre su trabajo con una base de datos que cuenta con 32 000 registros a partir de podcasts.

Siri la asistente de voz

El objetivo de la empresa fundada por Steve Jobs es que su asistente de voz Siri pueda interpretar pausas, prolongaciones, repeticiones y palabras incompletas. Los resultados preliminares, basados en la base de datos Stuttering Events in Podcasts (casos de tartamudez en podcasts) y FluencyBank. Apuntan a una mejora en la precisión del 28% y el 24% respectivamente. Uno de los principales problemas de Siri es que interpretaba las pausas propias de la tartamudez como el fin de la frase, lo que los resultados son de baja calidad.

Asistentes de las grandes tecnológicas

Apple no es la única compañía que está orientando sus esfuerzos a sistemas de reconocimiento de voz más inclusivos. Por otro lado, Google está recopilando muestras de habla con mayor diversidad para atender las necesidades de este sector de la población. En el marco del proyecto Euphonia, se está probando un prototipo de app mediante el cual las personas con dicción atípica podrán entrenar sus dispositivos para que tomen en consideración su manera específica de hablar.

Por otro lado, Amazon anunció en diciembre de 2020 la integración de la tecnología de una startup israelí en su asistente Alexa. La tecnología, de manera similar al proyecto de Google, permitirá a cada usuario entrenar el algoritmo con sus propias particularidades. Se espera que la opción esté operativa a lo largo de 2021.

Hasta ahora, los asistentes de voz se basaban en patrones de voz y tonalidades comunes que trascendían los acentos concretos. Sin embargo, se considera que el reto de ampliar el reconocimiento de voz a personas con tartamudez y disartria es mucho más complejo. En primer lugar, porque las bases de datos son más reducidas y, en segundo lugar, porque la variabilidad de los hablantes es infinitamente mayor.

Los avances en inteligencia artificial y aprendizaje de máquinas están abriendo la puerta a una nueva era de accesibilidad para todos en el campo de los asistentes de voz.