Microsoft crea VALL-E una IA de capaz de simular cualquier voz #IMEUninter #UNINTER #IA

Logo de la ESCAT

Microsoft ha revelado un nuevo modelo de inteligencia artificial capaz de simular la voz de una persona a partir de una muestra de audio.

De acuerdo con la compañía, este sistema es capaz de sintetizar el audio de una persona una vez que su voz es aprendida. Y lo más interesante es que también puede generar entonaciones para “preservar el tono emocional” del hablante original.

El equipo detrás de VALL-E señala que esta IA se puede utilizar en aplicaciones donde se requiera generar voz en alta calidad a partir de texto, así como en entornos donde se necesite “editar” la voz de una persona y cambiarse por una nueva transcripción de texto, haciéndola decir algo que originalmente no se dijo, además de que también tiene potencial en combinación con otras IA, como GPT3 para la creación de nuevo contenido de audio.

Así funciona VALL-E

Microsoft cataloga a VALL-E como un “modelo de lenguaje neuronal“, basado en la tecnología EnCodec anunciada por Meta en 2022.

En el caso de esta nueva IA, no sintetiza el habla manipulando las ondas de audio, sino que analiza cómo suena cada persona, divide la información en componentes discretos denominados como “tokens” usando EnCodec y utiliza datos de su entrenamiento para comparar lo que “conoce” sobre cómo sonaría esa voz si dijera otras frases fuera de la muestra de tres segundos.

Microsoft

Para su entrenamiento, Microsoft utilizó la biblioteca de audio “LibriLight” de Meta. Que contiene unas 60,000 horas de habla en inglés de más de 7,000 personas distintas, extraídas en su mayoría de audiolibros de dominio público. Para que funcione adecuadamente se requiere que la muestra de tres segundos original coincida con una voz de las que tiene en sus datos de entrenamiento.

Desde entonaciones hasta entornos simulados

Microsoft

El primer audio pertenece a la muestra dicha por el usuario, después una “verdad básica”, que sirve para comparar otra frase del mismo hablante, después una “línea base” de cómo sería la conversión de texto a voz y luego el procesamiento de VALL-E.

Fuente: XATAKA

Ingeniería en Mecatrónica

Más noticias sobre Ingeniería en Mecatrónica

El cinturón

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *