Tecnología

Microsoft presenta VALL-E, una IA que imita cualquier voz

Tras los textos y las imágenes, esta inteligencia artificial puede replicar tu voz o cualquiera que haya escuchado durante 3 segundos.

Microsoft ha lanzado recientemente una nueva herramienta de inteligencia artificial llamada VALL-E, que es similar a DALL-E (imágenes) pero para voces. Esta IA es tan avanzado que con solo escuchar tres segundos de audio, puede replicar cualquier voz.

El último generador de texto a voz

A diferencia de los generadores de voz (TTS) anteriores que sonaban robóticos, VALL-E suena naturalmente humano (¿espeluznante?). Si bien los generadores de voz permitieron comunicarse a genios como el físico Stephen Hawking, de un tiempo a esta parte, estas herramientas se utilizan habitualmente para leer mensajes del móvil o incluso para leer páginas de un libro, pero este tipo de productos no están destinados a imitar la voz de un usuario y necesitan innumerables horas de entrenamiento para poder hacerlo.
La IA de Microsoft ha dado un paso más allá: el nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. Basado en EnCodec, el códec de audio de Meta, la IA analiza la voz de una persona e interpreta cómo sonaría esa voz con diferentes frases. Y, además, preservando la entonación y la emoción del hablante, según afirma la compañía.
Microsoft entrenó las funcionalidades de síntesis de voz de VALL-E utilizando la biblioteca de audio LibriLight de Meta. Incluye 60.000 horas de habla en inglés de más de 7.000 hablantes, provenientes principalmente de audiolibros de dominio público de LibriVox.
Grandes capacidades
Así, una vez que ha aprendido una voz específica, VALL-E puede sintetizar el audio de esa persona y decir cualquier cosa intentando retener el tono emocional del hablante. Cuando se combina con otros modelos generativos de IA como GPT-3, sus creadores creen que se puede usar para aplicaciones de texto a voz de alta calidad, edición de voz en la que se puede editar y modificar una grabación de una persona a partir de una transcripción de texto (por ejemplo, haciéndoles decir algo que en realidad no han dicho), y creación de contenido de audio.
Hay varios ejemplos de audio de la herramienta en GitHub y, cuando funciona, funciona muy bien y eso que apenas son los primeros días de VALL-E, y está claro que mejorará con el tiempo. Esto hace que pensemos en las posibles consecuencias negativas de su uso: la tecnología también podría usarse para engañar a otro ser humano haciendo una llamada de socorro o accediendo a información confidencial que está bloqueada detrás de contraseñas habilitadas para voz…
Es importante comentar que, al contrario que ChatGPT de OpenAI, VALL-E no está disponible para el público, al menos no todavía.

Fuente: https://www.muyinteresante.es

¿Cuál es tu reacción?

Emoción
0
Feliz
0
Enamorado
0
No estoy seguro
0
No muy interesante
0

You may also like

Leave a reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

More in:Tecnología