Tras los textos y las imágenes, esta inteligencia artificial puede replicar tu voz o cualquiera que haya escuchado durante 3 segundos.
Microsoft ha lanzado recientemente una nueva herramienta de inteligencia artificial llamada VALL-E, que es similar a DALL-E (imágenes) pero para voces. Esta IA es tan avanzado que con solo escuchar tres segundos de audio, puede replicar cualquier voz.
El último generador de texto a voz
A diferencia de los generadores de voz (TTS) anteriores que sonaban robóticos, VALL-E suena naturalmente humano (¿espeluznante?). Si bien los generadores de voz permitieron comunicarse a genios como el físico Stephen Hawking, de un tiempo a esta parte, estas herramientas se utilizan habitualmente para leer mensajes del móvil o incluso para leer páginas de un libro, pero este tipo de productos no están destinados a imitar la voz de un usuario y necesitan innumerables horas de entrenamiento para poder hacerlo.
La IA de Microsoft ha dado un paso más allá: el nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. Basado en EnCodec, el códec de audio de Meta, la IA analiza la voz de una persona e interpreta cómo sonaría esa voz con diferentes frases. Y, además, preservando la entonación y la emoción del hablante, según afirma la compañía.
Microsoft entrenó las funcionalidades de síntesis de voz de VALL-E utilizando la biblioteca de audio LibriLight de Meta. Incluye 60.000 horas de habla en inglés de más de 7.000 hablantes, provenientes principalmente de audiolibros de dominio público de LibriVox.
Grandes capacidades
¿Cuál es tu reacción?
Emoción
0
Feliz
0
Enamorado
0
No estoy seguro
0
No muy interesante
0