Expertos en inteligencia artificial estudian cómo las máquinas suplantan las voces humanas y evolucionan para evitar que se identifique si habla un robot o una persona.
La ciencia que hay detrás de hacer que las máquinas hablen como los humanos es muy compleja, porque nuestros patrones de habla tienen muchos matices. «La voz no es fácil de entender», dice Klaus Scherer, profesor emérito de psicología de las emociones en la Universidad de Ginebra. «Para analizar la voz se necesitan muchos conocimientos sobre acústica, mecanismos vocales y aspectos fisiológicos. Así que es necesariamente interdisciplinario, y bastante exigente en cuanto a lo que hay que dominar para hacer algo de importancia».
Así que no es de extrañar que las voces sintéticas hayan tardado más de 200 años en pasar de la primera máquina de hablar, inventada por Wolfgang von Kempelen alrededor de 1800 -un artilugio con forma de caja que utilizaba fuelles, tubos y una boca y nariz de goma para simular unas pocas expresiones humanas reconocibles, como mamá y papá- a un clon de la voz de Samuel L. Jackson que ofrece el informe del tiempo en Alexa.
Las máquinas parlantes como Siri, Google Assistant y Alexa, o la línea automatizada de atención al cliente de un banco, suenan ahora bastante humanas. Gracias a los avances en inteligencia artificial, o IA, hemos llegado a un punto en el que a veces es difícil distinguir las voces sintéticas de las reales.
Quería saber qué implica el proceso en el lado del cliente. Así que me puse en contacto con la empresa de síntesis de lenguaje natural Speech Morphing, con sede en la Bahía de San Francisco, para crear un clon -o «doble digital»- de mi propia voz.
Clonación de la voz de una reportera
Dada la complejidad de la síntesis de voz, resulta bastante sorprendente descubrir lo fácil que es encargar una. Para una construcción conversacional básica, todo lo que el cliente tiene que hacer es grabarse diciendo un montón de líneas con guión durante aproximadamente una hora. Y eso es todo.
«Extraemos de 10 a 15 minutos de grabaciones netas para una construcción básica», dice el fundador y director general de Speech Morphing, Fathy Yassa.
Los cientos de frases que grabo para que Speech Morphing pueda construir mi doble de voz digital parecen muy aleatorios: «Aquí la explosión de alegría lo ahogó». «Eso es lo que hizo Carnegie». «Me gustaría que me enterraran bajo el estadio de los Yankees con JFK». Y así sucesivamente.
Pero no son tan aleatorios como parecen. Yassa dice que la empresa elige expresiones que produzcan una variedad suficientemente amplia de sonidos a través de una gama de emociones -como disculpa, entusiasmo, enfado, etc.- para alimentar un sistema de entrenamiento de IA basado en una red neuronal. Esencialmente, se enseña a sí mismo los patrones específicos del habla de una persona.