Humanos frente a máquinas: ¿por la voz los identificaréis?

Félix Hernández    26 septiembre, 2019
Voz

La voz nos distingue como humanos, nos identifica, nos proporciona una impronta. Luciano Pavarotti decía: “Creo que mi cualidad más importante es que cuando me escuchan en la radio saben que soy yo. Mi voz no se confunde con otras”. Antes de que existiera la lengua escrita siempre estuvo la comunicación verbal, patrimonio cultural y de contacto entre los humanos.

En el último número de la revista TELOS se hace una singular pirueta. La publicación pone el énfasis en la conjunción entre el fascinante mundo de la voz humana y la tecnología, ahora que las máquinas buscan imitarnos, que los altavoces y pantallas parlantes nos ayudan y que los asistentes telefónicos son cada vez más inteligentes y, aunque en principio nos puedan parecer mundos irreconciliables o antagónicos, merece la pena que nos detengamos a “escuchar” este singular planteamiento.

Para presentar la última entrega de TELOS en la sede de Telefónica se entabló un interesantísimo debate entre dos mujeres.

Una de ellas, Juliana Rueda, portada de la revista de Fundación Telefónica a la que me refiero. Ingeniera de sonido de profesión, maestra de música por vocación, pionera del audiolibro en español, emprendedora y de timbre de voz intenso, ella define la voz como el espacio de la emoción.

La otra protagonista, Irene Gómez, digital product director de Telefónica, responsable de que Aura resulte una experiencia rica y personal, para que su voz tenga cabida en nuestro hogar. El timbre de Irene es templado, yo diría que un tanto mezzosoprano.

La voz, más actual que nunca

Juliana es ante todo optimismo, dice que la voz es por siempre actual, y cada vez más debido al estado sensorial, pero que en los últimos años hay una explosión del soporte ligada a nuestros dispositivos de movilidad. Y, además, escucha el futuro con interés, ahora que las máquinas comienzan a hablar en nuestros hogares gracias a los dispositivos digitales.

Irene Gómez complementa mágicamente el perfil de Juliana. Su objetivo es conectar la emoción con Aura y crear el nuevo espacio de comunicación bidireccional de los asistentes inteligentes.

En el encuentro Irene le preguntó a Juliana qué se precisa para llegar al objetivo del encuentro de la voz natural con la artificial.

Juliana le respondió que la voz es ritmo, armónicos, pausas, respiraciones… Por tanto, se necesitará una tecnología que sintetice nuestra voz mediante el aprendizaje para usar dichos elementos y poder transmitir a la historia los matices de la alegría, la tristeza… y también debe saber ajustarse al contenido idóneo para presentar en cada momento. “Quizá cuando sea más simple servirán voces más planas generadas mediante inteligencia artificial, pero ahora mismo para narrar, para iniciar el viaje con el lector en el audiolibro precisamos de un actor humano”, concluye. Para eso ella convoca al autor a su estudio, selecciona a los actores y trata de acercar el contenido al lector oyente.

Irene explicó después que el asistente electrónico en su contexto de uso se apoya muchas veces en imágenes, en contenidos que integran distintos soportes… y preguntó a Juliana si en la edición del audiolibro se usa música, a lo que Juliana respondió que era posible hacerlo para enriquecer el formato pero que una sola voz debe ser suficiente para crear la “intimidad” necesaria. La voz por sí sola posee muchos inputs de información sobre cómo estamos y cómo nos sentimos y ése es el proceso de aprendizaje que se demanda en la máquina para poder suplir a la voz natural.

Explicó, además que el éxito del audiolibro proviene de la capacidad de la voz para dejarnos esa impronta personal y crear un vínculo que nos hará recordar el libro para siempre, ese enganche que hace que consumamos el contenido hasta el final. Ambas coincidieron en que el audiolibro es un formato de éxito que triunfa entre los jóvenes en sus momentos de desplazamiento y también por las noches. Además, libreros o editores no lo ven con inquietud frente al libro tradicional, sino como un amigo amable.

Historias alrededor del fuego, la radio, ¿y de un altavoz inteligente?

Irene nos hizo entonces comprender la mayor diferencia con los asistentes personales, además de la interacción bidireccional, porque Aura busca responder una duda o resolver un problema en 20 o 30 segundos, un tiempo escaso en comparación con la experiencia de un audiolibro que sería de muchas más horas. Si ese tiempo se extendiera en los asistentes se abrirían nuevas experiencias y quizá el vínculo de lo tecnológico con lo artístico supondría una interesante oportunidad: se podrían contar historias alrededor de un altavoz inteligente tal y como se hizo alrededor del fuego milenios atrás o junto a la radio el siglo pasado. Juliana asintió en que podría ser una oportunidad para recuperar espacios relevantes de entretenimiento y de cercanía en la familia, algo que en parte ya está sucediendo en Estados Unidos.

Respecto a los aspectos técnicos, en cuanto al género de la voz (Aura y los asistentes no poseen una voz específica, se busca la denominada neutralidad, la voz Q), Juliana expuso que cree que las voces femeninas conectan mejor quizá por reminiscencias con la huella materna, pero que en términos generales es el libro el que sugiere la personalidad y género de la voz más idónea.

Irene preguntó también por los acentos locales, porque en Aura se están trabajando ya, explicó que es neutral por país, y Juliana confirmó que en el audiolibro sucedía un tanto lo mismo: el libro está muy ligado al localismo del tema o del autor y eso define el acento que se debe usar. Irene explicó que cuanto más agradable sea la voz del asistente mejor, pero que quizá la calidad de la voz es secundaria ahora y lo importante en este momento es ayudar de la manera más precisa, es decir, que reconozcan la petición vocal incluso en entornos ruidosos y sepa atenderla.

La responsable de Aura se interesó también por si ya existen estudios de producción que usen voces sintéticas en vez de actores, a lo que Juliana le contestó que no, porque existe un postproceso, en especial para las pausas y respiraciones que deben ser añadidas a mano, para evitar que la lectura parezca un metrónomo y por eso no compensa. En esto ¡gana lo humano!

La voz como herramienta de persuasión

Por último, se habló del podcast, el hermano menor del audiolibro. Ambas coincidieron en que es una herramienta en crecimiento y con ventajas: su corta duración, contiene metadatos que permiten recuperar información de la interacción con el lector y es más fresco porque puede construirse fácilmente frente a los altos costes de producción del audiolibro. Tal vez por esta inmediatez, el podcast resulta ideal para autores de no ficción en la difusión de su obra porque, aunque no sea técnicamente perfecto, su discurso tiene completa credibilidad al provenir del propio autor aunque yo abro la posibilidad… quizá haya aquí espacio para una voz sintetizada próximamente.

Tanto Juliana como Irene investigan el futuro y ambas creen que el caballo de batalla está en la personalización: ¿conseguirá la voz sintetizada recrear a nuestro abuelo y que éste nos vuelva a leer un cuento como cuando éramos niños? De momento solo son frases y balbuceos, se trata de un gran reto, pero podríamos escuchar la voz de nuestros actores favoritos desaparecidos como ya sucede con la imagen, con las redes neuronales GAN.

Pase lo que pase, y sin ganadores aparentes (por el momento), lo cierto es que la palabra hablada, como también dice Marta Pinillos en otro artículo de este último número de TELOS, ”es la mejor herramienta de persuasión y, por ello, clave para el liderazgo”. Pues que sea ésta la puerta de entrada a la lectura (en voz alta) de esta fantástica revista y la comprobación por uno mismo de su poder cautivador.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *