La Inteligencia artificial, una gran aliada para las personas sordas

Paloma Recuero de los Santos    23 septiembre, 2020

Las personas sordas se comunican entre ellas mediante lengua de signos. Pero ¿Cómo pueden comunicarse con las personas que no tienen dificultades auditivas? El lenguaje escrito, y la lectura de labios han sido las únicas alternativas hasta hace muy poco. No obstante, son opciones bastante limitantes, tanto por el esfuerzo requerido, como por los resultados obtenidos. En este post veremos con la aplicación de algoritmos de inteligencia artificial a la interpretación del lenguaje de signos supone un gran avance para garantizar los derechos de las personas sordas.

Las personas sordas en el mundo

Según estimaciones de la OMS, 360 millones de personas sufren pérdida auditiva, 328 millones de adultos y 32 millones de niños. Estas cifras suponen más del 5% de la población mundial.

Según la Convención de las Naciones Unidas sobre los Derechos de las Personas con Discapacidad, para respetar el derecho de las personas (en este caso sordas) a acceder a la información, la educación y la cultura, es preciso crear un ecosistema tecnológico que permita superar las barreras con que se encuentran estas personas.

Y es con este objetivo con el que surgió el proyecto Content4All, dentro del programa marco de investigación e innovación de la Unión Europea Horizonte 2020. El objetivo de Content4All es aplicar las últimas tecnologías y avances en inteligencia artificial a la automatización de la interpretación del lenguaje de signos.

Las lenguas de signos

Según la Federación Mundial del Sordo, 70 millones de personas utilizan el lenguaje de señas como primer idioma o lengua materna. En otros casos, usan la lengua convencional de su país, con ayuda de audífonos o implantes cocleares.

Aunque existe un Sistema de Señas Internacional (SSI), formado por señas propias, consensuadas, procedentes de las diferentes lenguas, lo habitual es que en distintos países se utilicen distintas lenguas de signos. Se diferencian tanto en léxico (señas y gestos), como en su gramática, y evolucionan con el tiempo al igual que lo hacen los lenguajes orales.

En los países de habla hispana, se usa el alfabeto latino, gracias a lo cual, las personas sordas utilizan un mismo alfabeto manual, común para todos los países, con algunas variaciones en la forma de algunas letras. Pero en el caso de países de habla inglesa, existen notables diferencias. La principal es que el lenguaje de signos en Reino Unido usa un alfabeto bimanual, mientras que en Estados Unidos, utilizan sólo una mano.

Inteligencia artificial para interpretar lengua de signos

Ya sabemos que la inteligencia artificial tiene un enorme potencial para la interpretación de lenguas. En este mismo blog hemos hablado de su aplicación en traducción automática de distintas lenguas (incluso lenguas muertas, o “lenguaje animal”).

Como vemos, el desafío de automatizar la interpretación de las distintas lenguas de signos, es importante, ya que no se trata sólo de interpretar la posición de las manos, sino también gestos o determinadas posiciones del cuerpo. Por ejemplo, levantar las cejas y mirar hacia abajo, significa que se está haciendo una pregunta.

Por todo ello, el aprendizaje de los algoritmos se basará en una combinación de técnicas de visión artificial, machine learning y algoritmos de procesamiento de lenguaje natural (PLN) sobre estos datos de posición/movimiento de la parte superior del cuerpo, expresiones faciales y signos hechos con las manos. Y, como siempre, la clave para el éxito de la herramienta será disponer de suficientes datos con la calidad adecuada.

Figura 1: Datos sobre los que se entrena el algoritmo (signall.us)
Figura 1: Datos sobre los que se entrena el algoritmo (fuente)

Un ejemplo interesante para lengua de signos americana: SignAll

Por ejemplo, la startup húngara SignAll ofrece un dispositivo en el mundo que permite la comunicación entre una persona sorda y otra oyente a través de la tecnología de traducción automática de ASL(lengua de signos americana).

La persona sorda lleva un par de guantes de colores y ejecuta los signos frente a una la cámara. Los colores ayudan diferenciar los signos con mayor precisión. Otras tres cámaras capturan información adicional, como expresiones faciales y otros gestos. La persona oyente simplemente habla con normalidad y su discurso es traducido a la pantalla de la persona sorda usando un procesamiento de lenguaje natural.

SignAll contó con la gran ventaja de poder entrenar sus algoritmos con una base de datos de 250.000 imágenes anotadas manualmente procedente de la Universidad Gallaudet (GU). Esta universidad fue la primera institución de educación superior para sordos y personas con problemas de audición en el mundo.

Este tipo de herramientas pueden hacer de la lengua de signos americana (ASL) una segunda lengua de interés para personas sordas de otros países, de la misma forma que lo es el inglés como lenguaje oral.

La iniciativa europea: Content4All

Volviendo a territorio europeo, el proyecto Content4All aborda el problema desde un enfoque diferente. En este caso, plantean la creación Realatar, un humano virtual en 3D de alta calidad. Se trata de una réplica digital que se crea a partir de grabaciones de intérpretes reales que se expresan en lenguaje de signos y que puede después mostrarse en todo tipo de dispositivos: televisión, portátiles o tabletas. Tan sólo se precisa de una cámara para grabar su rostro y un sensor tipo Microsoft Kinect que perciba sus movimientos.

El problema ahora es encontrar los datos para entrenar el modelo. Porque, datos para reconocimiento de reconocimiento de lenguaje (speech recognition) sí que hay. Pero datos visuales de la parte gestual, apenas hay. Por tanto, uno de los tareas más importantes del proyecto es generar esos datos de entrenamiento.

Para construir esta base de datos se recurre a una fuente muy curiosa: los programas de noticias (¡el telediario!) y espacios de pronóstico meterológico. ¿Por qué? Muy sencillo, porque en estos programas, el repertorio lingüístico es relativamente limitado y claro dando poco espacio a los errores de interpretación.

Una vez generada la base de datos, se entrena la IA aplicando algoritmos de Procesamiento del Lenguaje Natural (PNL) y de Aprendizaje Profundo, de forma que se traduzca el lenguaje hablado, gestos y expresiones de lenguaje de signos que el Realatar puede ejecutar. Por último, gracias a las tecnologías de HbbTV, el Realatar se superpone sobre el navegador o la señal de televisión original, del mismo modo que se hace con los subtítulos.

Conclusión

Aunque el desafío es claro y aun queda mucho camino por delante, es evidente que las tecnologías basadas en la inteligencia artificial han supuesto un salto cualitativo en este campo, y pueden ser de gran ayuda para garantizar el derecho de acceso a la educación, la información y la cultura de las personas con discapacidad.

Para mantenerte al día con LUCA visita nuestra página web suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *