La Inteligencia artificial, una gran aliada para las personas sordasPaloma Recuero de los Santos 23 septiembre, 2020 Las personas sordas se comunican entre ellas mediante lengua de signos. Pero ¿Cómo pueden comunicarse con las personas que no tienen dificultades auditivas? El lenguaje escrito, y la lectura de labios han sido las únicas alternativas hasta hace muy poco. No obstante, son opciones bastante limitantes, tanto por el esfuerzo requerido, como por los resultados obtenidos. En este post veremos con la aplicación de algoritmos de inteligencia artificial a la interpretación del lenguaje de signos supone un gran avance para garantizar los derechos de las personas sordas. Las personas sordas en el mundo Según estimaciones de la OMS, 360 millones de personas sufren pérdida auditiva, 328 millones de adultos y 32 millones de niños. Estas cifras suponen más del 5% de la población mundial. Según la Convención de las Naciones Unidas sobre los Derechos de las Personas con Discapacidad, para respetar el derecho de las personas (en este caso sordas) a acceder a la información, la educación y la cultura, es preciso crear un ecosistema tecnológico que permita superar las barreras con que se encuentran estas personas. Y es con este objetivo con el que surgió el proyecto Content4All, dentro del programa marco de investigación e innovación de la Unión Europea Horizonte 2020. El objetivo de Content4All es aplicar las últimas tecnologías y avances en inteligencia artificial a la automatización de la interpretación del lenguaje de signos. Las lenguas de signos Según la Federación Mundial del Sordo, 70 millones de personas utilizan el lenguaje de señas como primer idioma o lengua materna. En otros casos, usan la lengua convencional de su país, con ayuda de audífonos o implantes cocleares. Aunque existe un Sistema de Señas Internacional (SSI), formado por señas propias, consensuadas, procedentes de las diferentes lenguas, lo habitual es que en distintos países se utilicen distintas lenguas de signos. Se diferencian tanto en léxico (señas y gestos), como en su gramática, y evolucionan con el tiempo al igual que lo hacen los lenguajes orales. En los países de habla hispana, se usa el alfabeto latino, gracias a lo cual, las personas sordas utilizan un mismo alfabeto manual, común para todos los países, con algunas variaciones en la forma de algunas letras. Pero en el caso de países de habla inglesa, existen notables diferencias. La principal es que el lenguaje de signos en Reino Unido usa un alfabeto bimanual, mientras que en Estados Unidos, utilizan sólo una mano. Inteligencia artificial para interpretar lengua de signos Ya sabemos que la inteligencia artificial tiene un enorme potencial para la interpretación de lenguas. En este mismo blog hemos hablado de su aplicación en traducción automática de distintas lenguas (incluso lenguas muertas, o «lenguaje animal»). Traductores automáticos basados en IA: ¿Nos permitirán comunicarnos también con nuestras mascotas? Como vemos, el desafío de automatizar la interpretación de las distintas lenguas de signos, es importante, ya que no se trata sólo de interpretar la posición de las manos, sino también gestos o determinadas posiciones del cuerpo. Por ejemplo, levantar las cejas y mirar hacia abajo, significa que se está haciendo una pregunta. Por todo ello, el aprendizaje de los algoritmos se basará en una combinación de técnicas de visión artificial, machine learning y algoritmos de procesamiento de lenguaje natural (PLN) sobre estos datos de posición/movimiento de la parte superior del cuerpo, expresiones faciales y signos hechos con las manos. Y, como siempre, la clave para el éxito de la herramienta será disponer de suficientes datos con la calidad adecuada. Figura 1: Datos sobre los que se entrena el algoritmo (fuente) Un ejemplo interesante para lengua de signos americana: SignAll Por ejemplo, la startup húngara SignAll ofrece un dispositivo en el mundo que permite la comunicación entre una persona sorda y otra oyente a través de la tecnología de traducción automática de ASL(lengua de signos americana). La persona sorda lleva un par de guantes de colores y ejecuta los signos frente a una la cámara. Los colores ayudan diferenciar los signos con mayor precisión. Otras tres cámaras capturan información adicional, como expresiones faciales y otros gestos. La persona oyente simplemente habla con normalidad y su discurso es traducido a la pantalla de la persona sorda usando un procesamiento de lenguaje natural. SignAll contó con la gran ventaja de poder entrenar sus algoritmos con una base de datos de 250.000 imágenes anotadas manualmente procedente de la Universidad Gallaudet (GU). Esta universidad fue la primera institución de educación superior para sordos y personas con problemas de audición en el mundo. Este tipo de herramientas pueden hacer de la lengua de signos americana (ASL) una segunda lengua de interés para personas sordas de otros países, de la misma forma que lo es el inglés como lenguaje oral. La iniciativa europea: Content4All Volviendo a territorio europeo, el proyecto Content4All aborda el problema desde un enfoque diferente. En este caso, plantean la creación Realatar, un humano virtual en 3D de alta calidad. Se trata de una réplica digital que se crea a partir de grabaciones de intérpretes reales que se expresan en lenguaje de signos y que puede después mostrarse en todo tipo de dispositivos: televisión, portátiles o tabletas. Tan sólo se precisa de una cámara para grabar su rostro y un sensor tipo Microsoft Kinect que perciba sus movimientos. El problema ahora es encontrar los datos para entrenar el modelo. Porque, datos para reconocimiento de reconocimiento de lenguaje (speech recognition) sí que hay. Pero datos visuales de la parte gestual, apenas hay. Por tanto, uno de los tareas más importantes del proyecto es generar esos datos de entrenamiento. Para construir esta base de datos se recurre a una fuente muy curiosa: los programas de noticias (¡el telediario!) y espacios de pronóstico meterológico. ¿Por qué? Muy sencillo, porque en estos programas, el repertorio lingüístico es relativamente limitado y claro dando poco espacio a los errores de interpretación. Una vez generada la base de datos, se entrena la IA aplicando algoritmos de Procesamiento del Lenguaje Natural (PNL) y de Aprendizaje Profundo, de forma que se traduzca el lenguaje hablado, gestos y expresiones de lenguaje de signos que el Realatar puede ejecutar. Por último, gracias a las tecnologías de HbbTV, el Realatar se superpone sobre el navegador o la señal de televisión original, del mismo modo que se hace con los subtítulos. Conclusión Aunque el desafío es claro y aun queda mucho camino por delante, es evidente que las tecnologías basadas en la inteligencia artificial han supuesto un salto cualitativo en este campo, y pueden ser de gran ayuda para garantizar el derecho de acceso a la educación, la información y la cultura de las personas con discapacidad. Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Breve historia de Internet de las cosas (IoT)Living Apps: cómo diferenciar tu empresa a través de experiencias digitales
Olivia Brookhouse ¿Puede la Inteligencia Artificial entender las emociones? Cuando John McCarthy y Marvin Minsky iniciaron la Inteligencia Artificial en 1956, se sorprendieron de cómo una máquina podía resolver rompecabezas increíblemente difíciles en menos tiempo que los humanos. Sin...
Javier Martínez Borreguero Automatización, Conectividad e Inteligencia Aumentada al servicio de una reindustrialización competitiva, disruptiva y sostenible Por segundo año consecutivo vuelvo a participar en el Advanced Factories (AF 2023), la mayor exposición y congreso profesional dedicado a la Industria 4.0 del sur de Europa. Un...
Nacho Palou Medidas para reducir la brecha digital de género sin esperar 32 años El informe Sociedad Digital en España 2023, de Fundación Telefónica, dedica un apartado específico para analizar la brecha de género en el ámbito del talento digital. Destaca que, si bien...
Nacho Palou Raspberry Pi para Edge AI: Inteligencia Artificial en el borde para todos Raspberry Pi es un popular ordenador muy utilizado entre desarrolladores, estudiantes y aficionados a la informática, a la robótica y a ‘cacharrear’. Entre sus virtudes están su bajo coste...
Carlos Lorenzo Ya no eres solo una empresa de productos o servicios, eres una empresa de datos Todas las empresas que operan en la actualidad son en realidad empresas de datos. Y lo son porque día a día almacenan y utilizan una gran cantidad de información:...
Jorge Rubio Álvarez Inteligencia Artificial aplicada a la Ciberseguridad industrial (OT) La Ciberseguridad en los entornos industriales u OT (Operational Technology) es crucial para proteger infraestructuras críticas como la energía, el transporte y la comunicación. Una preocupación cada vez mayor...