Machine Learning y el futuro de la traducción automática de lenguas perdidas.

Sergio Sancho Azcoitia    4 octubre, 2019
Tablillas de arcilla

Durante los últimos años cada vez son más la aplicaciones del machine learning, en este blog ya os hemos hablado de cómo puede utilizarse para crear herramientas que vencen a los humanos jugando a juegos, como puede utilizarse en el mundo de la medicina o incluso para facilitar el trabajo de una prospección petrolífera. En el día de hoy os contaremos como puede aplicarse el machine learning en el ámbito de la arqueología y la lingüística en una tarea muy concreta, la traducción de lenguas perdidas.

En 1886 el arqueólogo británico Arthur Evans se enteró del descubrimiento en Creta de una piedra centenaria en la que había una serie de inscripciones en un lenguaje desconocido. Al descubrirla decidió viajar a la isla para buscar más restos arqueológicos, llegando a encontrar alrededor de 400 piedras con inscripciones en lo que parecía la misma lengua. Las piedras se dataron en el año 1400 antes de cristo lo que convierte las escrituras encontradas en ellas en las más antiguas descubiertas hasta el momento. Al ser analizadas por expertos se llegó a la conclusión de que los lenguajes empleado en ellas era Linear A datado entre 1800 y 1400 antes de cristo (una lengua de la era de bronce) y Linear B, una lengua perteneciente al periodo posterior cuando las islas fueron conquistadas por los griegos.

Durante varios años diversos expertos trataron de descifrar estas antiguas lenguas sin éxito usando técnicas tradicionales hasta que en el año 1953 un joven e inexperto lingüista llamado Michael Ventris logró descifrar el Linear B utilizando una serie de reglas creadas por el mismo. Con la ayuda de sus reglas llegó a la conclusión de que el Linear B provenía del griego antiguo y de que algunas palabras que se repetían mucho en las inscripciones aludían a lugares geográficos de la isla. Por otro lado el Linear A todavía no ha sido descifrado.

Con los recientes avances en los estudios lingüísticos, los nuevos métodos de traducción instantánea y las enormes bases de datos con las que contamos actualmente solo era cuestión de tiempo que alguien desarrollase una herramienta con la que descifrar estas antiguas lenguas. El equipo formado por Jiaming Luo y Regina Barzilay del MIT y Yuan Cao experto en IA de Google ha desarrollado recientemente un sistema de aprendizaje automático capaz de descifrar lenguajes perdidos y para demostrar la eficacia de su herramienta la han puesto a prueba ni más ni menos que con el lenguaje anteriormente mencionado, el Linear B.

La máquina desarrollada por el equipo ha sido capaz de traducir automáticamente este lenguaje con una precisión asombrosa. De hecho fue capaz de traducir correctamente el 67,3% de los cognatos de Linear B a sus equivalentes en griego antiguo en tan solo un intento. Para hacer esto posible el equipo utilizó un enfoque completamente diferente al de las técnicas estándar de traducción automática. La idea detrás de la traducción automática se basa en la relación que existe entre las palabras independientemente del idioma en el que estén escritas. Según Cao la máquina desarrollada por el equipo realiza búsquedas en el texto para ver con qué frecuencia aparece una palabra junto a otra, algo para lo que es necesario grandes bases de datos de texto. De este modo las palabras pueden considerarse como vectores en un espacio que obedecen una serie de reglas matemáticas simples permitiendo asignar un idioma entero a otro (independientemente de cual sea) con una correspondencia de uno a uno.

El proceso de traducción se basa en la búsqueda de trayectorias similares a través de estos espacios sin que sea necesario que la maquina conozca el significado de las frases. Cualquier idioma que evolucione con el tiempo lo suele hacer siguiendo ciertas reglas y por lo general distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, y así sucesivamente. Cuantas más sean las reglas que limitan la máquina, mucho más sencillo será para ella descifrar un lenguaje. La única condición indispensable para que funcione es conocer el lenguaje progenitor.

Por el momento no ha sido posible descifrar Linear A, a pesar de haber realizado numerosos intentos con esta interesante herramienta solo se ha logrado llegar a la conclusión de que no proviene del griego antiguo. Para descifrar el lenguaje es necesario saber de qué otro lenguaje proviene, pero gracias a la inteligencia artificial es posible probar con otras lenguas y simbologías primitivas sin perder apenas tiempo y ahorrando la mayor parte del esfuerzo. Este nuevo método de traducción instantánea podría enfocase como un ataque de fuerza bruta haciendo posible que durante los próximos meses o años sea posible descifrar lenguas olvidadas (incluyendo Linear A) con gran facilidad.

Si te interesa la traducción automatica basada en IA, no te pierdas este otro post de nuestro blog.

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *