Las lenguas muertas ‘reviven’ con el machine learning

Un sistema desarrollado en el MIT pretende ayudar a los lingüistas a descifrar lenguas que se han perdido en la historia.

Investigaciones recientes sugieren que la mayoría de las lenguas que han existido ya no se hablan. Docenas de estas lenguas muertas también se consideran perdidas o «no descifradas», es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis como para poder entender sus textos.

Las lenguas perdidas son algo más que una mera curiosidad académica; sin ellas, perdemos todo un conjunto de conocimientos sobre los pueblos que las hablaban. Por desgracia, la mayoría de ellas tienen registros tan mínimos que los científicos no pueden descifrarlas utilizando algoritmos de traducción automática como Google Translate. Algunos no tienen una lengua «relativa» bien investigada con la que compararse, y a menudo carecen de separadores tradicionales como espacios en blanco y signos de puntuación. (Para ilustrarlo, imagínate descifrando un idioma extranjero escrito así).

Descifrar lenguas perdidas

Sin embargo, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han realizado recientemente un importante avance en este campo: un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente una lengua perdida, sin necesidad de tener conocimientos avanzados sobre su relación con otras lenguas. También han demostrado que su sistema puede determinar por sí mismo las relaciones entre las lenguas, y lo han utilizado para corroborar estudios recientes que sugieren que la lengua ibérica no está realmente relacionada con el euskera.

El objetivo final del equipo es que el sistema sea capaz de descifrar lenguas perdidas que han eludido los lingüistas durante décadas, utilizando sólo unos pocos miles de palabras.

Dirigido por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios fundamentados en conocimientos de lingüística histórica, como el hecho de que las lenguas suelen evolucionar sólo de ciertas maneras predecibles. Por ejemplo, aunque una lengua determinada rara vez añade o elimina un sonido completo, es probable que se produzcan ciertas sustituciones de sonido. Una palabra con «p» en la lengua madre puede convertirse en «b» en la lengua descendiente, pero el cambio a «k» es menos probable debido a la importante diferencia de pronunciación.

Al incorporar estas y otras limitaciones lingüísticas, Barzilay y la estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de descifrado que puede manejar el vasto espacio de transformaciones posibles y la escasez de una señal de guía en la entrada. El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional en el que las diferencias de pronunciación se reflejan en la distancia entre los vectores correspondientes. Este diseño permite captar los patrones pertinentes de cambio de la lengua y expresarlos como restricciones computacionales. El modelo resultante puede segmentar palabras en una lengua antigua y asignarlas a sus homólogas en una lengua afín.

El proyecto se basa en un artículo que Barzilay y Luo escribieron el año pasado en el que descifraban las lenguas muertas del ugarítico y el lineal B, que el ser humano había tardado décadas en descifrar. Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estas lenguas estaban relacionadas con las primeras formas del hebreo y el griego, respectivamente.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio