Las lenguas muertas ‘reviven’ con el machine learning

Un sistema desarrollado en el MIT pretende ayudar a los lingüistas a descifrar lenguas que se han perdido en la historia.

Investigaciones recientes sugieren que la mayoría de las lenguas que han existido ya no se hablan. Docenas de estas lenguas muertas también se consideran perdidas o «no descifradas», es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis como para poder entender sus textos.

Las lenguas perdidas son algo más que una mera curiosidad académica; sin ellas, perdemos todo un conjunto de conocimientos sobre los pueblos que las hablaban. Por desgracia, la mayoría de ellas tienen registros tan mínimos que los científicos no pueden descifrarlas utilizando algoritmos de traducción automática como Google Translate. Algunos no tienen una lengua «relativa» bien investigada con la que compararse, y a menudo carecen de separadores tradicionales como espacios en blanco y signos de puntuación. (Para ilustrarlo, imagínate descifrando un idioma extranjero escrito así).

Descifrar lenguas perdidas

Sin embargo, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han realizado recientemente un importante avance en este campo: un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente una lengua perdida, sin necesidad de tener conocimientos avanzados sobre su relación con otras lenguas. También han demostrado que su sistema puede determinar por sí mismo las relaciones entre las lenguas, y lo han utilizado para corroborar estudios recientes que sugieren que la lengua ibérica no está realmente relacionada con el euskera.

El objetivo final del equipo es que el sistema sea capaz de descifrar lenguas perdidas que han eludido los lingüistas durante décadas, utilizando sólo unos pocos miles de palabras.

Dirigido por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios fundamentados en conocimientos de lingüística histórica, como el hecho de que las lenguas suelen evolucionar sólo de ciertas maneras predecibles. Por ejemplo, aunque una lengua determinada rara vez añade o elimina un sonido completo, es probable que se produzcan ciertas sustituciones de sonido. Una palabra con «p» en la lengua madre puede convertirse en «b» en la lengua descendiente, pero el cambio a «k» es menos probable debido a la importante diferencia de pronunciación.

Al incorporar estas y otras limitaciones lingüísticas, Barzilay y la estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de descifrado que puede manejar el vasto espacio de transformaciones posibles y la escasez de una señal de guía en la entrada. El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional en el que las diferencias de pronunciación se reflejan en la distancia entre los vectores correspondientes. Este diseño permite captar los patrones pertinentes de cambio de la lengua y expresarlos como restricciones computacionales. El modelo resultante puede segmentar palabras en una lengua antigua y asignarlas a sus homólogas en una lengua afín.

El proyecto se basa en un artículo que Barzilay y Luo escribieron el año pasado en el que descifraban las lenguas muertas del ugarítico y el lineal B, que el ser humano había tardado décadas en descifrar. Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estas lenguas estaban relacionadas con las primeras formas del hebreo y el griego, respectivamente.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.