El Instituto de Ingeniería del Conocimiento (IIC) trabaja en un proyecto de investigación para crear modelos de lenguaje español basados en la IA.
Muchos se han preguntado por los avances de la Inteligencia Artificial (IA) en el sector legal. Y lo cierto es que por fin se puede decir que este ámbito cuenta con un sistema basado en la IA y que sirve para clasificar documentos legales, principalmente.
Proyecto de investigación
La iniciativa ha partido del Instituto de Ingeniería del Conocimiento (IIC). El organismo trabaja en un proyecto de investigación para explotar y crear modelos de lenguaje en español. Se trata de RigoBERTa. De hecho, uno de los primeros logros que ya ha conseguido tiene que ver con el desarrollo del primer modelo de lenguaje en español adaptado al sector legal.
En concreto, este modelo se está utilizando para clasificar documentos y detectar entidades nombradas en el texto (personas y organizaciones). Una vez reajustado el modelo del español general, los primeros resultados muestran cómo se gana en acierto cuando se usa la versión especializada en el sector legal.
Tras el lanzamiento del modelo del IIC, se liberó de manera abierta el modelo RoBERTalex, desarrollado bajo el paraguas del Plan de Impulso de las Tecnologías del Lenguaje y también enfocado al dominio legal. Probados ambos, el primero sigue alcanzando cotas de rendimiento más elevadas.
Metodología chilena
Se ha desarrollado una metodología para reajustar los modelos de lenguaje existentes y adaptarlos a los diferentes dominios con nuevos textos del sector en cuestión. Por ejemplo, para la creación de ese primer modelo de lenguaje en español para el sector legal, han partido de BETO, el modelo general del español desarrollado por la Universidad de Chile.
Por otro lado, dentro del proyecto de investigación RigoBERTa, se va a seguir trabajando en el desarrollo de modelos de lenguaje del español general, así como en modelos adaptados a diferentes dominios.