Entitate-izenak euskaraz: identifikazioa, sailkapena, itzulpena eta desanbiguazioa

Autor: Izaskun Fernandez Gonzalez Director tesis Iñaki Alegría Loinaz y Nerea Ezeiza, Facultad de Informática, UPV/EHU

2012

El objetivo principal de esta tesis es automatizar el tratamiento de las entidades nombradas en textos en euskera. Para lograr dicho objetivo, se han establecido tres criterios metodológicos:

Siendo el euskera un idioma de escasos recursos, se ha priorizado la reutilización de recursos y el uso de métodos no supervisados y semisupervisados.

Trabajar tanto con técnicas basadas en el conocimiento de un idioma como con técnicas de aprendizaje automático, combinando ambas cuando esto sea posible. Se trata así de evitar el uso de técnicas muy sofisticadas, apostando por la combinación de métodos simples y pequeñas modificaciones en estos cuando sea necesario.

Analizar el impacto de las características morfosintácticas propias del euskera al tratar de automatizar el tratamiento de las entidades nombradas.

Siguiendo estos tres criterios y dentro del objetivo principal de esta tesis, se han abordado las siguientes tres tareas principales:

Identificación y clasificación de entidades nombradas en euskera: El objetivo principal de esta tarea es el desarrollo de una herramienta que sea capaz de identificar y clasificar automáticamente las entidades nombradas en textos escritos en euskera, de precisión semejante a las desarrolladas para el inglés.

Traducción de entidades nombradas en euskera: La generación automática de referencias multilingües de entidades nombradas, que pueden resultar muy útiles tanto en aplicaciones de traducción automática como en sistemas de pregunta-respuesta multilingüe, es el propósito principal de esta tarea.

Desambiguación de entidades nombradas en euskera: El problema que resuelve esta tarea es la desambiguación automática de las apariciones ambiguas de las entidades nombradas en los textos escritos en euskera. Como en cualquier tarea de desambiguación, para poder resolver automáticamente la ambigüedad, además del contexto de la aparición ambigua, es necesaria una base de conocimiento en la que se describan las posibles acepciones de las expresiones ambiguas. Para cubrir esta necesidad se pretende analizar dentro de esta tarea la validez de la Wikipedia en euskera para la generación de dicho repositorio.

Por tanto, en esta tesis además del objetivo principal de desarrollar herramientas para la identificación, clasificación, traducción y desambiguación automática de entidades nombradas en euskera, también se estudia y compara el comportamiento de diferentes estrategias en entornos de recursos limitados.