Dependency parsing as sequence labeling for low-resource languages

Muñoz Ortiz, Alberto. (2021). Dependency parsing as sequence labeling for low-resource languages Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
MunozAlberto_TFM.pdf MunozAlberto_TFM.pdf application/pdf 801.02KB

Título Dependency parsing as sequence labeling for low-resource languages
Autor(es) Muñoz Ortiz, Alberto
Resumen El procesamiento de lenguaje natural (PLN) ha experimentado claros avances en los últimos años. Sin embargo, la mayoría de mejoras y estudios se han centrado en un selecto grupo de idiomas, siendo el ingles su principal representante, ignorando como funcionan estos métodos en idiomas menos privilegiados, que normalmente reciben el nombre de idiomas con pocos recursos. Este trabajo trata sobre idiomas con pocos recursos, y se centra en una tarea central de PLN conocida como análisis sintáctico de dependencias; ésta consiste en analizar automáticamente la estructura sintáctica de dependencias de una oración, conectando sus palabras mediante relaciones asimétricas binarias entre una palabra gobernante y una palabra subordinada sintácticamente. En concreto, nuestra contribución se encuentra en la intersección entre la velocidad de análisis e idiomas con pocos recursos. En este contexto, recientemente se ha propuesto realizar el análisis de dependencias como una tarea de etiquetado de secuencias. Este enfoque computa un árbol linealizado de n etiquetas dada una frase de longitud n, y otorga una buena relación entre velocidad y precisión. Además, ofrece una forma sencilla de incorporar información sintáctica como una word embedding o característica de entrada. En primer lugar, comparamos el rendimiento de cinco linealizaciones para análisis de dependencias como etiquetado de secuencias en escenarios con pocos recursos. Estas linealizaciones pertenecen a diferentes familias y proponen formular el problema como: (i) seleccionar el gobernante sintáctico para cada palabra, (ii) encontrar una representación de los arcos entre tokens utilizando paréntesis equilibrados y (iii) asociar a cada token subsecuencias de transiciones de un analizador basado en transiciones. Sin embargo, aún existe poco conocimiento sobre cómo se comportan estas linealizaciones en cofiguraciones con pocos recursos. En este trabajo, primero estudiamos su nivel de eficiencia, simulando configuraciones con datos restringidos partiendo de un conjunto diverso de treebanks con muchos recursos. Los resultados muestran que las codificaciones de selección del gobernante sintáctico son más eficientes y obtienen mejores resultados en condiciones ideales (gold), pero que esta ventaja se desvanece en favor de las estrategias de paréntesis equilibrados cuando la configuración utilizada es más similar a una cofiguración realista, como la esperada en idiomas con realmente pocos recursos. En segundo lugar, proponemos un método basado en morfología combinado con aprendizaje translingüe para intentar mejorar el rendimiento del análisis de dependencias en idiomas con pocos recursos. Para ello, primero entrenamos un sistema de exón morfológica para idiomas objetivo con pocos recursos, y después lo aplicamos a treebanks con muchos recursos de idiomas similares para crear un treebank flexionado translingüe (o x-inected treebank) que se asemeje al idioma con pocos recursos objetivo. A continuación, utilizamos los treebanks flexionados para entrenar los analizadores sintácticos de etiquetado de secuencias en dos escenarios: (i) un escenario zero-shot (entrenando un modelo en el x-inected treebank y ejecutándolo sobre el idioma objetivo), y (ii) un escenario few-shot (entrenando un modelo utilizando un grupo compuesto por x-inected treebank junto con el treebank con pocos recursos y ejecutándolos sobre el idioma objetivo). Nuestro objetivo es comprobar la utilidad del método propuesto en situaciones con distinta disponibilidad de datos anotados. Los resultados muestran que el método propuesto puede ser de ayuda en algunas situaciones, pero se necesita estudiar más en profundidad para entender como los distintos factores pueden afectar a los resultados y comprobar si estas tendencias se mantienen usando otros paradigmas, como analizadores basados en transiciones y basados en grafos.
Abstract Natural Language Processing (NLP) has achieved clear improvements in recent years. However, most improvements and studies have been centered in a selected group of languages, being English its main representative, ignoring how these methods perform on less privileged languages, usually labeled as low-resource languages. This work is on low-resource languages, and focuses on a core NLP task known as dependency parsing; that consists in analyzing automatically the dependency structure of a sentence, connecting the words of the sentence in pairs by asymmetric relations between a parent word and a syntactically subordinate word. More particularly, our contribution lies in the intersection between fast parsing and low-resource languages. In this context, recent work has proposed to cast dependency parsing as sequence labeling. This approach computes a linearized tree of n labels given a sentence of length n, and provides a good speed/accuracy trade-o_. Also, it o_ers a na_ve way to infuse syntactic information as an embedding or feature. First, we compare the performance of _ve linearizations for dependency parsing as sequence labeling in low-resource scenarios. These linearizations belong to di_erent families and address the task as: (i) a head selection problem, (ii) _nding a representation of the token arcs as bracket strings, or (iii) associating transition subsequences of a transition-based parser to words. Yet, there is little understanding about how these linearizations behave in low-resource setups. Here, we _rst study their data e_ciency, simulating data-restricted setups from a diverse set of rich-resource treebanks. After that, we test whether such di_erences manifest in truly low-resource setups. The results show that head selection encodings are more data-e_cient and perform better in an ideal (gold) framework, but that such advantage greatly vanishes in favour of bracketing formats when the running setup resembles a real-world low-resource con_guration. Second, we propose a morphology-based method combined with crosslingual learning to try to improve parsing performance for low-resource languages. To do so, we _rst train a morphological inection system for lowresource target languages, and then apply it to rich-resource treebanks from similar languages, to create a cross-lingual inected treebank (or x-inected treebank) that resembles the target low-resource language. Then, we use these inected treebanks to train sequence labeling parsers in two scenarios: (i) a zero-shot scenario (training on the x-inected treebank and testing on the target language), and (ii) a few-shot scenario (training on a group of xin ected treebanks together with the low-resource treebank and testing on the target language). Our goal is to test the usefulness of this method in situations with di_erent availability of annotated data. The results show that the proposed method can be helpful in some situations, but further work is required to understand how di_erent factors a_ect the results and check if these trends hold when using other parsing paradigms, such as transitionbased and graph-based parsers.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Araujo Serna, Lourdes
Vilares Calvo, David
Fecha 2021-10-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Amunoz
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Amunoz
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 169 Visitas, 96 Descargas  -  Estadísticas en detalle
Creado: Thu, 12 Jan 2023, 18:42:56 CET