Búsqueda de Respuestas sobre la COVID-19

Torres Peón, Francisco Xavier. (2021). Búsqueda de Respuestas sobre la COVID-19 Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
TorresXavier_TFM.pdf TorresXavier_TFM.pdf application/pdf 6.48MB

Título Búsqueda de Respuestas sobre la COVID-19
Autor(es) Torres Peón, Francisco Xavier
Resumen En este trabajo se pretende abordar uno de los desafíos del TAC-2020 consistente en la respuesta a preguntas epidemiológicas (EPIC-QA). El objetivo del desafío EPIC-QA es evaluar la capacidad de los sistemas para proporcionar respuestas oportunas a preguntas sobre la enfermedad COVID-19. Este desafío esta dividido en dos tareas:  La Tarea A consiste en dar respuesta a las preguntas a nivel de experto. Estas preguntas están dirigidas a las comunidades científicas y medicas.  La Tarea B consiste en dar respuesta a las preguntas a nivel de consumidor. Esta preguntas están dirigidas al publico en general. En este trabajo solo se va a abordar la Tarea A. Para realizar este desafío se parte de una colección de artículos biomédicos publicados por el COVID-19 Open Research Dataset Challenge (CORD-19). Este conjunto abierto de datos de investigación fue creado por el Instituto Allen de IA en asociación con grupos de investigación líderes. La evaluación preliminar utiliza una instantánea de CORD-19 del 18 de noviembre de 2020, y consta de 129.069 artículos que se presentan como un único objeto JSON. Resolver este desafío no es tarea fácil, ya que se pretende extraer información precisa sobre determinadas cuestiones y temas científicos de un conjunto grande de recursos sin etiquetar. El desafío EPIC-QA requiere que los participantes recuperen sentencias en lugar de documentos o pasajes. La recuperación de sentencias a gran escala es un proceso difícil para los sistemas neuronales previamente entrenados debido a la falta de contexto circundante. Asimismo, es un proceso computacionalmente costoso. Se plantea un sistema de tres etapas en cascada. En la primera etapa se usa un sistema no neuronal para recuperar los k pasajes mas relevantes para una consulta determinada. Los pasajes mas relevantes se consiguen debido a que el sistema no neuronal puntúa cada resultado obtenido (scoreRI) y en función de esa puntuación obtenemos la relevancia. En una segunda etapa se extraen las sentencias de los pasajes recuperados en la etapa anterior y se usa un sistema neuronal previamente entrenado que clasifica esas sentencias también asignándole una puntuación (scoreQA). La tercera etapa es donde se reclasifican esas sentencias teniendo en cuenta la puntuación obtenida por el sistema no neuronal y la puntuación obtenida por el sistema neuronal.
Abstract This work aims to address one of the challenges of the TAC-2020 consisting of the answer to epidemiological questions (EPIC-QA). The goal of the EPIC-QA challenge is to assess the ability of systems to provide timely answers to questions about COVID-19 disease. This challenge is divided into two tasks: • Task A consists of answering the questions at the expert level. These questions are directed at the scientific and medical communities. • Task B consists of answering the questions at the consumer level. These questions are directed at the general public. In this work, only Task A will be addressed. To carry out this challenge, we start from a collection of biomedical articles published by the COVID-19 Open Research Dataset Challenge (CORD-19). This open set of research data was created by the Allen Institute for AI in partnership with leading research groups. The preliminary assessment uses a CORD-19 snapshot from November 18, 2020, and consists of 129,069 articles that are rendered as a single JSON object. Solving this challenge is not an easy task, as it is intended to extract precise information on certain scientific questions and topics from a large set of unlabeled resources. The EPIC-QA challenge requires participants to retrieve sentences rather than documents or passages. Large-scale sentence retrieval is a difficult process for previously trained neural systems due to the lack of surrounding context. It is also a computationally expensive process. A three-stage cascade system is proposed. In the first stage, a non-neural system is used to retrieve the k most relevant passages for a given query. The most relevant passages are obtained because the non-neural system scores each result obtained (scoreRI) and depending on that score we obtain the relevance. In a second stage, the sentences of the passages recovered in the previous stage are extracted and a previously trained neural system is used that classifies these sentences, also assigning them a score (scoreQA). The third stage is where these sentences are reclassified taking into account the score obtained by the non-neural system and the score obtained by the neural system.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Peñas Padilla, Anselmo
Fecha 2021-07-01
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Fxtorres
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Fxtorres
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 137 Visitas, 111 Descargas  -  Estadísticas en detalle
Creado: Thu, 12 Jan 2023, 00:09:25 CET