Using pre-trained language models to automatically identify research phases in biomedical publications

Duran Silva, Nicolau. (2022). Using pre-trained language models to automatically identify research phases in biomedical publications Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
DuranSilva_Nicolau_TFM.pdf DuranSilva_Nicolau_TFM.pdf application/pdf 1.34MB

Título Using pre-trained language models to automatically identify research phases in biomedical publications
Autor(es) Duran Silva, Nicolau
Resumen La ciencia, la investigación y la innovación buscan resolver retos complejos, como por ejemplo abordar un tipo de cáncer o, como recientemente, desarrollar la vacuna del COVID-19. La resolución de estos problemas complejos, especialmente en la investigación biomédica, puede ser costosa, inficiente e insostenible. Suele implicar la colaboración de un amplio conjunto de sectores y actores, puesto que generalmente una sola institución no dispone de los recursos necesarios para desarrollar una innovación de principio a fin, algunos actores se apoyan en otros para combinar sus descubrimientos y lograr una mayor contribución al individuo. De hecho, el número de publicaciones científicas disponibles crece año tras año, especialmente en el ámbito biomédico. Las agencias de financiación, los gobiernos y las universidades están cada vez más interesados en comprender que actividades de investigaci ón se _financian o se llevan a cabo en el ecosistema de investigación, cómo contribuye la ciencia a estas misiones y desafíos, y si existen lagunas de financiación e investigación en diferentes áreas o dominios. La comprensión de los temas abordados por las publicaciones cientificas ha atraído la atención de los investigadores en procesamiento del lenguaje natural (PLN), des de hace varias décadas. Sin embargo, los \dominios específicps", como la biomedicina, se enfrentan a retos y complejidades adicionales. Los modelos neuronales del lenguaje basados en el Transformer han supuesto un gran avance para diversas tareas de PLN, ya que estan preentrenados sobre grandes conjuntos de documentos sin etiquetar y son capaces de aprender una representación universal del lenguaje que se adapta a las tareas posteriores. La mayoría de estos modelos están preentrenados sobre textos de dominio general, aunque hay algunos preentrenados o adaptados a los dominios biomédico y clínico, que son especialmente prometedores para abordar el procesamiento y comprensión de textos en el dominio que nos ocupa. En el presente trabajo, y para dar respuesta a la creciente necesidad de conocer el estado de la investigación en el dominio biomédico, presentamos BATRACIO (BAsic-TRAnslational-Clinical research phases classification in bIOmedical publications), un conjunto de datos para clasificar publicaciones científicas del dominio biomédico en fases de investigación. Exploramos si los modelos lingüisticos preentrenados específicos del dominio superan a los modelos del lenguaje preentrenados en el dominio general, y cómo los adaptamos para enfrentarnos a un conjunto de datos desequilibrado en el dominio biomédico y con categorías adyacentes. Finalmente, en los resultados observamos que los modelos preentrenados del lenguaje basados en BERT, específicamente los modelos preentrenados en el dominio biomédico o científico, ofrecen una gran oportunidad para resolver esta tarea satisfactoriamente. Además, también hemos explorado cómo utilizarlos para la clasificación de textos y que estrategias pueden ser favorables para la clasificación de artículos de investigación biomédica, como la limpieza del texto y el ajuste de hiperparámetros. No obstante, los principales retos específicos de nuestro conjunto de datos son el desequilibrio de clases y que las categorías no son mutuamente independientes, sino que tienen relaciones semánticas de adyacencia entre ellas. Este no era un objetivo principal del proyecto, pero tambien hemos explorado si ligeras modificaciones en la función de pérdida pueden hacer frente a las categorías desequilibradas y adyacentes, aunque los resultados de estos experimentos son parcialmente satisfactorios, apuntan a futuras líneas de investigación.
Abstract Science, research, and innovation, aim to solve complex challenges, such as tackling a specic type of cancer or, as recently, the vaccine for COVID- 19. Solving these complex problems, especially in biomedical research, can be expensive, inecient and unsustainable. It involves collaboration from a broad set of actors, because a complete discovery often requires the involvement of many actors and a single institution does not usually have the resources to develop an innovation from beginning to end, and some actors rely on others to combine their discoveries to achieve a greater contribution to the individual. Indeed, the number of scientic publications available is growing year by year, especially in the biomedical domain. Funding agencies, governments, and universities, are more and more interested in understanding what research activities are funded or carried out in the research and innovation ecosystem, how science is contributing to these missions and challenges, or whether there are funding gaps in dierent areas or domains. Understanding topics addressed by scientic publications have attracted attention from researchers in NLP. However, \specic domains" such as biomedicine, face additional challenges and complexity. Transformer-based neural language models, like BERT, have led to breakthroughs for a variety of natural language processing (NLP) tasks, which are pre-trained on largescale unlabelled documents and can learn universal language representation which is adapted to downstream tasks. Most of these models are pre-trained on general domain data, although there are some which are pre-trained or adapted to the biomedical and clinical domains, which are especially promising for addressing domain texts. In this Master's Thesis, we present BATRACIO (BAsic-TRAnslational- Clinical research phases classication in bIOmedical publications), a dataset for classifying scientic publications in biomedical domain in research phases. We explore if domain specic pre-trained language models outperform general pre-trained language models, and how we adapt them to face an imbalanced dataset in biomedical domain with adjacent categories. Finally, we have seen in results that state-of-the-art BERT-based pretrained language models, specically pre-trained in the biomedical or scienti c domain, oer a great opportunity to solve this task. Furthermore, we have also explored how to use them for text classication and which strategies may be favourable for the classication of biomedical research articles, such as text cleaning and hyperparameter setting. Nevertheless, the main specic challenges of our dataset are the class imbalance and that categories are not mutually independent, they have semantic relations of adjacency between them. This was not a main goal of the project, but we have also explored whether slight modications in the loss function can deal with imbalanced and adjacent categories, although the results of these experiments are partially satisfactory, they point to future lines of research.
Notas adicionales Trabajo Final de Máster Universitario en Tecnologías del lenguaje. UNED
Materia(s) Ingeniería Informática
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Lenguajes y Sistemas Informáticos
Director/Tutor Plaza Morales, Laura
Carrillo de Albornoz Cuadrado, Jorge
Fecha 2022-07-08
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-TL-Nduran
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-TL-Nduran
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 215 Visitas, 192 Descargas  -  Estadísticas en detalle
Creado: Fri, 13 Jan 2023, 18:59:38 CET