Large Language Models (LLMs) para calidad y estandarización de datos

Herrando Moraira, Albert. (2024). Large Language Models (LLMs) para calidad y estandarización de datos Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática.

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Herrando_Moraira_Albert_TFM.pdf Herrando Moraira_Albert_TFM.pdf application/pdf 3.81MB

Título Large Language Models (LLMs) para calidad y estandarización de datos
Autor(es) Herrando Moraira, Albert
Resumen Actualmente, uno de los principales problemas de las empresas, organizaciones o gobiernos que gestionan datos es la calidad de los mismos. Éstos suelen contener una gran cantidad de errores con multitud de variaciones. En consecuencia, resulta difícil corregirlos para realizar análisis o pre- dicciones. Por otro lado, en los últimos años se han desarrollado grandes modelos del lenguaje con potencial para resolver este tipo de tareas de calidad de los datos. Este proyecto explora la viabilidad de la utilización de grandes modelos del lenguaje para la corrección y la estandarización de datos. Primero, se ha investigado el estado del arte de los modelos y de la calidad de los datos. Seguidamen- te, se ha diseñado una metodología para realizar experimentos con grandes modelos del lenguaje y tareas de calidad. En particular, se han llevado a cabo tres experimentos. El primero sobre corrección de valores, el segundo sobre estandarización de atributos, y el tercero sobre imputación de valores ausentes. Después de evaluar los experimentos, se ha observado que la aplicación de LLMs en tareas de calidad del dato puede obtener buenos resultados en determinados escenarios muy concretos. Por ejemplo, cuando la cantidad de datos a corregir es pequeña y la tarea es sencilla. Sin embargo, para grandes cantidades de datos o tareas complejas, han surgido dificultades relacionadas con los tiempos de ejecución, los costes económicos y la fiablidad de las respuestas.
Notas adicionales Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s) Ingeniería Informática
Palabra clave LLMs
Calidad del dato
Ingeniería de prompts
Corrección y estandarización de datos
Editor(es) Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática.
Director/Tutor Martinez Unanue, Raquel
Araujo Serna, Lourdes
Fecha 2024
Formato application/pdf
Identificador bibliuned:master-ETSInformatica-ICD-Aherrando
http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Aherrando
Idioma spa
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 121 Visitas, 81 Descargas  -  Estadísticas en detalle
Creado: Fri, 15 Mar 2024, 22:09:26 CET