Anonimización de Informes Médicos

Gaitán Rivas, José Antonio

Anonimización de Informes Médicos

Gaitán Rivas, José Antonio. (2021). Anonimización de Informes Médicos Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
GAITAN_RIVAS_TFM.pdf			GAITAN_RIVAS_TFM.pdf		application/pdf	1.24MB

Título	Anonimización de Informes Médicos
Autor(es)	Gaitán Rivas, José Antonio
Resumen	Con el objetivo de mejorar la salud y seguridad de los pacientes cada vez existe un mayor interés en gestionar eficientemente el contenido de los historiales clínicos electrónicos. Dichos informes médicos están escritos principalmente en lenguaje natural, por lo que contienen información no estructurada generalizadamente, haciéndose imprescindibles tecnologías de Minería de Textos y de PLN (Procesamiento de Lenguaje Natural) para su explotación. Con técnicas apropiadas de dichas tecnologías se ayuda en la toma de decisiones clínicas o se facilita la reutilización de medicamentos, entre muchas otras ventajas. Sin embargo, los registros clínicos con información de salud protegida (PHI o Protected Health Information) no pueden ser compartidos directamente debido a restricciones relacionadas con la protección de datos sobre dicha información privada de los pacientes. Es necesaria pues, una anonimización o disociación de dichos registros antes de poder ser usados externamente, debiéndose eliminar total o parcialmente toda información que permita identificar al paciente. La base del presente trabajo ha sido la tarea de evaluación MEDDOCAN (Medical Document Anonymization), a la que puede accederse en https://temu.bsc.es/meddocan , que forma parte de la iniciativa IberLEF 2019, y con la que se organizó un desafío para la comunidad hispano-hablante, con el objetivo de diseñar sistemas eficientes de anonimización de documentos médicos escritos en español. La tarea de MEDDOCAN se estructura en dos subtareas:  Identificación y clasificación de entidades (nombres de paciente, teléfonos, etc.)  Detección de texto sensible La evaluación oficial de la tarea, por tanto, engloba los resultados de ambas subtareas. El corpus está formado por 1.000 estudios de casos clínicos, y cada uno de ellos cuenta, de forma anexa, con expresiones PHI realizadas por profesionales. 4 Del total de 1.000 casos, se reservó el 50% (500 casos) para entrenamiento de la tarea, un 25% (250 casos) para labores de desarrollo, y el otro 25% (250 casos) para pruebas. En el desafío participaron 18 equipos, de un total de 8 nacionalidades distintas, y el mejor resultado, basado en la métrica F-score, fue de 0.9360 para la subtarea 1 (“Identificación y clasificación de entidades”) y de 0.9611 para la subtarea 2 (“Detección de texto sensible”). A lo largo del presente trabajo estudiaremos y compararemos los datos proporcionados por los organizadores de la tarea, y propondremos un sistema que implementa una solución simple mediante técnicas de Aprendizaje Automático y Minería de Textos. Finalmente analizaremos los resultados obtenidos con dicho sistema y serán comparados con los de los participantes en la tarea, exponiendo las ventajas e inconvenientes para la arquitectura escogida, respecto a las presentadas. En dichas conclusiones incorporaremos un listado de posibles mejoras o implementaciones futuras recomendadas para mejorar el rendimiento.
Notas adicionales	Trabajo de Fin de Máster Universitario en Ingeniería y Ciencia de Datos. UNED
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor	Martínez, Raquel Araujo Serna, Lourdes
Fecha	2021-09-15
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-ICD-Jagaitan http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-ICD-Jagaitan
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en Ingeniería y Ciencia de Datos (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	404 Visitas, 304 Descargas - Estadísticas en detalle
Creado:	Thu, 28 Oct 2021, 21:15:03 CET

e-spacio

Anonimización de Informes Médicos