Deep LearningModel for DNA Reads through Nanopores

Díaz Carral, Ángel. (2019). Deep LearningModel for DNA Reads through Nanopores Master Thesis, Universidad Nacional de Educación a Distancia (España). Facultad de Ciencias. Departamento de Física Fundamental

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre Descripción Tipo MIME Size
Diaz_Carral__Angel_TFM.pdf Diaz Carral_ Angel_TFM.pdf application/pdf 6.06MB

Título Deep LearningModel for DNA Reads through Nanopores
Autor(es) Díaz Carral, Ángel
Resumen Las moléculas de ADN pueden moverse electroforéticamente a través de orificios en materiales a escala nanométrica, dando lugar a corrientes electrónicas medibles producidas por el bloqueo del orificio al pasar la molécula. Estas señales pueden ser utilizadas para detectar translocaciones del ADN. Se espera que los protocolos de lectura adicionales basados en señales de corriente electrónica sobre las señales sin procesar identifiquen la secuencia de ADN, que es el ordenamiento de las bases nitrogenadas a lo largo de las moléculas. Sin embargo, las mediciones de relevancia a menudo incluyen muchos errores. Para reducir estos errores, aumentar la fidelidad de lectura e interpretar las observaciones experimentales se propone un enfoque metodológico basado en el aprendizaje no supervisado y supervisado de cara a interpretar eficientemente los eventos de ADN. En este trabajo se utilizan señales de corriente iónica experimentales, obtenidas de la translocación de nucleótidos de ADN a traves de nanoporos 2D de disulfuro de molibdeno, para entrenar un modelo de Machine Learning no supervisado con el objetivo de identificar distintos eventos moleculares. Este procedimiento no relacionado con el tiempo de permanencia tradicional para cada evento de ADN, sino con la altura de bloqueo de la corriente iónica. Dentro de este enfoque, la información de la corriente de bloqueo de los niveles que componen la señal completa de cada evento, entendido por evento la señal obtenida de cada translocación a traves del nanoporo 2D, está implícitamente incluida en el análisis del espacio de características y no necesita ser tratada explícitamente. Es posible mostrar la mayor eficiencia que tiene la altura de bloqueo como descriptor con respecto al tiempo de permanencia tradicional, incluso también en lo que respecta a hacer frente a los conjuntos de datos de nanoporos pequeño tamaño. Este enfoque permite una visión profunda de los característicos descriptores moleculares en nanoporos 2D y proporciona un mecanismo de retroalimentación para ajustar estos materiales e interpretar las señales medidas. Posteriormente, el objetivo del aprendizaje supervisado es utilizar datos experimentales para entrenar un modelo de Redes Neuronales con el fin de mejorar la identificación de diferentes nucleótidos que pasan a través del nanoporo. Se pueden obtener diferentes conjuntos de entrenamiento a partir de distintos nanoporos de estado sólido y condiciones experimentales. Usando diferentes arquitecturas para Redes Neuronales como DNN o CNN, es posible aprovechar estos conjuntos de entrenamiento distintos y calcular un algoritmo NN que sea capaz de optimizar y acelerar la lectura mediante nanoporos.
Abstract DNA molecules can electrophoretically be driven through a nanoscale opening in a material giving rise to measurable electronic current blockades. These signals can be used to detect the translocating molecules. Additional read-out protocols based on electronic current signals across the raw signals from the nanopore region are expected to also identify the DNA sequence, that is the order of the nucleobase identity along the molecules. Nevertheless, the relevant measurements often include many errors. In order to reduce these errors, increase the read-out fidelity, and interpret the experimental observations, a methodological approach based on unsupervised and supervised learning to interpret the DNA events is proposed. In this work, experimental ionic traces from molybdenum disulfide nanopores threading DNA nucleotides are used to train an unsupervised Machine Learning model for identifying distinct molecular events through the 2D nanopore based on the ionic current blockade height and unrelated to the traditional dwell time for each DNA event. Within this approach, the blockade level information is implicitly included in the feature space analysis and does not need to be treated explicitly. It is possible to show the higher efficiency of the blockade height over the traditional dwell time also with regards to coping with sparse nanopore data sets. This approach allows for a deep insight into characteristic molecular features in 2D nanopores and provides a feedback mechanism to tune these materials and interpret the measured signals. Afterwards, the aim of the supervised learning is to use experimental data for training a Neural Network model in order to improve the identif1cation of different nucleotides threading the nanopore. Different training sets can be obtained from different solidsate nanopores and experimental conditions. Using different neural network architectures such as DNN or CNN it is possible to take advantage of these different training sets and compute a NN algorithm that is capable of optimizing and accelerating the nanopore read-out.
Notas adicionales Trabajo de Fin de Máster. Máster Universitario en Física de Sistemas Complejos. UNED
Materia(s) Física
Editor(es) Universidad Nacional de Educación a Distancia (España). Facultad de Ciencias. Departamento de Física Fundamental
Director/Tutor Radoslavova Koroutcheva, Elka
Fyta, Maria
Fecha 2019-10-02
Formato application/pdf
Identificador bibliuned:master-Ciencias-FSC-Adiaz
http://e-spacio.uned.es/fez/view/bibliuned:master-Ciencias-FSC-Adiaz
Idioma eng
Versión de la publicación acceptedVersion
Nivel de acceso y licencia http://creativecommons.org/licenses/by-nc-nd/4.0
info:eu-repo/semantics/openAccess
Tipo de recurso master Thesis
Tipo de acceso Acceso abierto

 
Versiones
Versión Tipo de filtro
Contador de citas: Google Scholar Search Google Scholar
Estadísticas de acceso: 603 Visitas, 427 Descargas  -  Estadísticas en detalle
Creado: Thu, 19 Dec 2019, 19:10:10 CET