Big Data Clustering

Tizón Galisteo, Daniel

Big Data Clustering

Tizón Galisteo, Daniel. (2017). Big Data Clustering Master Thesis, Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial

Ficheros (Some files may be inaccessible until you login with your e-spacio credentials)
Nombre			Descripción	Tipo MIME		Size
Tizon_Galisteo_Daniel_TFM.pdf			Tizon_Galisteo_Daniel_TFM.pdf		application/pdf	2.52MB

Título	Big Data Clustering
Autor(es)	Tizón Galisteo, Daniel
Resumen	En este trabajo he realizado una investigación sobre algoritmos de clusterización que tienen órdenes de complejidad lineales o logarítmicos respecto al tiempo de ejecución, y que pueden ser paralelizables, y por tanto nos permitan trabajar con grandes cantidades de datos. Además, hay que tener en cuenta que puesto que utilizaré un cluster de Spark, los algoritmos que podremos utilizar estarán limitados por aquellos que se encuentran implementados en la librería MLlib de Apache Spark. También he llevado a cabo un estudio de distintos índices de validación interna y externa que podemos emplear para evaluar la calidad de los grupos o clusters creados por dichos algoritmos. Como caso de uso, he utilizado los datos astrométricos procedentes de millones de estrellas de nuestra galaxia proporcionados por la misión Gaia de la Agencia Espacial Europea para realizar una clusterización de dichas estrellas, con el objetivo de tratar de encontrar cúmulos estelares nuevos o recabar más información sobre los ya existentes. Para llevar a cabo el caso de estudio, dada la gran cantidad de datos a tratar, he utilizado la infraestructura facilitada por la DPAC (Data Processing and Analysis Consortium), consistente en un cluster de Apache Spark formado por 6 nodos con 16 cores y 64Gb de RAM cada uno.
Abstract	In this work I have done an investigation about clustering algorithms with linear or logarithmic orders of complexity in execution time, and can work in a distributed way, so we can work with a lot of data. Furthermore, due to that I will use a cluster of Apache Spark, the choice of the algorithms will be limited by the clustering algorithms implemented in the machine learning library of Spark (MLlib). I have also carried out a study of some internal and external validation indexes used to evaluate the quality of the groups or clusters created by these algorithms. As a use case, I have used the astrometric data from millions of stars in our galaxy provided by the Gaia mission of the European Space Agency (ESA) to perform a clustering of these stars, the objective will be to find new star clusters or gather new information about existing ones. In order to carry out the case study, given the large amount of data to be processed, I had to make use of the infrastructure provided by the Data Processing and Analysis Consortium (DPAC), which consisted of 6 nodes with 16 cores and 64Gb of RAM each, which featured the distributed computing framework Apache Spark.
Notas adicionales	Trabajo de Fin de Máster. Máster Universitario en I.A. Avanzada: Fundamentos, Métodos y Aplicaciones. UNED
Materia(s)	Ingeniería Informática
Editor(es)	Universidad Nacional de Educación a Distancia (España). Escuela Técnica Superior de Ingeniería Informática. Departamento de Inteligencia Artificial
Director/Tutor	Sarro Baro, Luis Manuel
Fecha	2017-07-07
Formato	application/pdf
Identificador	bibliuned:master-ETSInformatica-IAA-Dtizon http://e-spacio.uned.es/fez/view/bibliuned:master-ETSInformatica-IAA-Dtizon
Idioma	spa
Versión de la publicación	acceptedVersion
Nivel de acceso y licencia	http://creativecommons.org/licenses/by-nc-nd/4.0 info:eu-repo/semantics/openAccess
Tipo de recurso	master Thesis
Tipo de acceso	Acceso abierto

Tipo de documento:	master Tesis
Collections:	Máster Universitario en I.A. Avanzada: Fundamentos, Métodos y Aplicaciones (UNED) Set de openaire Set de items trabajo fin de máster

Contador de citas:	Search Google Scholar
Estadísticas de acceso:	674 Visitas, 1373 Descargas - Estadísticas en detalle
Creado:	Wed, 11 Dec 2019, 22:54:21 CET

e-spacio

Big Data Clustering