Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados

dc.contributor.advisorValêncio, Carlos Roberto [UNESP]
dc.contributor.authorDaniel, Guilherme Priólli [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2016-09-09T17:54:56Z
dc.date.available2016-09-09T17:54:56Z
dc.date.issued2016-08-12
dc.description.abstractA quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais.pt
dc.description.abstractThe amount of data managed by large-scale Web services has increased significantly and it arise to the status of Big Data. These data sets can be defined as a large volume of complex data from multiple data sources exceeding the storage and processing capacity of current computers. In such data sets, about 80% of the data is associated with some spatial position. Spatial data is even more complex and require more processing time than what would be required for alphanumeric data. In that sense, MapReduce techniques and their implementation have returned results timely with parallelization of data mining algorithms and could apply for Big Data sets. Therefore, this work develops two density-based spatial clustering algorithms: VDBSCAN-MR and OVDBSCAN-MR. Both algorithms use distributed and scalable processing techniques based on the MapReduce programming model in order to optimize performance and enable Big Data analysis. Throughout experimentation, we observed that the developed algorithms have better quality clusters compared to the base algorithms. Furthermore, VDBSCAN-MR achieved a better performance than the original sequential algorithm and it supported the application on large spatial data sets.en
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.identifier.aleph000872399
dc.identifier.capes33004153073P2
dc.identifier.urihttp://hdl.handle.net/11449/143832
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectVDBSCAN-MRpt
dc.subjectOVDBSCAN-MRpt
dc.subjectBig Datapt
dc.subjectProspecção de dados espaciaispt
dc.subjectSpatial Data Miningen
dc.subjectAgrupamento Espacialen
dc.subjectSpatial Clusteringen
dc.subjectMapReduceen
dc.titleOtimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dadospt
dc.title.alternativeOptimization of Density-Based Spatial Clustering Algorithms Applied to Large Data Setsen
dc.typeDissertação de mestrado
unesp.campusUniversidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Pretopt
unesp.embargoOnlinept
unesp.graduateProgramCiência da Computação - IBILCEpt
unesp.knowledgeAreaSistemas de computaçãopt
unesp.researchAreaEngenharia de Software e Banco de Dadospt

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
daniel_gp_me_sjrp.pdf
Tamanho:
2.34 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
3.01 KB
Formato:
Item-specific license agreed upon to submission
Descrição: