Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading

Andrade, Tiago Luís de [UNESP]

Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading

dc.contributor.advisor	Valêncio, Carlos Roberto [UNESP]
dc.contributor.advisor	Babini, Maurizio [UNESP]
dc.contributor.author	Andrade, Tiago Luís de [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2014-06-11T19:29:40Z
dc.date.available	2014-06-11T19:29:40Z
dc.date.issued	2011-08-05
dc.description.abstract	Com o objetivo de garantir maior confiabilidade e consistência dos dados armazenados em banco de dados, a etapa de limpeza de dados está situada no início do processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Database - KDD). Essa etapa tem relevância significativa, pois elimina problemas que refletem fortemente na confiabilidade do conhecimento extraído, como valores ausentes, valores nulos, tuplas duplicadas e valores fora do domínio. Trata-se de uma etapa importante que visa a correção e o ajuste dos dados para as etapas posteriores. Dentro dessa perspectiva, são apresentadas técnicas que buscam solucionar os diversos problemas mencionados. Diante disso, este trabalho tem como metodologia a caracterização da detecção de tuplas duplicadas em banco de dados, apresentação dos principais algoritmos baseados em métricas de distância, algumas ferramentas destinadas para tal atividade e o desenvolvimento de um algoritmo para identificação de registros duplicados baseado em similaridade fonética e numérica independente de idioma, desenvolvido por meio da funcionalidade multithreading para melhorar o desempenho em relação ao tempo de execução do algoritmo. Os testes realizados demonstram que o algoritmo proposto obteve melhores resultados na identificação de registros duplicados em relação aos algoritmos fonéticos existentes, fato este que garante uma melhor limpeza da base de dados	pt
dc.description.abstract	In order to ensure greater reliability and consistency of data stored in the database, the data cleaning stage is set early in the process of Knowledge Discovery in Database - KDD. This step has significant importance because it eliminates problems that strongly reflect the reliability of the knowledge extracted as missing values, null values, duplicate tuples and values outside the domain. It is an important step aimed at correction and adjustment for the subsequent stages. Within this perspective, techniques are presented that seek to address the various problems mentioned. Therefore, this work is the characterization method of detecting duplicate tuples in the database, presenting the main algorithms based on distance metrics, some tools designed for such activity and the development of an algorithm to identify duplicate records based on phonetic similarity numeric and language-independent, developed by multithreading functionality to improve performance over the runtime of the algorithm. Tests show that the proposed algorithm achieved better results in identifying duplicate records regarding phonetic algorithms exist, a fact that ensures better cleaning of the database	en
dc.format.extent	128 f. : il. color.
dc.identifier.aleph	000671082
dc.identifier.capes	33004153073P2
dc.identifier.citation	ANDRADE, Tiago Luís de. Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading. 2011. 128 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2011.
dc.identifier.file	andrade_tl_me_sjrp.pdf
dc.identifier.lattes	4035066471503413
dc.identifier.uri	http://hdl.handle.net/11449/98678
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto
dc.source	Aleph
dc.subject	Data cleaning	en
dc.subject	Duplicate tuples	en
dc.subject	Phonetics	en
dc.subject	Multithreading	en
dc.subject	Banco de dados - Gerencia	pt
dc.subject	Armazenamento de dados	pt
dc.subject	Algoritmos de computador	pt
dc.subject	Fonética	pt
dc.title	Ambiente independente de idioma para suporte a identificação de tuplas duplicadas por meio da similaridade fonética e numérica: otimização de algoritmo baseado em multithreading	pt
dc.type	Dissertação de mestrado
unesp.author.lattes	4035066471503413
unesp.campus	Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Preto	pt
unesp.graduateProgram	Ciência da Computação - IBILCE	pt
unesp.knowledgeArea	Sistemas de computação	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: andrade_tl_me_sjrp.pdf
Tamanho:: 1.03 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Dissertações - Ciência da Computação - IBILCE