Optimization of algorithm to identification of duplicate tuples through similarity phonetic based on multithreading

De Andrade, Tiago Luís [UNESP]; De Souza, Rogéria Cristiane Gratão [UNESP]; Babini, Maurizio [UNESP]; Valêncio, Carlos Roberto [UNESP]

doi:10.1109/PDCAT.2011.58

Optimization of algorithm to identification of duplicate tuples through similarity phonetic based on multithreading

dc.contributor.author	De Andrade, Tiago Luís [UNESP]
dc.contributor.author	De Souza, Rogéria Cristiane Gratão [UNESP]
dc.contributor.author	Babini, Maurizio [UNESP]
dc.contributor.author	Valêncio, Carlos Roberto [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2014-05-27T11:26:14Z
dc.date.available	2014-05-27T11:26:14Z
dc.date.issued	2011-12-01
dc.description.abstract	Aiming to ensure greater reliability and consistency of data stored in the database, the data cleaning stage is set early in the process of Knowledge Discovery in Databases (KDD) and is responsible for eliminating problems and adjust the data for the later stages, especially for the stage of data mining. Such problems occur in the instance level and schema, namely, missing values, null values, duplicate tuples, values outside the domain, among others. Several algorithms were developed to perform the cleaning step in databases, some of them were developed specifically to work with the phonetics of words, since a word can be written in different ways. Within this perspective, this work presents as original contribution an optimization of algorithm for the detection of duplicate tuples in databases through phonetic based on multithreading without the need for trained data, as well as an independent environment of language to be supported for this. © 2011 IEEE.	en
dc.description.affiliation	Depto. de Ciências de Computação e Estatística Universidade Estadual Paulista - Unesp, São José do Rio Preto
dc.description.affiliation	Departamento de Letras Modernas Universidade Estadual Paulista - Unesp, São José do Rio Preto
dc.description.affiliationUnesp	Depto. de Ciências de Computação e Estatística Universidade Estadual Paulista - Unesp, São José do Rio Preto
dc.description.affiliationUnesp	Departamento de Letras Modernas Universidade Estadual Paulista - Unesp, São José do Rio Preto
dc.format.extent	299-304
dc.identifier	http://dx.doi.org/10.1109/PDCAT.2011.58
dc.identifier.citation	Parallel and Distributed Computing, Applications and Technologies, PDCAT Proceedings, p. 299-304.
dc.identifier.doi	10.1109/PDCAT.2011.58
dc.identifier.lattes	4644812253875832
dc.identifier.lattes	4035066471503413
dc.identifier.lattes	5914651754517864
dc.identifier.orcid	0000-0002-9325-3159
dc.identifier.orcid	0000-0002-7449-9022
dc.identifier.scopus	2-s2.0-84856660893
dc.identifier.uri	http://hdl.handle.net/11449/72860
dc.language.iso	eng
dc.relation.ispartof	Parallel and Distributed Computing, Applications and Technologies, PDCAT Proceedings
dc.rights.accessRights	Acesso aberto	pt
dc.source	Scopus
dc.subject	Algorithm
dc.subject	Data cleansing
dc.subject	Duplicated tuples
dc.subject	Data cleaning
dc.subject	Knowledge discovery in database
dc.subject	Missing values
dc.subject	Multi-threading
dc.subject	Null value
dc.subject	Database systems
dc.subject	Linguistics
dc.subject	Optimization
dc.subject	Algorithms
dc.title	Optimization of algorithm to identification of duplicate tuples through similarity phonetic based on multithreading	en
dc.type	Trabalho apresentado em evento	pt
dcterms.license	http://www.ieee.org/publications_standards/publications/rights/rights_policies.html
dspace.entity.type	Publication
relation.isOrgUnitOfPublication	43c38943-bd6f-4fb6-a9a5-8482a1f632c0
relation.isOrgUnitOfPublication.latestForDiscovery	43c38943-bd6f-4fb6-a9a5-8482a1f632c0
unesp.author.lattes	4644812253875832[4]
unesp.author.lattes	4035066471503413
unesp.author.lattes	5914651754517864[2]
unesp.author.orcid	0000-0002-9325-3159[4]
unesp.author.orcid	0000-0002-7449-9022[2]
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto	pt
unesp.department	Ciências da Computação e Estatística - IBILCE	pt
unesp.department	Letras Modernas - IBILCE	pt

Coleções

São José do Rio Preto - IBILCE - Instituto de Biociências, Letras e Ciências Exatas

Optimization of algorithm to identification of duplicate tuples through similarity phonetic based on multithreading

Arquivos

Coleções