Publicação: Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual
Carregando...
Arquivos
Data
Autores
Orientador
Santos, Adriana Barbosa 

Cruz, Álvaro Magri Nogueira da
Coorientador
Pós-graduação
Curso de graduação
Ciência da Computação - IBILCE
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (inglês)
Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.
Resumo (português)
A disponibilidade de dados é cada vez maior no mundo atual. Para a realização de inferências que auxiliem nas tomadas de decisão, técnicas de mineração de dados como os algoritmos de classificação são utilizadas. Além disso, a qualidade dos dados é um fator preponderante, pois influencia diretamente nos resultados que embasam o processo decisório, especialmente no ambiente corporativo. Este trabalho objetiva a comparação de algoritmos que priorizem a avaliação de dimensões de qualidade de dados no processo de classificação de conteúdo textual a partir de artigos científicos que compõem o portfólio de informações exibidas em uma plataforma de comunicação científica. Para isso, utilizaram-se diferentes técnicas de validação para aferir o desempenho dos algoritmos, bem como métricas específicas para avaliação das dimensões de qualidade sob diferentes condições experimentais, visando avaliar a influência da qualidade dos dados no processo de classificação.
Descrição
Palavras-chave
Big data, Data quality, Data mining, Classification algorithms, Ciência da computação, Mineração de dados (Computação), Inteligência artificial
Idioma
Português