Qualidade de dados como requisito na comparação de algoritmos de classificação de conteúdo textual

Carregando...
Imagem de Miniatura

Data

2022-01-04

Autores

Rücker, Gabriel

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Data availability is growing in the real world. In order to be able to make inferences that help in decision making, data mining techniques such as the classification algorithms are used. Besides that, data quality is a relevant factor to consider, because it directly impacts results of the decision-making process, especially in the corporative environment. This work aimed to compare algorithms that prioritize data quality dimensions evaluation in the process of classifying textual content from scientific papers for a scientific communication platform. In order to do that, different validation techniques were used to measure the algorithms performance, as well as specific metrics to evaluate the quality dimensions under varied experimental conditions, aiming to evaluate data quality impact on the outcomes of a classification.
A disponibilidade de dados é cada vez maior no mundo atual. Para a realização de inferências que auxiliem nas tomadas de decisão, técnicas de mineração de dados como os algoritmos de classificação são utilizadas. Além disso, a qualidade dos dados é um fator preponderante, pois influencia diretamente nos resultados que embasam o processo decisório, especialmente no ambiente corporativo. Este trabalho objetiva a comparação de algoritmos que priorizem a avaliação de dimensões de qualidade de dados no processo de classificação de conteúdo textual a partir de artigos científicos que compõem o portfólio de informações exibidas em uma plataforma de comunicação científica. Para isso, utilizaram-se diferentes técnicas de validação para aferir o desempenho dos algoritmos, bem como métricas específicas para avaliação das dimensões de qualidade sob diferentes condições experimentais, visando avaliar a influência da qualidade dos dados no processo de classificação.

Descrição

Palavras-chave

Big data, Data quality, Data mining, Classification algorithms, Ciência da computação, Mineração de dados (Computação), Inteligência artificial

Como citar