Logotipo do repositório
 

Publicação:
Redução da dimensionalidade em dados da saúde por meio de combinação de algoritmos de seleção de atributos

Carregando...
Imagem de Miniatura

Orientador

Valêncio, Carlos Roberto

Coorientador

Pós-graduação

Curso de graduação

Ciência da Computação - IBILCE

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (inglês)

Technological advances in the last years allowed the creation of tools capable of collecting a significant amount of data in the different sectors of society, among those sectors is the health industry. This abundance of data has a vast potential of generating knowledge after it has been processed; however, the volume of this data makes it unfeasible to manually explore all this capacity. In this scenario it is necessary the application of well-defined automation techniques that are able to extract knowledge from the data. One of these techniques is the process of Data Mining as a way to predict diagnosis using element classification on a dataset, methodology that has been reaching uplifting results given that it makes for a more accurate and faster diagnostic process when compared to those that do not rely on computer assisted decision making. Nevertheless, the characteristics of health data, such as, elevated volume and high dimensionality create challenges on the process of knowledge discovery making it less efficient and with a higher computational cost, as a way to solve this problem it is possible to apply feature selection algorithms that reduce the number of present attributes and allow us to have a better understanding of how much a single attribute can affect the final result. Therefore, the objective of this work is to create a scientific contribution based on the application of several feature selection methods associated to a couple of classification algorithms on multiple datasets that explore both breast cancer and cardiac diseases. The results show that feature selection techniques can significantly increase the accuracy of the classification of health data with very little or no losses on execution time, given that in most cases it’s actually doable do reduce the execution time, leading to faster and more accurate predictions a very important aspect when taking the medical field in consideration.

Resumo (português)

Os avanços tecnológicos ocorridos nos últimos anos criaram ferramentas que tornaram possível um grande aumento na geração de dados em diferentes áreas da sociedade, entre elas, a área da saúde. Essa abundância de dados possui um grande potencial de conhecimento a ser extraído, porém, seu grande volume inviabiliza a exploração manual de toda essa capacidade. Neste contexto, é necessário recorrer à aplicação de técnicas automatizadas e bem definidas para extração do conhecimento. Uma dessas técnicas é o processo de Data Mining, que pode ser aplicado como uma das etapas da extração de conhecimento para o auxílio do diagnóstico preditivo de doenças a partir da classificação de elementos de um conjunto de dados, metodologia que se mostra promissora na busca em melhorar a qualidade de vida dos pacientes a partir de diagnósticos mais precisos e rápidos em comparação com aqueles sem assistência computacional. Contudo, as características de elevado volume e alta dimensionalidade desses dados geram uma dificuldade a mais em seu processo de exploração pois tornam os métodos mais custosos e menos eficientes, tornando-se assim necessário a aplicação de técnicas de seleção de atributos, que diminuem a quantidade de atributos presentes e permitem uma melhor predição e entendimento da influência de um determinado atributo sobre o resultado final. Sendo assim, este trabalho apresenta uma análise deste cenário a partir da aplicação de diversas técnicas de seleção de características associadas à mais de um algoritmo de classificação com múltiplos conjuntos de dados da área da saúde, sendo eles repositórios que abordam câncer de mama e doenças cardíacas. Os resultados mostram que técnicas de seleção de atributos podem aumentar significativamente a acurácia da classificação desse tipo de informação sem total ou nenhum comprometimento do tempo de execução, havendo casos em que até mesmo diminui-se o custo envolvido, levando a predições mais rápidas e eficazes, o que muitas vezes é crucial dentro do escopo médico.

Descrição

Palavras-chave

Data mining, Knowledge discovery, Health data, Data prediction, Big Data, Feature selection, Classification algorithms, Machine learning, Banco de Dados, Mineração de dados, Extração de conhecimento, Saúde, Predição de dados, Seleção de atributos, Algoritmos de classificação, KNN, J48

Idioma

Português

Como citar

Itens relacionados

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação