Estudo e comparação de técnicas de aprendizado de máquina para classificação em dados tabulares incompletos no contexto médico
Carregando...
Data
Autores
Orientador
Ribas, Lucas Correia 

Coorientador
Pós-graduação
Curso de graduação
São José do Rio Preto - IBILCE - Ciência da Computação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Nas bases de dados reais, encontrar dados ausentes é um problema frequente, e ocorre quando valores de variáveis interessantes não estão disponíveis para todos os sujeitos da amostra, impactando negativamente o universo da pesquisa clínica, visto que pode levar a conclusões enviesadas. Esta monografia realiza um estudo comparativo entre técnicas de imputação de valores ausentes e algoritmos de classificação aplicados a dados tabulares. O objetivo é identificar combinações eficazes para lidar com conjuntos de dados médicos complexos e incompletos, com foco em sua aplicabilidade prática. Para esta monografia, foram selecionados dois conjuntos de dados relacionados à recorrência do câncer de mama em mulheres e outro conjunto relativo ao diagnóstico de apendicite em crianças e jovens de 0 até 18 anos. As etapas de pré-processamento incluíram a imputação de dados ausentes e a seleção de atributos, utilizando abordagens estatísticas e de aprendizado de máquina, seguidas pela aplicação de algoritmos de classificação supervisionada. Os melhores desempenhos preditivos foram obtidos pela combinação de técnicas de imputação interativa com o modelo Random Forest, que se destacou pela acurácia e sensibilidade tanto nos diagnósticos de apendicite quanto na identificação da recorrência do câncer de mama.
Resumo (inglês)
In real-world datasets, missing data is a frequent issue, occurring when values of relevant variables are unavailable for some subjects in the sample. This can negatively impact clinical research, as it may lead to biased conclusions. This monograph presents a comparative study of missing data imputation techniques and classification algorithms applied to tabular data. The goal is to identify effective combinations for handling complex and incomplete medical datasets, with an emphasis on practical applicability. For this study, two datasets were selected: one related to breast cancer recurrence in women, and another concerning the diagnosis of appendicitis in children and adolescents aged 0 to 18 years. The preprocessing steps included missing data imputation and feature selection, using both statistical and machine learning approaches, followed by the application of supervised classification algorithms. The best predictive performances were achieved through the combination of iterative imputation techniques with the Random Forest model, which stood out for its accuracy and sensitivity in both the diagnosis of appendicitis and the identification of breast cancer recurrence.
Descrição
Palavras-chave
Aprendizado de máquina, Dados ausentes, Técnicas de imputação, Algoritmos de classificação, Machine learning, Imputation, Missing data
Idioma
Português
Citação
SANTOS, Bianca Aissa. Estudo e comparação de técnicas de aprendizado de máquina para classificação em dados tabulares incompletos no contexto médico. 2025. 50 p. Trabalho de conclusão de curso (Bacharelado - Ciência da
Computação) - Universidade Estadual Paulista (UNESP), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Preto, 2025.

