Logo do repositório

Estudo e comparação de técnicas de aprendizado de máquina para classificação em dados tabulares incompletos no contexto médico

Carregando...
Imagem de Miniatura

Orientador

Ribas, Lucas Correia

Coorientador

Pós-graduação

Curso de graduação

São José do Rio Preto - IBILCE - Ciência da Computação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Nas bases de dados reais, encontrar dados ausentes é um problema frequente, e ocorre quando valores de variáveis interessantes não estão disponíveis para todos os sujeitos da amostra, impactando negativamente o universo da pesquisa clínica, visto que pode levar a conclusões enviesadas. Esta monografia realiza um estudo comparativo entre técnicas de imputação de valores ausentes e algoritmos de classificação aplicados a dados tabulares. O objetivo é identificar combinações eficazes para lidar com conjuntos de dados médicos complexos e incompletos, com foco em sua aplicabilidade prática. Para esta monografia, foram selecionados dois conjuntos de dados relacionados à recorrência do câncer de mama em mulheres e outro conjunto relativo ao diagnóstico de apendicite em crianças e jovens de 0 até 18 anos. As etapas de pré-processamento incluíram a imputação de dados ausentes e a seleção de atributos, utilizando abordagens estatísticas e de aprendizado de máquina, seguidas pela aplicação de algoritmos de classificação supervisionada. Os melhores desempenhos preditivos foram obtidos pela combinação de técnicas de imputação interativa com o modelo Random Forest, que se destacou pela acurácia e sensibilidade tanto nos diagnósticos de apendicite quanto na identificação da recorrência do câncer de mama.

Resumo (inglês)

In real-world datasets, missing data is a frequent issue, occurring when values of relevant variables are unavailable for some subjects in the sample. This can negatively impact clinical research, as it may lead to biased conclusions. This monograph presents a comparative study of missing data imputation techniques and classification algorithms applied to tabular data. The goal is to identify effective combinations for handling complex and incomplete medical datasets, with an emphasis on practical applicability. For this study, two datasets were selected: one related to breast cancer recurrence in women, and another concerning the diagnosis of appendicitis in children and adolescents aged 0 to 18 years. The preprocessing steps included missing data imputation and feature selection, using both statistical and machine learning approaches, followed by the application of supervised classification algorithms. The best predictive performances were achieved through the combination of iterative imputation techniques with the Random Forest model, which stood out for its accuracy and sensitivity in both the diagnosis of appendicitis and the identification of breast cancer recurrence.

Descrição

Palavras-chave

Aprendizado de máquina, Dados ausentes, Técnicas de imputação, Algoritmos de classificação, Machine learning, Imputation, Missing data

Idioma

Português

Citação

SANTOS, Bianca Aissa. Estudo e comparação de técnicas de aprendizado de máquina para classificação em dados tabulares incompletos no contexto médico. 2025. 50 p. Trabalho de conclusão de curso (Bacharelado - Ciência da Computação) - Universidade Estadual Paulista (UNESP), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Preto, 2025.

Itens relacionados

Financiadores

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação