Utilização de aprendizado de máquina na predição de sobrevida de pacientes oncológicos
Carregando...
Data
Autores
Orientador
Oikawa, Sérgio Minoru 

Coorientador
Pós-graduação
Curso de graduação
Presidente Prudente - FCT - Estatística
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A análise de sobrevivência desempenha um papel fundamental na estatística médica, lidando com dados censurados para estimar o tempo até a ocorrência de eventos de interesse, como o óbito em pacientes oncológicos. Neste contexto, o câncer gástrico destaca-se pela alta letalidade e complexidade clínica, demandando ferramentas prognósticas precisas. O presente trabalho teve como objetivo principal realizar uma análise comparativa de desempenho entre o modelo semiparamétrico de Riscos Proporcionais de Cox e o algoritmo de aprendizado de máquina Random Survival Forest (RSF). Especificamente, buscou-se identificar os fatores de risco clínicos determinantes, avaliar a capacidade preditiva e determinar a abordagem mais eficaz para prognóstico. A metodologia utilizou uma base de dados real da Fundação Oncocentro de São Paulo (FOSP), compreendendo 942 pacientes diagnosticados com câncer de estômago nos estágios I, II e III, acompanhados entre 2018 e 2024. Foram ajustados modelos de Cox, e modelos RSF, treinados tanto com variáveis originais quanto estratificadas, utilizando métricas como C-Index, Brier Score (IBS) e VIMP em conjuntos de treino e teste.
Os resultados clínicos via regressão de Cox indicaram que o estadiamento avançado (Estágio III) eleva o risco de óbito em 4,78 vezes comparado ao Estágio I, e que o atendimento pelo SUS está associado a um risco de óbito 92% superior ao da rede privada. Na comparação metodológica, o modelo RSF treinado com variáveis originais superou o modelo com variáveis recategorizadas, alcançando um C-Index de 0,74 no conjunto de teste e demonstrando menor erro de predição. Conclui-se que o processo de recategorização exigido pelo modelo de Cox pode acarretar perda de informação relevante. O estudo evidencia que, enquanto o modelo de Cox é indispensável para a interpretação da magnitude dos riscos (Risco Relativo), o Random Survival Forest apresenta superioridade na precisão preditiva e generalização, constituindo uma ferramenta robusta para suporte à decisão clínica.
Resumo (inglês)
Survival analysis plays a fundamental role in medical statistics, dealing with censored data to estimate the time until the occurrence of events of interest, such as death in oncological patients. In this context, gastric cancer stands out due to its high lethality and clinical complexity, demanding precise prognostic tools. The primary objective of this study was to perform a comparative performance analysis between the semiparametric Cox Proportional Hazards model and the Random Survival Forest (RSF) machine learning algorithm. Specifically, the study sought to identify determinant clinical risk factors, evaluate predictive capacity, and determine the most effective approach for prognosis. The methodology utilized a real database from the Fundação Oncocentro de São Paulo (FOSP), comprising 942 patients diagnosed with gastric cancer in stages I, II, and III, followed up between 2018 and 2024. Cox models were fitted, and RSF models were trained with both original and stratified variables, using metrics such as C-Index, Brier Score (IBS), and VIMP on training and testing sets.
The clinical results via Cox regression indicated that advanced staging (Stage III) increases the risk of death by 4.78 times compared to Stage I, and that care provided by the Unified Health System (SUS) is associated with a 92% higher risk of death compared to the private network. In the methodological comparison, the RSF model trained with original variables outperformed the model with recategorized variables, achieving a CIndex of 0.74 in the test set and demonstrating lower prediction error. It is concluded that the recategorization process required by the Cox model may lead to a loss of relevant information. The study highlights that, while the Cox model is indispensable for interpreting the magnitude of risks (Relative Risk), the Random Survival Forest demonstrates superiority in predictive accuracy and generalization, constituting a robust tool for clinical decision support.
Descrição
Palavras-chave
Análise de sobrevivência, Câncer de estômago, Aprendizado de máquina, Random Survival Forest, Modelo de Cox, Survival analysis, Stomach cancer, Machine learning, Random Survival Forest, Cox Model
Idioma
Português
Citação
MARCHETTI, Henrique. Utilização de aprendizado de máquina na predição de sobrevida de pacientes oncológicos. Orientador: Sérgio Minoru Oikawa. 2025. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Estatística) - Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2025.

