Publicação:
Comparação de modelos de aprendizado de máquina para a predição de churn

Carregando...
Imagem de Miniatura

Data

2024-12-03

Orientador

Garde, Ivan Aritz Aldaya

Coorientador

Pós-graduação

Curso de graduação

São João da Boa Vista - FESJBV - Engenharia Eletrônica e de Telecomunicações

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Este trabalho analisa e compara três algoritmos de aprendizado de máquina — árvore de decisão, floresta aleatória e LightGBM — com o objetivo de prever o churn de vendedores em um marketplace de e-commerce. O estudo utilizou um conjunto de dados real de transações para avaliar a capacidade preditiva dos modelos, considerando o desafio do desbalanceamento das classes. Para garantir a robustez dos resultados, a métrica AUC (Área Sob a Curva) foi adotada, evitando distorções comuns em dados desbalanceados. A pesquisa explorou a influência de diferentes volumes de dados na performance dos algoritmos, com testes realizados tanto na base de dados inicialmente analisada quanto em uma base expandida. Os melhores modelos foram selecionados com base em suas configurações de hiperparâmetros e avaliados em três amostras: treino, teste e fora do tempo (out of time OOT). O estudo conclui que a base expandida melhora o desempenho do LightGBM, enquanto o aumento de dados não altera significativamente os resultados dos outros modelos. Este trabalho fornece insights relevantes para estratégias de retenção em plataformas de e-commerce.

Resumo (inglês)

This study analyzes and compares three machine learning algorithms—decision tree, random forest, and LightGBM—with the objective of predicting vendor churn in an e-commerce marketplace. The research utilized real transaction data to evaluate the predictive capabilities of these models, considering the challenges posed by class imbalance. To ensure robust results, the AUC (Area Under the Curve) metric was adopted, avoiding common distortions in imbalanced data. The study explored the influence of different data volumes on algorithm performance, with tests conducted on both the initially analyzed and an expanded dataset. The top-performing models were selected based on their hyperparameter configurations and evaluated across three samples: training, testing, and out-of-time (OOT). The study concludes that the expanded dataset significantly enhances the LightGBM’s performance, while data increase does not substantially alter the results of the other models. This research offers valuable insights for retention strategies in e-commerce platforms.

Descrição

Idioma

Português

Como citar

MIAMOTO, E. Y. Comparação de modelos de aprendizado de máquina para a predição de churn. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica e de Telecomunicações) — Faculdade de Engenharia, Universidade Estadual Paulista "Júlio de Mesquita Filho", São João da Boa Vista, 2024.

Itens relacionados

Financiadores

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação