Publicação: Comparação de modelos de aprendizado de máquina para a predição de churn
Carregando...
Data
2024-12-03
Autores
Orientador
Garde, Ivan Aritz Aldaya ![](assets/repositorio/images/logo-unesp.png)
![](assets/repositorio/images/logo-unesp.png)
Coorientador
Pós-graduação
Curso de graduação
São João da Boa Vista - FESJBV - Engenharia Eletrônica e de Telecomunicações
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto![Acesso Aberto](assets/repositorio/images/logo_acesso_aberto_simples.png)
![Acesso Aberto](assets/repositorio/images/logo_acesso_aberto_simples.png)
Resumo
Resumo (português)
Este trabalho analisa e compara três algoritmos de aprendizado de máquina — árvore de decisão, floresta aleatória e LightGBM — com o objetivo de prever o churn de vendedores em um marketplace de e-commerce. O estudo utilizou um conjunto de dados real de transações para avaliar a capacidade preditiva dos modelos, considerando o desafio do desbalanceamento das classes. Para garantir a robustez dos resultados, a métrica AUC (Área Sob a Curva) foi adotada, evitando distorções comuns em dados desbalanceados. A pesquisa explorou a influência de diferentes volumes de dados na performance dos algoritmos, com testes realizados tanto na base de dados inicialmente analisada quanto em uma base expandida. Os melhores modelos foram selecionados com base em suas configurações de hiperparâmetros e avaliados em três amostras: treino, teste e fora do tempo (out of time OOT). O estudo conclui que a base expandida melhora o desempenho do LightGBM, enquanto o aumento de dados não altera significativamente os resultados dos outros modelos. Este trabalho fornece insights relevantes para estratégias de retenção em plataformas de e-commerce.
Resumo (inglês)
This study analyzes and compares three machine learning algorithms—decision tree, random forest, and LightGBM—with the objective of predicting vendor churn in an e-commerce marketplace. The research utilized real transaction data to evaluate the predictive capabilities of these models, considering the challenges posed by class imbalance. To ensure robust results, the AUC (Area Under the Curve) metric was adopted, avoiding common distortions in imbalanced data. The study explored the influence of different data volumes on algorithm performance, with tests conducted on both the initially analyzed and an expanded dataset. The top-performing models were selected based on their hyperparameter configurations and evaluated across three samples: training, testing, and out-of-time (OOT). The study concludes that the expanded dataset significantly enhances the LightGBM’s performance, while data increase does not substantially alter the results of the other models. This research offers valuable insights for retention strategies in e-commerce platforms.
Descrição
Idioma
Português
Como citar
MIAMOTO, E. Y. Comparação de modelos de aprendizado de máquina para a predição de churn. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica e de Telecomunicações) — Faculdade de Engenharia, Universidade Estadual Paulista "Júlio de Mesquita Filho", São João da Boa Vista, 2024.