Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
Carregando...
Data
Autores
Orientador
Cansian, Adriano Mauro 

Coorientador
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.
Resumo (inglês)
This work investigates the application of ensemble-type machine learning methods, including Ran- dom Forest, AdaBoost, and XGBoost, in the detection of phishing attacks. Three datasets widely used in the literature (Enron, ISCX-URL-2016, and Phishing Websites — UCI) were employed. They underwent preprocessing stages and were adapted for binary classification, distinguishing between legitimate and malicious instances. The ensemble methods were compared to traditional algorithms such as Logistic Regression, k-Nearest Neighbors, Naive Bayes, and Decision Tree using accuracy, precision, recall, and F1-score metrics, with repeated cross-validation executions to ensure statistical robustness. The results showed that the ensemble models achieved an average accuracy of 96.9% and an F1-score of 97%, outperforming conventional methods, especially in reducing false negatives. A complete production system was not developed. The study highlights the potential of the evaluated methods as a basis for future implementations, encompassing feature engineering, architectural integration, and validation in real environments.
Descrição
Palavras-chave
Phishing, Aprendizado de máquina, Métodos Ensemble, Machine learning, Random forest, Xgboost
Idioma
Português
Citação
CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.

