Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble
| dc.contributor.advisor | Cansian, Adriano Mauro [UNESP] | |
| dc.contributor.author | Cruz, Lucas Puerta [UNESP] | |
| dc.contributor.institution | Universidade Estadual Paulista (Unesp) | |
| dc.date.accessioned | 2025-10-20T15:34:45Z | |
| dc.date.issued | 2025-08-25 | |
| dc.description.abstract | Este trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais. | pt |
| dc.description.abstract | This work investigates the application of ensemble-type machine learning methods, including Ran- dom Forest, AdaBoost, and XGBoost, in the detection of phishing attacks. Three datasets widely used in the literature (Enron, ISCX-URL-2016, and Phishing Websites — UCI) were employed. They underwent preprocessing stages and were adapted for binary classification, distinguishing between legitimate and malicious instances. The ensemble methods were compared to traditional algorithms such as Logistic Regression, k-Nearest Neighbors, Naive Bayes, and Decision Tree using accuracy, precision, recall, and F1-score metrics, with repeated cross-validation executions to ensure statistical robustness. The results showed that the ensemble models achieved an average accuracy of 96.9% and an F1-score of 97%, outperforming conventional methods, especially in reducing false negatives. A complete production system was not developed. The study highlights the potential of the evaluated methods as a basis for future implementations, encompassing feature engineering, architectural integration, and validation in real environments. | en |
| dc.identifier.capes | 33004153073P2 | |
| dc.identifier.citation | CRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025. | |
| dc.identifier.orcid | 0009-0001-8802-946X | |
| dc.identifier.uri | https://hdl.handle.net/11449/314406 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Estadual Paulista (Unesp) | |
| dc.rights.accessRights | Acesso aberto | pt |
| dc.subject | Phishing | pt |
| dc.subject | Aprendizado de máquina | pt |
| dc.subject | Métodos Ensemble | pt |
| dc.subject | Machine learning | en |
| dc.subject | Random forest | en |
| dc.subject | Xgboost | en |
| dc.title | Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble | pt |
| dc.title.alternative | Phishing detection based on machine learning with focus on Ensemble Methods | en |
| dc.type | Dissertação de mestrado | pt |
| dspace.entity.type | Publication | |
| unesp.campus | Universidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto | pt |
| unesp.embargo | Online | pt |
| unesp.examinationboard.type | Banca pública | pt |
| unesp.graduateProgram | Ciência da Computação - FC/FCT/IBILCE/IGCE | pt |
| unesp.knowledgeArea | Computação aplicada | pt |
| unesp.researchArea | Sistemas da informacao | pt |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- cruz_lp_me_sjrp.pdf
- Tamanho:
- 3.3 MB
- Formato:
- Adobe Portable Document Format
Licença do pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.14 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição:

