Logo do repositório

Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble

dc.contributor.advisorCansian, Adriano Mauro [UNESP]
dc.contributor.authorCruz, Lucas Puerta [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-10-20T15:34:45Z
dc.date.issued2025-08-25
dc.description.abstractEste trabalho investiga a aplicação de métodos de aprendizado de máquina do tipo ensemble, incluindo Random Forest, AdaBoost e XGBoost, na detecção de ataques de phishing. Foram utilizados três conjuntos de dados amplamente empregados na literatura (Enron, ISCX-URL- 2016 e Phishing Websites — UCI), que passaram por etapas de pré-processamento e foram adaptados para classificação binária, distinguindo entre instâncias legítimas e maliciosas. Os métodos ensemble foram comparados a algoritmos tradicionais, como Regressão Logística, k-Nearest Neighbors, Naive Bayes e Decision Tree, por meio de métricas de acurácia, precisão, recall e F1-score, com execuções repetidas de validação cruzada para garantir robustez estatística. Os resultados mostraram que os modelos ensemble obtiveram acurácia média de 96,9% e F1-score de 97%, superando os métodos convencionais, especialmente na redução de falsos negativos. Não foi desenvolvido um sistema completo em produção. O estudo evidencia o potencial dos métodos avaliados como base para implementações futuras, abrangendo engenharia de atributos, integração arquitetural e validação em ambientes reais.pt
dc.description.abstractThis work investigates the application of ensemble-type machine learning methods, including Ran- dom Forest, AdaBoost, and XGBoost, in the detection of phishing attacks. Three datasets widely used in the literature (Enron, ISCX-URL-2016, and Phishing Websites — UCI) were employed. They underwent preprocessing stages and were adapted for binary classification, distinguishing between legitimate and malicious instances. The ensemble methods were compared to traditional algorithms such as Logistic Regression, k-Nearest Neighbors, Naive Bayes, and Decision Tree using accuracy, precision, recall, and F1-score metrics, with repeated cross-validation executions to ensure statistical robustness. The results showed that the ensemble models achieved an average accuracy of 96.9% and an F1-score of 97%, outperforming conventional methods, especially in reducing false negatives. A complete production system was not developed. The study highlights the potential of the evaluated methods as a basis for future implementations, encompassing feature engineering, architectural integration, and validation in real environments.en
dc.identifier.capes33004153073P2
dc.identifier.citationCRUZ, Lucas Puerta. Detecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemble. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.
dc.identifier.orcid0009-0001-8802-946X
dc.identifier.urihttps://hdl.handle.net/11449/314406
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectPhishingpt
dc.subjectAprendizado de máquinapt
dc.subjectMétodos Ensemblept
dc.subjectMachine learningen
dc.subjectRandom foresten
dc.subjectXgboosten
dc.titleDetecção de Phishing por aprendizado de máquina com ênfase em Métodos Ensemblept
dc.title.alternativePhishing detection based on machine learning with focus on Ensemble Methodsen
dc.typeDissertação de mestradopt
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Pretopt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCEpt
unesp.knowledgeAreaComputação aplicadapt
unesp.researchAreaSistemas da informacaopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
cruz_lp_me_sjrp.pdf
Tamanho:
3.3 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição: