Classificação de domínios recém-registrados por meio de DNS passivo aplicando técnicas de aprendizado de máquina

dc.contributor.advisorCansian, Adriano Mauro [UNESP]
dc.contributor.authorSilva, Leandro Marcos da
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2022-01-28T19:48:45Z
dc.date.available2022-01-28T19:48:45Z
dc.date.issued2022-01-17
dc.description.abstractMany domain names are registered daily, including malicious domains which are applied to the most diverse attacks to steal information and infect machines. In this scenario, solutions that use machine learning techniques emerge to classify domains with approaches that analyze lexical features, active and passive DNS. However, there are deficiencies in the classification of domains, especially in newly registered domains. Therefore, this work proposes a system for the classification of newly registered domains through passive DNS, which applies five models to monitor the first month of life of domains after the first query, with each model referring to a specific interval of time. Data is collected from the authoritative server of a Top-Level Domain, and 20 features are extracted from passive DNS with geolocation information. In addition, Cluster Centroids and K-Means SMOTE methods were combined for class balancing, given that there are more legitimate than malicious domains. Five tree-based machine learning algorithms were compared for training the models, of which LightGBM obtained the best results. Finally, two models of the system were validated with new data, obtaining an average True Positive Rate of 0.8669.en
dc.description.abstractUma grande quantidade de nomes de domínios é registrada diariamente, incluindo domínios maliciosos, os quais são aplicados para os mais diversos ataques com o objetivo de roubar informações e contaminar máquinas. Neste cenário, soluções que usam técnicas de aprendizado de máquina surgem para a classificação de domínios com abordagens que analisam características textuais, DNS ativo e passivo. Contudo, existem carências na classificação de domínios, principalmente de domínios recém-registrados. Diante disso, este trabalho propõe um sistema para a classificação de domínios recém-registrados por meio do DNS passivo, o qual aplica cinco modelos para monitorar o primeiro mês de vida dos domínios após a primeira query, sendo cada modelo referente a um certo intervalo de tempo. Os dados são coletados do servidor autoritativo de um Top-Level Domain, e, com isso, 20 características são extraídas do DNS passivo com informações de geolocalização. Além disso, os métodos Cluster Centroids e K-Means SMOTE foram combinados para o balanceamento de classes, dado que há mais domínios legítimos do que maliciosos. Para o treinamento dos modelos, comparou-se cinco algoritmos de aprendizado de máquina baseados em árvores, dos quais o LightGBM obteve os melhores resultados. Por fim, dois modelos do sistema foram validados com novos dados, obtendo uma Taxa de Verdadeiro Positivo média de 0,8669.pt
dc.description.sponsorshipFundação para o Desenvolvimento da UNESP (FUNDUNESP)
dc.description.sponsorshipIdNIC.br: 2764/2018
dc.identifier.urihttp://hdl.handle.net/11449/216174
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectPassive DNSen
dc.subjectNewly registered domainsen
dc.subjectMalicious domainsen
dc.subjectMachine learningen
dc.subjectData imbalanceen
dc.subjectDNS passivopt
dc.subjectDomínios recém-registradospt
dc.subjectDomínios maliciosospt
dc.subjectAprendizado de máquinapt
dc.subjectBalanceamento de classespt
dc.titleClassificação de domínios recém-registrados por meio de DNS passivo aplicando técnicas de aprendizado de máquinapt
dc.title.alternativeClassification of newly registered domains through passive DNS applying machine learning techniquesen
dc.typeTrabalho de conclusão de curso
unesp.campusUniversidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Pretopt
unesp.undergraduateCiência da Computação - IBILCEpt

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
silva_lm_tcc_sjrp.pdf
Tamanho:
1.8 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 2 de 2
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.43 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Nenhuma Miniatura disponível
Nome:
silva_lm_autorizacao_sjrp.pdf
Tamanho:
54.49 KB
Formato:
Adobe Portable Document Format
Descrição: