Classificação de domínios recém-registrados por meio de DNS passivo aplicando técnicas de aprendizado de máquina

Silva, Leandro Marcos daClassificação de domínios recém-registrados por meio de DNS passivo aplicando técnicas de aprendizado de máquinaClassification of newly registered domains through passive DNS applying machine learning techniquesUniversidade Estadual Paulista (Unesp)2022Passive DNSNewly registered domainsMalicious domainsMachine learningData imbalanceDNS passivoDomínios recém-registradosDomínios maliciososAprendizado de máquinaBalanceamento de classesMy UniversityMy UniversityCansian, Adriano Mauro [UNESP]2022-01-282022-01-282022-01-17porTrabalho de conclusão de cursohttp://hdl.handle.net/11449/216174Acesso abertoMany domain names are registered daily, including malicious domains which are applied to the most diverse attacks to steal information and infect machines. In this scenario, solutions that use machine learning techniques emerge to classify domains with approaches that analyze lexical features, active and passive DNS. However, there are deficiencies in the classification of domains, especially in newly registered domains. Therefore, this work proposes a system for the classification of newly registered domains through passive DNS, which applies five models to monitor the first month of life of domains after the first query, with each model referring to a specific interval of time. Data is collected from the authoritative server of a Top-Level Domain, and 20 features are extracted from passive DNS with geolocation information. In addition, Cluster Centroids and K-Means SMOTE methods were combined for class balancing, given that there are more legitimate than malicious domains. Five tree-based machine learning algorithms were compared for training the models, of which LightGBM obtained the best results. Finally, two models of the system were validated with new data, obtaining an average True Positive Rate of 0.8669.Uma grande quantidade de nomes de domínios é registrada diariamente, incluindo domínios maliciosos, os quais são aplicados para os mais diversos ataques com o objetivo de roubar informações e contaminar máquinas. Neste cenário, soluções que usam técnicas de aprendizado de máquina surgem para a classificação de domínios com abordagens que analisam características textuais, DNS ativo e passivo. Contudo, existem carências na classificação de domínios, principalmente de domínios recém-registrados. Diante disso, este trabalho propõe um sistema para a classificação de domínios recém-registrados por meio do DNS passivo, o qual aplica cinco modelos para monitorar o primeiro mês de vida dos domínios após a primeira query, sendo cada modelo referente a um certo intervalo de tempo. Os dados são coletados do servidor autoritativo de um Top-Level Domain, e, com isso, 20 características são extraídas do DNS passivo com informações de geolocalização. Além disso, os métodos Cluster Centroids e K-Means SMOTE foram combinados para o balanceamento de classes, dado que há mais domínios legítimos do que maliciosos. Para o treinamento dos modelos, comparou-se cinco algoritmos de aprendizado de máquina baseados em árvores, dos quais o LightGBM obteve os melhores resultados. Por fim, dois modelos do sistema foram validados com novos dados, obtendo uma Taxa de Verdadeiro Positivo média de 0,8669.