Classificação de domínios recém-registrados por meio de DNS passivo aplicando técnicas de aprendizado de máquina

Carregando...
Imagem de Miniatura

Data

2022-01-17

Autores

Silva, Leandro Marcos da

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Many domain names are registered daily, including malicious domains which are applied to the most diverse attacks to steal information and infect machines. In this scenario, solutions that use machine learning techniques emerge to classify domains with approaches that analyze lexical features, active and passive DNS. However, there are deficiencies in the classification of domains, especially in newly registered domains. Therefore, this work proposes a system for the classification of newly registered domains through passive DNS, which applies five models to monitor the first month of life of domains after the first query, with each model referring to a specific interval of time. Data is collected from the authoritative server of a Top-Level Domain, and 20 features are extracted from passive DNS with geolocation information. In addition, Cluster Centroids and K-Means SMOTE methods were combined for class balancing, given that there are more legitimate than malicious domains. Five tree-based machine learning algorithms were compared for training the models, of which LightGBM obtained the best results. Finally, two models of the system were validated with new data, obtaining an average True Positive Rate of 0.8669.
Uma grande quantidade de nomes de domínios é registrada diariamente, incluindo domínios maliciosos, os quais são aplicados para os mais diversos ataques com o objetivo de roubar informações e contaminar máquinas. Neste cenário, soluções que usam técnicas de aprendizado de máquina surgem para a classificação de domínios com abordagens que analisam características textuais, DNS ativo e passivo. Contudo, existem carências na classificação de domínios, principalmente de domínios recém-registrados. Diante disso, este trabalho propõe um sistema para a classificação de domínios recém-registrados por meio do DNS passivo, o qual aplica cinco modelos para monitorar o primeiro mês de vida dos domínios após a primeira query, sendo cada modelo referente a um certo intervalo de tempo. Os dados são coletados do servidor autoritativo de um Top-Level Domain, e, com isso, 20 características são extraídas do DNS passivo com informações de geolocalização. Além disso, os métodos Cluster Centroids e K-Means SMOTE foram combinados para o balanceamento de classes, dado que há mais domínios legítimos do que maliciosos. Para o treinamento dos modelos, comparou-se cinco algoritmos de aprendizado de máquina baseados em árvores, dos quais o LightGBM obteve os melhores resultados. Por fim, dois modelos do sistema foram validados com novos dados, obtendo uma Taxa de Verdadeiro Positivo média de 0,8669.

Descrição

Palavras-chave

Passive DNS, Newly registered domains, Malicious domains, Machine learning, Data imbalance, DNS passivo, Domínios recém-registrados, Domínios maliciosos, Aprendizado de máquina, Balanceamento de classes

Como citar