Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo
Carregando...
Data
Autores
Orientador
Cansian, Adriano Mauro 

Coorientador
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
O Domain Name System (DNS) é um dos serviços mais importantes da internet, responsável por mapear nomes de domínio em endereços IP. Embora seja amplamente utilizado de forma legítima, o DNS também pode ser explorado por cibercriminosos como parte de suas infraestruturas de ataque. Entre as mais comuns estão as botnets, redes de dispositivos comprometidos por malware e controlados remotamente de maneira coordenada. O controle dessas redes ocorre por meio de servidores de comando e controle (C2), que permitem aos atacantes gerenciar os dispositivos infectados. Para ocultar o endereço real dos C2 ou possibilitar a alteração frequente desses endereços sem interromper a comunicação com a botnet, os atacantes recorrem a algoritmos geradores de domínios (DGA), responsáveis por criar nomes de domínio pseudoaleatórios utilizados na comunicação maliciosa. Este trabalho apresenta um modelo de aprendizado profundo capaz de detectar domínios DGA utilizando técnicas de processamento de linguagem natural (NLP) para a classificação de textos curtos, além de uma metodologia de atualização incremental que permite incorporar novos exemplos, preservando a capacidade do modelo de identificar famílias emergentes de ameaças. A validação do modelo foi realizada em ambiente real, por meio da coleta de consultas DNS em rede local com DNS passivo, e complementada com o desenvolvimento de um painel de monitoramento DNS, destinado a acompanhar os domínios classificados como suspeitos pelo modelo. Nos experimentos, o modelo alcançou métricas expressivas tanto em ambiente controlado quanto em cenários reais, obtendo acurácia de 98,00%, precisão de 97,96%, recall de 97,95% e taxa de falsos positivos de 2,39%. O treinamento incremental demonstrou eficácia em evitar o esquecimento catastrófico, mantendo o desempenho estável ao longo do tempo. A validação em tráfego DNS de mundo real reforça a relevância do modelo na detecção de domínios DGA proposto neste trabalho, contribuindo significativamente para a segurança cibernética.
Resumo (inglês)
The Domain Name System (DNS) is one of the most important services of the Internet, responsible for mapping domain names to IP addresses. Although it is widely used for legitimate purposes, DNS can also be exploited by cybercriminals as part of their attack infrastructures. Among the most common are botnets, networks of devices compromised by malware and remotely controlled in a coordinated manner. The control of these networks is carried out through command and control (C2) servers, which allow attackers to manage the infected devices. To conceal the real address of C2 servers or to enable frequent changes of these addresses without disrupting communication with the botnet, attackers employ Domain Generation Algorithms (DGA), which generate pseudo-random domain names used for malicious communication. This work presents a deep learning model capable of detecting DGA domains using natural language processing (NLP) techniques for the classification of short texts, in addition to an incremental update methodology that allows incorporating new examples, preserving the model's ability to identify emerging families of threats. The model was validated in a real-world environment through the collection of DNS queries on a local network using passive DNS monitoring, and complemented with the development of a DNS monitoring dashboard to track domains classified as suspicious by the model. In the experiments, the model achieved significant results in both controlled and real-world scenarios, reaching an accuracy of 98.00%, precision of 97.96%, recall of 97.95%, and a false positive rate of 2.39%. Incremental training proved effective in preventing catastrophic forgetting, maintaining stable performance over time. Validation with real-world DNS traffic reinforces the relevance of the proposed model in detecting DGA domains, making a significant contribution to cybersecurity.
Descrição
Palavras-chave
Nomes de domínio na Internet, Segurança de sistemas, Inteligência artificial, Redes neurais (Computação), Internet domain names, System safety, Artificial intelligence, Neural networks (Computer science)
Idioma
Português
Citação
GREGÓRIO, João Rafael. Detecção de domínios gerados por algoritmos com aprendizado profundo incremental e DNS passivo. Dissertação (Mestrado em Ciência da Computação). 2025 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2025.

