Automatização de processos de machine learning do framework DNS para a detecção de domínios maliciosos

Carregando...
Imagem de Miniatura

Data

2022-01-13

Autores

Gardini, Victor Fernandes

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

The use of domain names for the practice of malicious activities on the internet is a problem faced on a global scale, with emphasis on Brazil, which is in the ranking of countries most affected by phishing-type cyberattacks. To solve this, several approaches are studied by academia, among them the use of machine learning to classify domains as malicious or legitimate stands out. To deal with this, it was proposed to classify domains in three stages, where each one of them is interconnected through a single system called DNS framework. The system allows training new models and submitting new datasets for the training step, however the previous models and lists are lost. Therefore, approaches used by the academic community were studied that culminated in a set of techniques and approaches to manage machine learning models, these practices are commonly grouped and defined by the term MLOps. From that, it was possible to build a new system with the capacity to store, version and monitor models, lists and system logs, being later integrated with the framework. In this way, ensuring that each of the stages can have, independently, their training sets built incrementally from well-defined operations, without causing the loss of the previous process, in addition, allowing the creation of new models through an automated pipeline, so that it is made available to the production environment.
A utilização de nomes de domínio para a prática de atividades maliciosas na internet é um problema enfrentado em escala global, com destaque para o Brasil que está no ranking dos países mais afetados por ciberataques do tipo phishing. Para resolver isso, diversas abordagens são estudadas pela academia, e entre elas destaca-se a utilização de aprendizado de máquina para a classificação de domínios como maliciosos ou legítimos. Para lidar com isso, foi proposta a classificação de domínios em três estágios, onde cada um deles está ligado à um único sistema denominado framework DNS. O sistema permite fazer o treinamento de novos modelos e submeter novos conjuntos de dados para a etapa de treinamento, entretanto os modelos e listas anteriores são descartados durante o processo. Diante disso, foram estudadas abordagens utilizadas pela comunidade acadêmica que culminaram em um conjunto de técnicas e abordagens para gerenciar modelos de aprendizado de máquina, e essas práticas são comumente agrupadas e definidas pelo termo MLOps. A partir disso, foi possível construir um novo sistema com a capacidade de armazenar, versionar e monitorar modelos, listas e logs do sistema, que é posteriormente integrado com o framework. Dessa forma, cada um dos estágios pode ter, de forma independente, os seus conjuntos de treinamento construídos de forma incremental a partir de operações bem definidas, sem ocasionar a perda do processo anterior. Também é possível criar novos modelos por meio de um pipeline automatizado, para que o mesmo seja disponibilizado em ambiente de produção.

Descrição

Palavras-chave

Cybersecurity, Machine learning, Automation, DNS framework, Cibersegurança, MLOps, Automatização, Framework DNS

Como citar