UNIVERSIDADE ESTADUAL PAULISTA
"JÚLIO DE MESQUITA FILHO"

Bauru

Carlos Alexandre Carvalho Tojeiro

Identificação de Portscan com Machine Learning
- Uma Análise dos Impactos de Algoritmos de

Oversampling e Undersampling no
Desenvolvimento de Sistemas de Detecção de

Intrusão

Bauru
2024


Carlos Alexandre Carvalho Tojeiro

Identificação de Portscan com Machine Learning - Uma
Análise dos Impactos de Algoritmos de Oversampling e

Undersampling no Desenvolvimento de Sistemas de
Detecção de Intrusão

Dissertação apresentada como parte dos
requisitos para obtenção do título de Mestre
em Ciência da Computação, junto ao Programa
de Pós-Graduação em Ciência da Computação
da Universidade Estadual Paulista “Júlio de
Mesquita Filho", Câmpus de Bauru.

Orientador: Prof. Dr. Kelton Augusto
Pontara da Costa

Coorientador: Prof. Dr. Thiago José Lu-
cas

Bauru
2024


T646i
Tojeiro, Carlos Alexandre Carvalho

    Identificação de Portscan com Machine Learning : Uma Análise dos Impactos de

Algoritmos de Oversampling e Undersampling no Desenvolvimento de Sistemas de

Detecção de Intrusão / Carlos Alexandre Carvalho Tojeiro. -- Bauru, 2024

    100 p. : il., tabs.

    Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Faculdade de

Ciências, Bauru

    Orientador: Kelton Augusto Pontara da Costa

    Coorientador: Thiago José Lucas

    1. Aprendizado do computador. 2. Redes de computadores. 3. Sistemas de detecção

de intrusão (Medidas de segurança). I. Título.

Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Universidade Estadual Paulista (UNESP),

Faculdade de Ciências, Bauru. Dados fornecidos pelo autor(a).

Essa ficha não pode ser modificada.


Resumo
A necessidade de trabalhar com as informações digitais nas empresas gerou um crescimento nos
números de ataques cibernéticos em busca de ativos valiosos. Em contraproposta, pesquisadores
e administradores de redes vêm buscando uma precisão maior do processo que visa descobrir
portas “abertas” em dispositivos de rede, sendo que as “portas” são pontos de acesso pelos
quais os dados transitam nos dispositivos. Dentro desta proposta, este trabalho apresenta um
estudo da aplicação de combinações de algoritmos de Aprendizado de Máquina (AM) que
possam identificar uma maior quantidade de tentativas de “escaneamento de portas”, técnica
usada para identificar o estado de uma porta de rede, já que os cibercrimes normalmente iniciam-
se com um ataque de Portscan. O trabalho proposto compara dois métodos de seleção de
características, aplicando métodos de undersampling e oversampling para o balanceamento das
classes “normal” e “ataque”, classificando-os com Rede Neural, Regressão Logística, Máquinas
de Vetores de Suporte, Random Forest (RF), Decision Tree (DT) e k-Nearest Neighbors (kNN)
no conjunto de dados CICIDS2017. O resultado adquirido com as diferentes combinações
de algoritmos de AM demonstrou-se que a combinação dos classificadores RF, DT e kNN
juntamente com a técnica de SMOTEENN, obtiveram desempenhos superiores as demais
combinações propostas no trabalho.

Palavras-chave: Machine Learning ; Balanceamento de Dados; Portscan; Sistemas de Detecção
de Intrusão; Redes de Computadores.


Abstract

The need to work with digital information in companies has led to an increase in the number
of cyber attacks in search of valuable assets. In counter-proposal researchers and network
administrators have been searching for greater precision of the process of discovering “open
ports” on network devices, where “ports” are access points for which information passes
through the devices. Within this proposal, this work presents a study of the application of
combinations of Machine Learning (ML) algorithms that can identify a greater number of “port
scanning” attempts, a technique used to identify the state of a network port, since cybercrime
cybercrimes usually begin with a port scanning attack. The proposed work compares two
feature selection methods, applying undersampling and oversampling methods to balance the
“normal” and “attack” classes, classifying them with using Neural Networks (NN), Logistic
Regression (LR), Support Vector Machines (SVM), Random Forest (RF), Decision Tree (DT)
and k-Nearest Neighbours (kNN) on the CICIDS2017 dataset. The results obtained with
the different combinations of algorithms showed that the combination of the RF, DT and
kNN classifiers together with the SMOTEENN technique performed better than the other
combinations proposed in the work.

Keywords: Machine Learning; Data Balancing;Portscan; Intrusion Detection Systems; Com-
puter Networks.


Lista de ilustrações

Figura 1 – Metodologia do trabalho utilizada na revisão sistemática da literatura. . . . 18
Figura 2 – Distribuição dos artigos obtidos pelo ano de publicação. . . . . . . . . . . 19
Figura 3 – Fluxo do procedimento realizado na Revisão Sistemática da Literatura. . . 20
Figura 4 – Conjuntos de dados extraídos nos trabalhos selecionados - visualização ano

a ano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 5 – Classificadores utilizados nos artigos correlatos. . . . . . . . . . . . . . . . 45
Figura 6 – Técnicas de balanceamento utilizadas nos trabalhos correlatos. . . . . . . . 47
Figura 7 – Métodos de balanceamento utilizadas nos trabalhos correlatos. . . . . . . . 48
Figura 8 – Sistemas de Detecção de Intrusão. . . . . . . . . . . . . . . . . . . . . . . 59
Figura 9 – Curva da Regressão Logística Hosmer, Taber e Lemeshow (1991). . . . . . 61
Figura 10 – Máquina de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 11 – Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Figura 12 – Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Figura 13 – k-Nearest Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Figura 14 – Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Figura 15 – Fluxo de trabalho do processo metodológico . . . . . . . . . . . . . . . . 72
Figura 16 – Validação Cruzada - 10-fold cross-validation . . . . . . . . . . . . . . . . . 79


Lista de tabelas

Tabela 1 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados
no ano de 2019. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 23

Tabela 2 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados
no ano de 2020. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 27

Tabela 3 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados
no ano de 2021. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 33

Tabela 4 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados
no ano de 2022. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 37

Tabela 5 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados
no ano de 2023. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 42

Tabela 6 – Arquitetura de uma Matriz de Confusão. Fonte: Adaptada de Phetlasy et
al. (2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Tabela 7 – Compilação dos resultados publicados para os artigos citados. Fonte: Elabo-
rado pelo autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Tabela 8 – Features selecionadas por RFE e MI. Fonte: Elaborado pelo autor. . . . . . 77
Tabela 9 – Combinações das Técnicas. Fonte: Elaborado pelo autor. . . . . . . . . . . 81
Tabela 10 – Modelos - Resultados das Combinações. Fonte: Elaborado pelo autor. . . . 84


Lista de abreviaturas e siglas

AM - Aprendizado de Máquina

ANN - Artificial Neural Network

AB - AdaBoost

ACC - Accuracy

A-SUWO - Adaptive Semi-Unsupervisioned Weighted Oversampling

AUC - Area Under the ROC Curve

BBBC - Big Bang-Big Crunch

BFS - Best First Search

BSMOTE - Borderline Synthetic Minority Oversampling TEchnique

CC - ClusterCuntroids

CERT.br - Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no
Brasil

CFS - Correlation Based Feature Selection

CNN - Convolutional Neural Network

CNNID - Convolutional Neural Networks for Intrusion Detection

DDoS - Distributed Denial of Service

DJ - Decision Jungle

DT - Decision Tree

E - Especificidade

ENN - Edited Nearest Neighbor

ERR - Eliminação de Recurso Recursivo

ET - ExtraTrees

FCBF - Fast Correlation Based Filter for Feature Selection

FSA - Forward Selection Algorithm


GB - Gradient-Boosting

GH - Gametic Hereditica

GI - Gini Importance

GNB - Naive Bayes Gaussiano

GRU - Gated Recurrent Units

IA - Artificial Intelligence

IBK - Instance-based learning algorithms

IDS - Intrusion Detection System

J48DT - J48 Decision Tree

kNN - k Nearest Neighbor

LBFGS - Limited Broyden-Fletcher-Goldfarb-Shanno

LL - Log Loss

LSTM - Long Short Term Memory

MC - Matriz de Confusão

MDI - Feature Importance Measure

MI - Mutual Information

ML - Machine Learning

MLP - Multilayer Perceptron

MRMR - Maximum Relevance — Minimum Redundancy

MTL - Nonoidal T-Normal Basead Logic

NB - Naive Bayes

NI - Não Informado

NN - Neural Network

OSS - One-Sided Selection

P - Precision

PCA - Principal Component Analysis


PI - Permutation Importance

PPV - Positive Predictive Value

RF - Random Forest

RFE - Recursive Feature Elimination

RN - Neural Network

RNN - Recurrent Neural Networks

ROC - Receiver Operating Characteristic

RUS - Random under-sampling

S - Sensitivity

SA - Sem Aplicação

SAE - Sparse Auto-Encode

SMOTE - Synthetic Minority Over-sampling Technique

STL - Standard Template Library

SVM - Support Vector Machine

t-SNE - t-Distributed Stochastic Neighbor Embedding

UCI-MLR - UCI Machine Learning Repository

UMAP - Uniform Manifold Approximation and Projection

VSTG-MTL - Variable Selection and Task Grouping for Multi-Task Learning

VT - Vision Transformer

XB - eXtreme Gradient Boosting XGBoost


Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 17
2.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Trabalhos Correlatos - ano de 2019 . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Trabalhos Correlatos - ano de 2020 . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Trabalhos Correlatos - ano de 2021 . . . . . . . . . . . . . . . . . . . . . 28
2.1.4 Trabalhos Correlatos - ano de 2022 . . . . . . . . . . . . . . . . . . . . . 34
2.1.5 Trabalhos Correlatos - ano de 2023 . . . . . . . . . . . . . . . . . . . . . 38
2.2 Inclinações Extraídas dos Trabalhos . . . . . . . . . . . . . . . . . . . 43
2.2.1 Métricas de Desempenho Utilizadas nos Trabalhos Correlatos . . . . . . . . 48
2.2.2 Métricas de Desempenho Extraídas dos Trabalhos . . . . . . . . . . . . . . 50
2.2.3 Discussão dos Trabalhos em Aberto . . . . . . . . . . . . . . . . . . . . . 56
2.3 Sistema de Detecção de Intrusão . . . . . . . . . . . . . . . . . . . . 58
2.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.1 Regressão Logística (LR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.2 Máquinas de Vetores de Suporte (SVM) . . . . . . . . . . . . . . . . . . . 62
2.5.3 Random Forest (RF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.4 Decision Tree (DT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.5.5 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.5.6 Rede Neural Artificial (RNA) . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.6 Métodos de Balanceamento . . . . . . . . . . . . . . . . . . . . . . . 67
2.6.1 SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.6.2 SVMSMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.6.3 NearMiss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.6.4 SMOTEENN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.1 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2.1 Limpeza e Preparação dos Dados . . . . . . . . . . . . . . . . . . . . . . 75
3.2.2 Seleção de Características . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2.3 Hiperparâmetros e Validação Cruzada . . . . . . . . . . . . . . . . . . . . 78

4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 81


5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 92
5.1 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94


1 Introdução

Com o crescente número de informações armazenadas em computadores, houve um
expressivo aumento de ataques cibernéticos, provocando indisponibilidade de serviços de redes,
e roubo de ativos, resultando em sérios prejuízos para empresas e organizações.

Para realização destes ataques, surgem as varreduras (scan), que abrange, buscas
minuciosas em redes de computadores, força bruta de senhas, exploração de vulnerabilidades.
De acordo com o Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no
Brasil (CERT.br), de Janeiro a Dezembro de 2023 as notificações de ataques de Portscan
somaram 75,27% dos incidentes reportados no Brasil.

De acordo com Abdi et al. (2024), estes ataques estão tornando-se cada vez mais
sofisticados e difíceis de detectar. Por outro lado, para proteger as informações e manter
os dispositivos de rede disponíveis aos usuários, vêm surgindo vários estudos direcionados
ao processo de identificação de ataques, que utilizam conjuntos de dados pré-coletados de
ferramentas de detecção de intrusão, treinados com técnicas de AM para a identificação de
ações maliciosas.

Dentro deste contexto IDSs geram grande quantidade de alertas, sendo a maioria falsos
positivos, que podem induzir o sistema à se tornar menos eficaz ou inútil devido a identificação
de ameaças com muita frequência. Por outro lado, considera-se que a diminuição dos alertas
de falsos negativos seja o fator mais importante na detecção de intrusões na rede, por serem
ataques verdadeiros classificados como falsos, o que pode acarretar uma avaliação equivocada
dos resultados.

Desta forma, caso o número de falsos negativos apresentar uma quantidade elevada,
o acompanhamento pode ser impreciso. Logo, a Sensibilidade e F1-Score são métricas de
avaliação essenciais para este trabalho por apresentar alto contraste entre as classes com muitos
registros e outras com poucos registros (RAHMA et al., 2023).

Em solução a estes problemas são aplicadas diversas técnicas de diferentes combinações
que implicam em um melhor desempenho do modelo de AM para reconhecimento de verdadeiras
ameaças, que utilizam de tática para identificar e explorar vulnerabilidades na rede.

Entre essas melhorias surgem os métodos que trabalham com conjuntos de dados
desbalanceados, que podem ser classificados em duas categorias principais. A primeira categoria
trabalha ao nível de dados para equilibrar a quantidade das classes presentes no conjunto de
dados, sendo os mais comuns são oversampling e undersampling. A segunda categoria trabalha
modificando a classificação existente no algoritmo, aplicando penalidades quando a classificação
tende a classe majoritária (NGUYEN; COOPER; KAMEI, 2009).


15

Os métodos de oversampling e undersampling são utilizados quando existe uma distorção
nas distribuições das classes dos conjuntos de dados usados para treinamentos de modelos de
AM, problema que denominamos de classificação desbalanceada.

Também destaca-se um terceiro método ao nível de dados onde é aplicado a combinação
dos métodos de oversampling e undersampling nomeada de resampling (BAGUI; LI, 2021).

A classificação desbalanceada implica em resultados tendenciosos, ou seja, quando o
algoritmo treinado aprende demais sobre uma classe dominante do conjunto de dados, enquanto
negligencia todas as outras classes menores que contém baixas quantidade de dados, havendo
um sobreajuste da classe majoritária.

A problemática elencada no presente trabalho baseou-se para identificar quais combi-
nações de técnicas de balanceamento de dados podem ser trabalhadas buscando um melhor
modelo de AM, oversampling, undersampling ou a terceira abordagem híbrida que combina
ambas as abordagens anteriores nomeada resampling?

O Objetivo Geral da presente Dissertação foi analisar os impactos de custo compu-
tacional e desempenho nos erros de classificação pelo emprego combinado de algoritmos de
balanceamento de dados e de seleção de características aplicados a Detecção de Intrusão.

Os Objetivos Específicos foram os que se seguem:

• Realização de uma Revisão Sistemática na Literatura de forma com que fosse possível
compreender o estado-da-arte do tema estudado;

• De posse do estado-da-arte, a extração e análise das principais variáveis envolvidas nos
trabalhos correlatos, quais sejam: classificadores, conjuntos de dados, algoritmos de
balanceamento de dados e métodos de seleção de características;

• Quanto aos materiais e métodos: pré-processamento dos dados; classificação dos objetos
e análise dos resultados;

• Compilação dos resultados obtidos e;

• Análise, considerações e sugestões de pesquisas futuras;

Em Fundamentação Teórica (Capítulo 2), o trabalho resumiu-se no emprego de Revisão
Sistemática da Literatura (Seção 2.1) onde foram extraídos os dados relevantes dos trabalhos
correlatos obtidos na pesquisa. Em seguida na (Seção 2.2) são verificadas as principais inclinações
extraídas dos trabalhos. Logo após (Seção 2.3) são apresentados os conceitos relevantes para
compreensão de Sistema de Detecção de Intrusão, em sequencia (Seção 2.4) apresenta-se a
definição de Aprendizado de Máquina, os classificadores (Seção 2.5) utilizados nas predições
dos modelos propostos deste trabalho e por fim (Seção 2.6), mostram-se os conceitos dos
algoritmos de balanceamento das classes que foram aplicados no presente trabalho.


16

Já em Metodologia (Capítulo 3), pode-se verificar a descrição do processo de pesquisa
do trabalho empregada no conjunto de dados (Seção 3.1), o pré-processamento (limpeza e
preparação dos dados) e o processo utilizado para seleção das características dos dados no
conjunto de dados podem ser visto na (Seção 3.2). Em Resultados e Discussão (Capítulo
4) apresentam-se as combinações dos algoritmos para gerar modelos de AM e os resultados
parciais obtidos com os testes a partir do desempenho das combinações propostas. Por fim, em
Considerações Finais (Capítulo 5) contém a conclusão dos resultados obtidos do desempenho
do modelo proposto e as publicações durante a execução das disciplinas obrigatórias e do
desenvolvimento da Dissertação.

De acordo com Souza, Dias e Santos (2019), os métodos de pesquisa utilizados,
abordam os seguintes passos: Planejamento (formalização por meio de um protocolo), Con-
dução (identificação, seleção, extração e análise dos dados) e Apresentação dos Resultados
(sistematização dos dados).


2 Fundamentação Teórica

O presente capítulo tem por objetivo especificar os conceitos relevantes para compreen-
são de IDS e AM.

2.1 Revisão Sistemática da Literatura
A Revisão Sistemática da Literatura abrange o levantamento de trabalhos correlatos de

forma que o processo possa ser replicável por pesquisadores e estudantes. É um componente
de identificação, avaliação e interpretação de toda a pesquisa, ou área pesquisada. Kitchenham
e Charters (2007) destacam a importância da definição dos critérios de busca para que haja
uma análise ponderada em relação aos artigos que serão selecionados, também, possibilitando
que pesquisadores consigam dar continuidade ao segmento estudado.

Já Martins et al. (2013), descrevem a revisão sistemática da literatura, como a parte
do trabalho onde os estudos da pesquisa buscam incluir uma classificação empírica ou analítica,
também os métodos (teste, investigação, revisão) e técnicas que serão aplicadas.

Na mesma linha de pensamento, Lopes e Fracolli (2008), diz que entre as mais
importantes características da revisão sistemática estão: fontes de pesquisa abrangentes,
seleção dos primeiros estudos da pesquisa sob critérios aplicados de forma homogênea e
avaliação fundamentada da amostra. Também salienta, que o tratamento estatístico dado aos
resultados obtidos a partir de revisões sistemáticas é visto como meta-análise e vem sendo
amplamente utilizado por pesquisadores.

Biolchini et al. (2005) relata o procedimento como sendo uma forma de se obter
evidência na literatura capaz de justificar a própria pesquisa, que deve ser realizada após a
definição de uma formalidade de buscas e de uma metodologia geral.

Para Souza, Dias e Santos (2019), uma revisão sistemática deve considerar os seguintes
passos: estabelecer a técnica a ser utilizada na pesquisa, definir as palavras-chave encontrando
palavras e sinônimos que melhor possa definir o escopo do trabalho, definir a strings de busca
onde se possa fazer concatenação com o conector OR ou AND, definir as bases de busca e
fazer o refinamento da busca aplicando filtros.

A revisão sistemática obedeceu aos critérios de Souza, Dias e Santos (2019), conforme
se observa nas Figuras 1 e 3 ilustram os procedimentos usados.


18

Figura 1 – Metodologia do trabalho utilizada na revisão sistemática da literatura.

Fonte: Elaborado pelo autor

Detalham-se as etapas ilustradas na Figura 1 conforme segue:

1. Na primeira etapa (1) definiu-se em quais bases seriam feitas as pesquisas dos artigos.
As seguintes plataformas de trabalhos publicados foram utilizadas: IEEExplore1, ACM
Digital Library 2, SPRINGER3 e MDPI 4, também realizou-se pesquisas nas bases Scopus 5

obedecendo os mesmos critérios, mas obteve como retorno artigos repetidos que já tinham
sidos adicionados, então manteve-se apenas as quatro primeiras bases de pesquisas.

2. Logo em seguida, na etapa (2), buscou-se trabalhos com palavras contidas no título,
resumo e palavras-chave como “intrusion” e “imbalance” ou “oversampling” ou “under-
sampling”, além de limitar o intervalo de publicação entre o ano de 2019 até 2023 para
utilizar-se os trabalhos mais recentes neste estudo.

1 https://ieeexplore.ieee.org/
2 https://dl.acm.org/
3 https://rd.springer.com/
4 https://www.mdpi.com/
5 https://www.scopus.com/


19

3. Na terceira etapa (3), por meio de leitura dos resumos para verificar os trabalhos mais
importantes para pesquisa, definiram-se os critérios de exclusão e inclusão dos trabalhos
pesquisados, separando apenas aqueles que continham combinações de classificadores
e técnicas de balanceamento que melhoram os resultados após a aplicação visando a
classificação de detecção de ataques de intrusão, excluindo os que trabalhavam com
predição de defeitos em softwares, predições utilizando imagens.

4. Na etapa (4), contabilizou-se a contagem dos trabalhos para uma nova seleção, eliminando
os trabalhos repetidos.

5. Por fim na etapa (5), realizou-se nova seleção de forma que os trabalhos menos relevantes
que não faziam parte do foco da pesquisa, descartando-se após a leitura mantendo-se
somente os artigos que davam ênfase para os métodos e técnicas de balanceamento para
descoberta de ataques de intrusão. Manteve-se também aqueles que apresentavam uma
metodologia adequada e instrumentos de pesquisas voltados para o presente trabalho.

Na Figura 2 pode-se observar os trabalhos selecionados perante as plataformas de
pesquisas:

Figura 2 – Distribuição dos artigos obtidos pelo ano de publicação.

Fonte: Elaborado pelo autor


20

Com os trabalhos já selecionados e filtrados, procurou-se extrair os dados mais importantes
observando as tendências envolvidas nos artigos como:

• Tipo de algoritmo de AM usados como classificadores;
• Dados: os conjuntos de dados utilizados nos trabalhos selecionados;
• As técnicas de Feature Selection aplicadas ou sem nenhuma aplicação (NA) de

técnicas, ou não informado (NI) se foi aplicada alguma técnica para seleção de
características, limpeza dos dados e redução da dimensionalidade e otimização dos
dados;

• Quais técnicas/métodos foram usados para o balanceamento das classes: “oversam-
pling” ou/e “undersampling”.

• Quais métricas foram utilizadas pelos autores para avaliarem seus modelos e que
resultados atingiram, como Acurácia (ACC), Precisão (P), F1-Score(F1); Recall ou
Sensibilidade (S); e Detection Rate, por exemplo;

Para facilitar o entendimento do processo de Revisão Sistemática da Literatura, desde
início até a escolha dos trabalhos mais relevantes, a Figura 3 exibe um fluxograma do processo
adotado:

Figura 3 – Fluxo do procedimento realizado na Revisão Sistemática da Literatura.

Fonte: Elaborado pelo autor


21

Os artigos correlatos selecionados e resumidos para destacar os detalhes mais importantes
na pesquisa foram organizados da seguinte maneira:

As Tabelas 1, 2, 3 e 4 apresentam os trabalhos correlatos e os dados extraídos para os
anos de 2019, 2020, 2021, 2022 e 2023 podendo ser encontrados nas subseções 2.1.1, 2.1.2,
2.1.3 e 2.1.4 respectivamente.

2.1.1 Trabalhos Correlatos - ano de 2019
O artigo de Pang et al. (2019) tem como proposta um método de oversampling

para detecção de Malwares6, que agrupam ataques por características nominais, formando
assinaturas utilizadas para identificar instâncias maliciosas. O problema relatado pelos autores
é o desbalanceamento das classes causado pela classe normal ser dez por cento da classe
maliciosa. Desta forma, como solução os autores aplicam o BorderlineSMOTE7(BSMOTE)
para equilibrar as classes e usam o Support Vector Machine8(SVM) como classificador. Como
resultado os autores conseguiram atingir uma taxa de 89,83% com a métrica F1-Score.

O trabalho de Jimoh, Ismaila e Olalere (2019), visa implementar a técnica de SMOTE9

e utilizar AM para detecção de Botnet10. O classificador usado no trabalho foi o J48 Decision
Tree11 (J48DT) e o conjunto de dados CICIDS201712, segundo os autores, este conjunto possui
um desbalanceamento das classes de 99:1. Após a aplicação do SMOTE, eles conseguem uma
melhoria significativa na taxa de detecção com as métricas de avaliação de desempenho como
Curva Operacional dos Receptores (ROC), Acurácia, Sensibilidade, F-Measure, Precisão, Taxa
de Verdadeiros Positivos (TPR), Taxa de Falsos Positivos (FPR) e Coeficiente de Correlação
Mathews13 (MCC). Os autores comentam que devido a desigualdade das classes, o algoritmo
de treinamento pode encontrar dificuldade em identificar os dados considerados benignos,
podendo com isto aumentar a Taxa de Falsos Positivos. Outro apontamento feito pelos autores
é que a MCC, como medida de precisão, é uma das melhores abordagens para os dados de
desbalanceados. Os resultados mostraram-se satisfatórios com o uso do classificador J48DT
com a técnica SMOTE de forma que atingiram 99,95% de Acurácia.

No trabalho de Lu et al. (2019), a proposta tem como finalidade usar uma combinação
da técnica de oversampling SMOTE com a regra Edited Nearest Neighbor 14 (ENN) para
6 Qualquer software intencionalmente feito para causar danos a um computador, servidor, cliente, ou a uma

rede de computadores.
7 Algoritmo que é uma variante do SMOTE detecta as amostras limite para gerar novas amostras sintéticas.
8 Conjunto de métodos de aprendizagem supervisionada usados para classificação e regressão.
9 Técnica de sobreamostragem Minoritária Sintética proposto por Chawla et al. (2002).
10 Redes de terminais “escravos”, que vão de computadores e celulares a dispositivos da Internet das Coisas,

que hackers usam para cometer crimes dos mais diversos, de roubo de dados a ataques DDoS.
11 Algoritmo de Árvores de Decisão.
12 Conjunto de dados que compreende comportamento de tráfego de rede normal e de ataques conforme

Sharafaldin, Lashkari e Ghorbani (2019).
13 Medida de qualidade de duas classificações binárias.
14 Técnica de undersampling de dados.


22

resolver o desbalanceamento do conjunto de dados KDDCup’99 e classificar os ataques com
Random Forest15 (RF). Como resultado conseguem alcançar valores maiores de Precisão,
Sensibilidade e F1, atingindo 99% para as três métricas.

O método proposto por Phetlasy et al. (2019) para melhorar o reconhecimento do
tráfego malicioso detectando ataques no conjunto de dados NSL-KDD é de aplicar classificadores
sequenciais após o uso de SMOTE para equilíbrio das classes. Como resultado, os autores
obtiveram a taxa de Acurácia de 89,95% usando J48DT + MLP16 + SMOTE e 74,63% sem
balanceamento com os mesmos classificadores. Também atingiram uma Sensibilidade 84,60%,
Especificidade de 97,02% e a taxa de Falsos Negativos igual 1,97% com três classificadores
aplicados sequencialmente J48DT + MLP + IBK17 + SMOTE, contra 81,36% e 4,08%
respectivamente classificados sem métodos de oversampling. Desta forma concluem que a
combinação de três classificadores sequenciais juntamente com SMOTE podem reduzir falsos
negativos e melhorar a Sensibilidade e a Acurácia.

No estudo de Pristyanto e Dahlan (2019), os autores aplicam a técnica de resampling
utilizando a combinação dos algoritmos One-Sided Selection18 (OSS) e SMOTE, em dois
conjuntos de dados públicos do repositório UCI Machine Learning Repository para testes
de performance de comparação em classificações de detecção de ataques de phishing19. Os
classificadores utilizados no trabalho são Decision Tree20 (DT), k-Nearest-Neighbor 21 (kNN),
Redes Neurais Artificiais22 (ANN) e SVM com os dados divididos na proporção de 80% para
treino e 20% para testes tanto para classificação binária quanto para multiclasses. Como
resultado, atingem um aumento satisfatório com as métricas de avaliação de Acurácia (96,26%)
e G-Mean23 (96,26%) usando ANN + SMOTE + OSS, com os dados originais apenas 95,91%
e 95,88% respectivamente no primeiro conjunto de dados. Já no segundo conjunto a Acurácia
obteve (92,87%) e G-Mean (94,64%) como o classificador DT, com os dados originais somente
88,82% e 90,35% na devida ordem.

O trabalho de Tan et al. (2019), tem como proposta usar o classificador RF com a
técnica de SMOTE para identificar ataques de invasão no conjunto de dados KDDCup’9924.
Os autores relatam que atingiram uma Acurácia de 92,39% sem o método de oversampling, já
15 Algoritmo de árvore de decisão.
16 Rede neural convolucional.
17 Proposto por Aha, Kibler e Albert (1991) o algoritmo IBK (Instance-based learning algorithms) e um

algoritmo do tipo K-Nearest Neighbors (kNN)
18 Técnica de undersampling proposto por Kubat, Matwin et al. (1997).
19 Crime de enganar as pessoas para compartilharem informações confidenciais como senhas e número de

cartões de crédito.
20 Algoritmo de aprendizagem supervisionado não paramétrico, utilizado para tarefas de classificação e

regressão.
21 Algoritmo de aprendizagem supervisionada usado no campo de Data Mining e Machine Learning.
22 Técnicas computacionais que apresentam um modelo matemático inspirado na estrutura neural.
23 A média de sensibilidade e especificidade que mede o desempenho geral do algoritmo de aprendizagem.
24 Conjunto de dados usado para a Terceira Competição Internacional de Descoberta de Conhecimento e

Ferramentas de Mineração de Dados.


23

com SMOTE atingiram 92,57%, superando até a classificação de outros classificadores como
LibSVM25, Naive Bayes26.

Na Tabela 1 estão organizados os principais detalhes extraídos dos artigos publicados
no ano de 2019.

As Tabelas 1, 2, 3, 4 e 5 estão organizadas da seguinte forma:

• Artigo - O trabalho que se refere os dados;

• Dados - Os conjuntos de dados usados no artigo;

• Classificador - Os classificadores usados no artigo;

• Técnica - A técnica de balanceamento dos dados aplicadas no trabalho;

• SC - A técnica de seleção de característica aplicadas no trabalho (NI - Não Informada,
NA - Não Aplicada);

• Métricas - As métricas utilizadas para avaliação do modelo proposto no trabalho.

Tabela 1 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano
de 2019. Fonte: Elaborado pelo autor.

Artigo Dados Classificador Técnica SC Métricas
Pang et al.
(2019)

Próprio SVM BSMOTE NI AUC; F1;
G-Mean

Jimoh, Ismaila
e Olalere
(2019)

CICIDS2017 J48DT SMOTE NI ACC; AUC;
F1; P; S;

Lu et al.
(2019)

KDDCup99 RF SMOTEENN NI F1; P; S

Phetlasy et al.
(2019)

NSL-KDD J48DT; MLP;
IBK

SMOTE NI ACC; E; S

Pristyanto
e Dahlan
(2019)

UCI-MLR kNN; SVM;
ANN; DT

SMOTE+OSS NA ACC;
G-Mean

Tan et al.
(2019)

KDDCup99 RF SMOTE NA ACC; AUC

25 Bibliotecas de aprendizagem de máquinas de código aberto.
26 Classificador probabilístico baseado no ”Teorema de Bayes”.


24

2.1.2 Trabalhos Correlatos - ano de 2020
A presente subseção descreve os trabalhos relacionados obtidos por meio de Pesquisa

de Revisão Sistemática da Literatura para o ano de 2020.

A proposta de Prayogo e Karimah (2020) apresenta uma abordagem para classificar
ataques de phishing utilizando a aplicação de SMOTE para resolver o desequilíbrio das classes.
O conjunto de dados utilizado no estudo abrange 11.055 instâncias com 30 características
disponibilizado pela UCI Machine Learning Repository. No trabalho, os autores informam que é
feito uma seleção de características reduzindo de 30 para 12, mas não esclarecem o método
utilizado para escolha. O classificador aplicado foi o kNN com k=5, e as métricas utilizadas para
avaliação do modelo são a Matriz de Confusão, Acurácia, Precisão, Sensibilidade e F-Measure.
Os resultados encontrados pelos autores apontam que neste caso, kNN com SMOTE consegue
atingir uma Acurácia de 97,47%, Precisão 97,50%, Sensibilidade 97,50% e F1-Score de 97,50%,
melhorando efetivamente a classificação em comparação com os dados originais.

Já no trabalho de Alfrhan, Alhusain e Khan (2020), fizeram uso a ferramenta Azure
Microsoft Machine Learning Studio para aplicar os algoritmos de AM (NB, RF, kNN e SVM)
e fazer a classificação e identificação de ataques no conjunto de dados CICIDS2017. Como
o conjunto de dados possui um grande desbalanceamento das classes, aplicam a técnica de
SMOTE, para resolver o problema e comparar os resultados. O trabalho é dividido em duas
etapas: na primeira são realizados os testes com os algoritmos de AM sem o uso do SMOTE.
Já na segunda etapa aplicam o SMOTE e logo após comparam os resultados obtidos com as
métricas de Precisão, Sensibilidade e F1-Score e Curva Roc (ROC). Nos resultado, observam
melhorias com todas as métricas de avaliação utilizadas no trabalho atingindo taxas de 100%
de reconhecimento de ataques, sendo que o algoritmo SVM teve o melhor desempenho. Com os
dados originais os resultados foram 98,20%, 99,10% e 100% respectivamente com as mesmas
métricas. Os autores também ressaltam a afirmação que a medida F1-Score é a melhor avaliação
quando se trabalha com o conjunto de dados desbalanceados.

O trabalho de Sun et al. (2020), visa como proposta de balanceamento de dados o
método de oversampling para igualar a quantidade de dados de tráfego benigno e de ataques
existentes nos conjuntos de dados UNSW-NB1527 e CICIDS-201828. Apontam que existem
dois desafios-chave em detecção de intrusão no mundo real, dados desbalanceados onde a
maioria dos dados é composto de tráfego normal e fluxo provindo de diferentes terminais
de rede. Como solução, apresentam um método em que aplicam vários algoritmos de AM:
Support Vector Machine (SVM), Decision Tree29 (DT), k-Nearest Neighbor (kNN) e AdaBoost
(AB) e três algoritmos MTL (monoidal t-norm based logic30). Logo após, aplicam o algoritmo
27 Conjunto de dados de ataques de rede criado pelo Centro Australiano de Segurança Cibernética.
28 Conjunto de dados de ataques de rede criado pelo Instituto Canadense de Segurança Cibernética.
29 Algoritmo de árvore de decisão.
30 Algoritmos que utilizam funções chamadas de t-normas para possíveis interpretações de conjunção lógica.


25

Standard Template Library 31(STL) para comparação. Para o desbalanceamento dos dados
aplicam o SMOTE juntamente com o A-SUWO32 e para verificação dos resultados fazem uso
das métricas F1-Score, Taxa de Falsos Negativos (FNR) e Taxa de Falsos Positivos (FPR). Os
resultados mostraram que o VSTG-MTL e FSP-VSTG-MTL com SMOTE têm os melhores
métodos desempenho para detecção de intrusão atingindo F1-Score 77,58%; FNR 9,95%; FPR
56,52%.

No artigo de Pawlicki et al. (2020), a proposta é avaliar formas de equilibrar a quantidade
de dados benignos e de ataques para utilizar classificadores de AM como Rede Neural Artificial
(RNA), Random Forest e um classificador Naive Bayes em aplicações de cibersegurança.
Segundo os autores, os testes realizados com os métodos de undersampling (NearMiss33;
TomekLinks34; ClusterCentroids35(CC) e RandomUnderSampler36 (RUS)) juntamente com
o conjunto de dados CICIDS2017, alcançaram resultados ótimos ou melhores do que os de
oversampling, equiparando ao mesmo nível que o método de BSMOTE. A média da Acurácia
para detecção de ataques com RF+RUS usando até 1.174 instâncias por classe atingiu 96,57%
e com até 7.141 instâncias 98,72% respectivamente. Também afirmaram que existe uma ligação
forte entre o tamanho da classe majoritária, a Precisão e o Sensibilidade apresentada pelo
número de amostras falsamente classificadas como da classe minoritárias.

A proposta de Pan e Xie (2020), baseia-se em fazer uma classificação de ataques
de intrusão com o algoritmo XGBoost37(XGB) e compará-la com os algoritmos de Support
Vector Machine, Random Forest. Para a preparação dos dados usando o conjunto de dados
KDDCup’99, os autores utilizam-se PCA38 para selecionar as características e diminuir a
redundância dos dados. Para resolver o problema do balanceamento dos dados no conjunto
de dados utilizam a aplicação de ADASYN39. Os resultados apontados pelos autores mostrou
que é possível reduzir a taxa de Falsos Positivos (FPR) do modelo de detecção das amostras
minoritárias e otimizar a taxa F1-Score. As taxas de FPR do modelo proposto para amostras
minoritárias classificando ataques de R2L e U2R foram de 17,3% e 19,7%, e a métrica F1
alcançou 90,10% e 84,50% com o classificador XGB.

Os autores Zhang, Zhang e Li (2020), usaram em seu trabalho o algoritmo ReliefF40

juntamente com BSMOTE, e como classificador utilizaram três tipos diferentes de algoritmos
combinados, kNN, NB e C4.541. O conjunto de dados selecionado para o trabalho foi o
31 Algoritmo usado para aplicar ruído gaussiano aditivo centrado em zero.
32 Método de oversampling Adaptive Semi-Unsupervisioned Weighted Oversampling.
33 Algoritmos de undersampling tem como função eliminar aleatoriamente amostras da classe majoritária.
34 Algoritmo de undersampling para classificação desbalanceada.
35 Técnica de undersampling que geram um novo conjunto baseado em centróides por métodos de agrupamento.
36 Algoritmo de subamostragem aleatória (RUS)
37 Algoritmo de AM, baseado em árvore de decisão que utiliza uma estrutura de Gradient boosting.
38 Principal Component Analysis método de seleção de características.
39 Método de oversampling Oversample using Adaptive Synthetic .
40 Algoritmo para seleção de features.
41 Algoritmo utilizado para criar uma árvore de decisão.


26

NSL-KDD. Os resultados experimentais apresentaram um bom desempenho no conjunto e
atingiram uma melhora considerável da Acurácia com a combinação de kNN com C4.5 atingindo
99,89%, 99,91%, 99,89%, 99,96% e 99,98% para as classes Normal, DoS, R2L, Probe e U2R,
respectivamente. A métrica F1 usando a mesma combinação, obteve a atuação de 99,90%,
99,88%, 97,67%, 99,79% e 98,69%, também respectivamente para as mesmas classes testadas,
apresentando superioridade para com as outras combinações do trabalho.

Engly, Larsen e Meng (2020), tem como proposta utilizar AM para identificar ataques no
conjunto de dados NSL-KDD. Desta forma, os autores realizaram experimentos com RF, ANN
e Gradient-Boosting Machines42(GB). Para ajustar o desequilíbrio das classes usam o SMOTE
e para reduzir as features utilizam-se de métodos de seleção de características como Correlation
Based Feature Selection43 (CFS), Fast Correlation-based Filter 44 (FCBF) e seleção baseada
na consistência. Como resultado de seus experimentos, afirmam que o melhor desempenho
alcançado foi usando Ensemble Boosting com duas redes neurais e GB, atingindo uma taxa
de Acurácia de 81% e F1-Score de 68%, uma melhoria de 10% e 24% respectivamente, em
comparação com o treinamento do modelo no conjunto de dados original.

Os autores Gonzalez-Cuautle et al. (2020), citam em seu artigo que AM tem melhorado
as práticas clássicas de detecção de intrusão, mas que os dados demasiadamente desbalanceados
gerados pelos Sistemas de Detecção de Intrusão (IDS) podem produzir resultados tendenciosos
em relação a classe majoritária (Overfitting) 45. Como solução apresentam uma proposta da
aplicação da técnica de SMOTE para ajustes em dois conjuntos de dados (CIDDS-00146 e
ISCX-Bot-201447), logo após fazem a divisão de (80-20) para treino e teste respectivamente.
Prosseguem realizando a extração das features mais pontuadas com PCA e classificam os
dados com k-Nearest-Neighbor (kNN); Support Vector Machine; Logistic Regression48 (LR);
Decision Trees (DT); e Random Forest . Nos resultados, concluem que, ao testar vários
classificadores juntamente com a técnica SMOTE e a otimização de parâmetros Limited Broyden-
Fletcher-Goldfarb-Shanno49 (LBFGS) foram fatores essenciais para conseguirem desempenhos
satisfatórios na classificação. Os autores citam que em comparação com outras abordagens
que utilizaram os mesmos conjunto de algoritmos na literatura, o modelo proposto por eles
atingiram melhores resultados. O conjunto de algoritmos, SMOTE + LBFGS apresenta a
seguinte Acurácia com respectivos algoritmos de AM: kNN 98,72%, SVM 97,35%, LR 97,89%,
DT 98,65%, e RF 98,84%. Também a Característica Operacional do Receptor (ROC) para o
42 Algoritmo de AM, baseado em árvore de decisão
43 Algoritmo de estratégia de busca heurística.
44 Método de seleção de características.
45 Termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto

de dados
46 Conjunto de dados de avaliação para sistemas de detecção de intrusão de rede baseados em anomalias

criado pela Universidade de Coburgo na Alemanha.
47 Conjunto de dados de ataque fornecido pelo Instituto Canadense de Segurança Cibernética com 16 tipos

diferentes de botnets.
48 Modelo estatístico usado para determinar a probabilidade de um evento acontecer.
49 Algoritmo de otimização para obter melhores resultados com classificadores.


27

subconjunto balanceado CIDDS-001 obteve 99,58% com kNN e para subconjunto balanceado
ISCX-Bot-2014 atingiu 96,26% com RF.

Karatas, Demir e Sahingoz (2020) realizam primeiramente a análise de seis conjuntos
de dados para escolherem qual utilizar em seu trabalho, logo após ao escolherem o conjunto
de dados CICIDS2018 por ser mais atualizado, aplicam a técnica SMOTE, classificando os
dados com seis classificadores individualmente (GB, Análise Discriminante Linear50 (LDA),
kNN, RF, DT e AB) e comparam com os resultados aplicados no conjunto de dados original.
Os resultados mostram que as taxas de detecção obtiveram um aumento substancial de 4,01%
e 30,59% em comparação com os dados originais. As melhores pontuações de Acurácia foram
para AB 99.99% na identificação das classes de ataques (Botnet, DoS, Brute Force) e 100%
em (SQLInject); RF 99.99% nas classes de ataques (DoS, Brute Force e SQLInject); kNN
100% na identificação de (SQLInject) e GB 99.99% em (DoS) e 100% para (SQLInject).

Tabela 2 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano
de 2020. Fonte: Elaborado pelo autor.

Artigo Dados Classificador Técnica SC Métricas
Prayogo e Ka-
rimah (2020)

UCI-MLR kNN SMOTE NI ACC; F1;
P; S

Alfrhan, Alhu-
sain e Khan
(2020)

CICIDS2017 DF; DJ; SVM SMOTE NI AUC; F1; S

Sun et al.
(2020)

UNSW-
NB15;
CICIDS2018

SVM; DT;
kNN; AB;
VSTG-MTL

SMOTE;
A-SUWO

NI F1; FNR;
FPR

Pawlicki et al.
(2020)

CICIDS2017 RNA; RF; NB NearMiss; RU;
TomekLinks;
CC; BSMOTE

NA ACC; F1;
P; S

Pan e Xie
(2020)

KDDCUP99 XGB; SVM; RF ADASYN PCA F1; FPR

Zhang, Zhang
e Li (2020)

NSL-KDD kNN; C4.5; NB BSMOTE ReliefF F1; P; S;
FPR; ACC;
G-Mean

Engly, Lar-
sen e Meng
(2020)

NSL-KDD RF; ANN; GB SMOTE CFS;
FCBF

ACC; F1;
P; S

50 Método usado em estatística e outros campos, para encontrar uma combinação linear de recursos que
caracteriza duas ou mais classes de objetos, ou eventos.


28

Tabela 2 – Continuação.

Gonzalez-
Cuautle et al.
(2020)

CIDDS-001;
ISCX-Bot-
2014

kNN; SVM; LR;
DT; RF

SMOTE PCA ACC; AUC;
F1; P; S

Karatas, De-
mir e Sahin-
goz (2020)

CICIDS2018 kNN; RF; GB;
AB; DT; LDA;

SMOTE NA ACC; F1;
P; S

Tabela 2 – Fim.

2.1.3 Trabalhos Correlatos - ano de 2021
Os autores Mohseni e Tanha (2021), afirmam em seu trabalho que o desbalanceamento

dos dados das classes benigna e de ataques gerados pelos IDSs, dificultam o trabalho de
classificação correta dos algoritmos tradicionais que tentam descobrir características na classe
minoritária. Também citam, que a técnica de undersampling se ajusta melhor do que a de
oversampling que leva ao sobreajustamento dos dados. Desta forma, fazem uma proposta de
agrupamento (clustering) baseada em densidade, depois aplicam a técnica para balanceamento
RUSBoost Classifier51 no conjunto de dados CICIDS2017. Usando 20000 exemplos, realizam a
seleção de características com PCA para reduzir de 83 para 30 features e aplicam o classificador
RF com os dados nas proporções (1:15, 1:25, 1:50, e 1:100). Como melhor resultado, atingem
99% de G-Mean e 99,70% Acurácia na proporção de (1:15).

No trabalho de Anh et al. (2021), a proposta é a construção de um novo conjunto
de dados de intrusão baseado no CICIDS-2017 para resolver o desbalanceamento das classes.
Para isto fazem uso do simulador GNS352 e ferramentas de ataques, os autores produziram um
tráfico de dados com as mesmas características do CICIDS-2017. Neste modelo de proposta,
eles aumentam o tráfego malicioso para 40% dos dados originais e assim resolveram o problema
de desbalanceamento das classes. Após a criação do conjunto de dados, os autores realizam uma
limpeza dividindo os dados em treino e testes numa proporção 80% para treino e 20% para testes.
Os classificadores usados são o kNN com k=5, AdaBoost, Random Forest, Redes Neurais
(Multilayer Perceptron53) MLP, convolutional neural network (CNNID), Long Short-Term
Memory 54(LSTM) e testam seus modelos com as métricas de Acurácia, Precisão, Sensibilidade
e F1-Score calculados a partir da Matriz de Confusão. Os resultados conseguidos pelos autores
mostram uma melhora em relação ao conjunto de dados original, atingindo 99% de Acurácia,
F1-Score e Sensibilidade, com o classificador RF.

A proposta de Szczepanski et al. (2021), investiga o impacto dos métodos que fazem o
51 Algoritmo para lidar com problemas de desequilíbrio de classe em dados com rótulos de classe discretos.
52 Simulador de redes, que emula diversos equipamentos de uma rede.
53 Rede neural com uma ou mais camadas ocultas.
54 Rede neural recorrente capaz de aprender a dependência da ordem de aprendizagem.


29

balanceamento de dados equilibrando as classes no conjunto de dados. Para isto, os autores
utilizam o conjunto de dados IoT-2355 e aplicam SMOTE como método de oversampling,
Random Under-Sampling56 (RUS) para undersampling e SMOTEENN57 como resampling e
assim realizar uma comparação entre elas. Logo em seguida, realizam a classificação por meio
de uma Rede Neural Artificial (ANN) de duas camadas e finalizam utilizando as métricas
de Acurácia, Precisão e Sensibilidade para verificação dos resultados. Segundo os autores,
embora o modelo treinado com o conjunto de dados desbalanceado tenha alcançado uma
Acurácia superior, não garante que o resultado esteja corretamente classificado pelo algoritmo,
isto acontece em uma situação com grandes discrepâncias entre as quantidades de amostras,
caracterizando ser uma métrica muito enganosa (Overfitting). Observando as outras métricas,
torna-se claro que praticamente classificou todas as amostras como benignas. Os resultados
obtidos com a Acurácia foram 99% com os dados originais, 91% aplicando os métodos de
oversampling, também 91% com undersampling e 97% com o método híbrido SMOTEENN.

O artigo de Wang e Septian (2021), tem como proposta uma combinação de algoritmos
de Deep Learning Neural Networks58 baseados em Long short-term memory (LSTM) com
técnicas de SMOTE para detecção de intrusão nos conjuntos de dados CICIDS-2017 e CICIDS-
2018. Após a limpeza dos dados, os autores realizam a seleção de características a partir de
árvores de decisão com Oracle-explainer59 avaliando os recursos selecionados com LIME60 e a
aplicação de SMOTE para equilibrar os dados. Em seguida, dividem os dados em 80% para
treino e 20% para testes, classificando-os com Redes Neurais Recorrentes (RNNs) e LSTM
em busca de melhores resultados. Segundo os autores, o método de oversampling melhora o
desempenho da detecção de intrusão tanto para o AM como para métodos de Aprendizagem
Profunda. Nos resultados, os autores obtiveram melhor desempenho com o conjunto de dados
CICIDS-2017 e LSTM atingindo F1-Score de 98,90%, já com CICIDS-2018 usando as mesmas
técnicas conseguiram uma pontuação F1-Score de 98,80%.

No trabalho de Alshamy et al. (2021), a proposta tem como base a aplicação dos
classificadores RF, AB, LR, e SVM no conjunto de dados NSL-KDD para verificar a melhor
atuação entre os algoritmos. Devido à desigualdade da quantidade de dados das classes, os
autores aplicaram a técnica SMOTE. Como resultado, na classificação binária alcançaram a
Acurácia de 99,89%, 99,26%, 99,13%, e 97,26% respectivamente. Na classificação multiclasses
os resultados foram 99,88%, 99,82%, 87,23% e 75,86% também respectivamente com os
mesmos classificadores e a mesma métrica. Os autores consideram que o modelo proposto por
eles obteve excelentes resultados em comparação com outros encontrados na literatura, tanto
55 Conjunto de dados de tráfego de rede de dispositivos da Internet das Coisas (IoT).
56 Método de undersampling que escolhe aleatoriamente amostras com ou sem reposição.
57 Combina a abordagem de oversampling do SMOTE com undersampling de Edited Nearest Neighbors.
58 Algoritmo que utiliza técnica de inteligência artificial conhecida como Aprendizado Profundo.
59 Informa quais dados devem ser usados para calcular a Zona de Eficiência ou módulo de Comparação de

Vizinhos e fornece maneiras de melhorar ou corrigir os recursos utilizados.
60 Efetua a interpretação dos dados na tomada de decisão dos modelos de algoritmos de AM.


30

para classificação binária como para multiclasses.

Já os autores Al-Imran e Ripon (2021), utilizam o conjunto de dados Kyoto Honeypot61

com a proposta de melhorar a identificação de intrusão usando classificadores de Deep Learning.
Fazendo uma minuciosa preparação dos dados, os pesquisadores realizam a limpeza, indexação
dos dados categóricos, normalização e discretização atribuindo uma etiqueta a cada valor
numérico para manter uma relação ordenada e melhorar o desempenho do modelo. Na seleção
de características, fazem uso do algoritmo MRMR (Minimum Redundancy Maximum Rele-
vance62.), reduzindo de 24 para 19 características. Em seguida, equilibram as classes aplicando
SMOTETomek63 que combina a técnica de oversampling com a de undersampling e separam
os dados em 70% para treino e 30% para testes. Segundo os autores, os melhores classificadores
foram o algoritmo XGBoost que atingiu Acurácia de 99,08% e RF, que também atingiu uma
Sensibilidade de 98,65%, sendo superiores aos outros classificadores, apesar dos modelos de
redes neurais, LSTM e Gated Recurrent Unit64(GRU) também conseguiram bons resultados.

Wang et al. (2021), realizam uma combinação de Sparse Auto-Encoder 65 (SAE) para
extração da features e RF para classificação de ataques de detecção de intrusão. Para uma
melhora nos resultados, aplica-se a técnica de ADASYN ajustando o desbalanceamento dos
dados no conjunto de dados de referência NSL-KDD. A divisão para treino é teste adotada é
de 80% e 20% respectivamente, feita após a limpeza e normalização nos dados. Para avaliar
os resultados, os autores comparam com vários métodos de AM comumente utilizados na
literatura como Naive Bayesian, Support Vector Machine, Decision Tree e k-Nearest Neighbor.
Os resultados mostraram que o modelo proposto pelos autores usando SAE e RF atingiram
99,80%, 99,78%, 99,77%, 99,77% de Precisão, F1, Acurácia e Sensibilidade respectivamente,
seguido dos classificadores kNN, DT, SVM e NB que obtiveram resultados de ao menos 2
pontos percentuais abaixo.

No artigo de Seth, Singh e Chahal (2021), a proposta é classificar ataques de intrusão
selecionando as características com uma abordagem híbrida utilizando PCA e RF. O conjunto de
dados usado no trabalho foi o CICIDS-2018 que possui 80 features, e um alto desbalanceamento
das classes. Nesta proposta, os autores reduziram as features para 24 e solucionaram o problema
de desbalanceamento com a técnica de IsolationForest66 com método de undersampling a um
nível aceitável. Na etapa de classificação foi utilizado cinco algoritmos de AM, porém o que
apresentou melhores resultados foi o LightGBM67 com uma taxa de Acurácia de 97%, Precisão
99% e uma taxa de Sensibilidade de 96% com uma baixa latência de previsão. O modelo
proposto pelos autores aumentou 1,5% na taxa de Acurácia e 3% na Precisão em relação aos
61 Conjunto de dados de tráfego de rede dos Honeypots da Universidade de Kyoto.
62 Método de seleção de características Relevância máxima - Redundância mínima.
63 Técnica que combina o SMOTE e Tomek Links.
64 Visa resolver o problema da dissipação do gradiente comum em uma rede neural recorrente padrão.
65 Tipo de rede profunda que pode ser usada para a redução da dimensionalidade.
66 Algoritmo para detecção de anomalias de dados desenvolvido inicialmente por Fei Tony Liu em 2008.
67 Uma estrutura de reforço de gradiente que utiliza algoritmos de aprendizagem baseados em árvores.


31

outros classificadores testados no trabalho.

Os autores Chen, Zhou e Yu (2021), relatam que os conjuntos de dados de detecção de
intrusão são propensos a um baixo desempenho de classificação devido ao desbalanceamento das
classes de ataques e normal. Desta forma, sugerem o uso de ADASYN e RF para classificação
no conjunto de dados CICIDS2017. Os resultados apresentados nos experimentos mostraram
uma melhoria, com as métricas de Precisão de 98,50%, Sensibilidade de 92,30%, F1-Score
de 95,30 e valores de AUC de 98,78% após o uso de ADASYN, comparando com SMOTE
que obteve 98,39%, 91,72%, 94,94% e 99,74% com as mesmas métricas respectivamente. A
combinação de RF+ADASYN também se mostrou superior a técnica RUS e para com os dados
originais.

No trabalho de Chindove e Brown (2021), os autores afirmam que devido ao tamanho e à
aplicabilidade dos conjuntos de dados de detecção de intrusão, as técnicas de AM são essenciais
para classificação do tráfego de redes. Diante deste fator, eles avaliam os conjuntos de dados
CICIDS2017 e CICIDS2018, com as técnicas de seleção de features Gini Importance68 (GI),
Permutation Importance69 (PI) e PCA e os classificadores MLP, SVM, KNN, DT, RF e Rede
Neural Recorrente (RNN), juntamente com SMOTE. Os melhores resultados, apresentaram as
taxas de F1-Score de 73% com a combinação RNN + PI e 87% com RF + PI, aplicado no
conjunto de dados CICIDS2017. Já no CICIDS2018 as taxas com F1-Score foram de 73% e
72%, utilizando respectivamente as mesmas combinações.

O trabalho de Bagui e Li (2021), afirma que a utilização de dados desbalanceados
para classificar ataques com Redes Neurais Artificiais é um grande desafio, devido a enorme
influência da classe majoritária, especialmente em classificação de multiclasses. Os autores
também relatam em seus estudos que a técnica de oversampling tende a aumentar o tempo
de treinamento e a de undersampling tende a diminuir, já resampling quase não impacta no
tempo de treinamento e também detecta mais dados da classe minoritária. O modelo proposto
por eles é a aplicação de combinações das técnicas de undersampling e oversampling em seis
conjuntos de dados com cinco técnicas de reamostragens diferentes e classificá-los com Rede
Neural Artificial (ANN). Os autores concluíram em seus experimentos, que para os conjuntos
de dados que possuem um grande desbalanceamento de classes a técnica de resampling é
a mais adequada para ser aplicada, mas em conjuntos com um baixo desbalanceamento de
classes a melhora é pouco significativa. A técnica RURO70 foi a que teve o melhor desempenho
para identificação de dados da classe minoritária, apesar da diferença para com as técnicas de
RU-SMOTE71 e RU-ADASYN72 serem mínimas. A métrica de Sensibilidade Macro de RURO
no conjunto de dados KDD’99 foi a mais alta atingindo 96%, enquanto a Sensibilidade Macro
68 O coeficiente de Gini mede a desigualdade entre os valores de uma distribuição de frequência.
69 Técnica que mede a contribuição de cada recurso para o desempenho estatístico de um modelo.
70 Técnia de resampling que utiliza subamostragem aleatória com técnica de sobreamostragem aleatória.
71 Técnica de resampling que utiliza subamostragem aleatória com técnica de sobreamostragem minoritária

sintética.
72 Técnica de resampling que utiliza subamostragem aleatória com método de amostragem sintética adaptativa.


32

de RU-SMOTE e RU-ADAYSN ficou em 95,59%, já com RU o valor foi de 90,5% mostrando-se
inferior aos outros métodos de resampling, mas muito melhor do que com os dados originais
sem aplicações de técnicas de balanceamento com 73% de Sensibilidade.

Já no trabalho de Varunram et al. (2021), a proposta considera uma classificação binária
de ataques DDoS73 no conjunto de dados CICIDS2017, com os algoritmos kNN, AB, SVM,
LR, RF, RNN e NB juntamente com SMOTE. Também são aplicadas três técnicas de redução
e seleção de características PCA, t-SNE74 e UMAP75. Logo após, fazem uma comparação
dos resultados, para descobrir qual classificador e técnica de redução de dimensionalidade
combinadas apresentam melhor performance em AM. No trabalho proposto, a Precisão média
dos modelos com a aplicação das técnicas de redução de dimensionalidade aumentou entre
4,01% e 30,59% respectivamente. A combinação que apresentou melhor desempenho foi kNN
com Acurácia, Precisão, Sensibilidade e F1 de 99,98%, nos dados reduzidos do t-SNE. Quanto
ao tempo gasto de treino, observaram que kNN e RF se destacam dos demais, com apenas 3
minutos cada.

O estudo de Sapre, Islam e Ahmadi (2021) apresenta uma proposta para classificar dois
tipos de ataques de intrusão: root-to-local76 (R2L) e user-to-root77 (U2R) no conjunto de dados
NSL-KDD. Dentro da ideia, utilizam oversampling com Generative Adversarial Networks78

(GAN), oversampling com kNN e undersampling com NearMiss para balancear os dados e
verificarem os resultados da classificação feita com Redes Neurais Artificiais. Os resultados
mostraram que os melhores desempenhos apresentados para ataques U2R e R2L com a métrica
F1-Score de 11% e 22%, respectivamente foram com os dados originais sem modificação. Já a
classificação utilizando oversampling baseado em GAN conseguiu a maior taxa de Sensibilidade
atingindo 94% na classificação da classe U2R. E o uso de undersampling com NearMiss obteve
a melhor Sensibilidade para com a classe R2L atingindo 18%.

O artigo de Tauscher et al. (2021) propõem uma classificação binária no conjunto de
dados NSL-KDD com vários classificadores (DT, RF, NB, SVM, AB, GB, MLP e Autoencoder
com 3 camadas e 15 neurônios), balanceando os dados com SVM-SMOTE79. Os resultados
mostraram que o classificador SVM atingiu a melhor Precisão com 97,56%, GB a melhor
Sensibilidade com 95.13% e Autoencoder produz a melhor Acurácia e F1-Score com 87,52% e
88,48% respectivamente.

O trabalho de Jui et al. (2021) baseia-se na aplicação de AM utilizando combinações
de técnicas de pré-processamento, seleção de características, oversampling, undersampling e
73 Ataques de negação de serviço distribuído.
74 Algoritmo de aprendizado de máquina usado para visualização e também para redução de dimensionalidade.
75 Técnica de redução de dimensionalidade baseada em gráficos, introduzida em 2018 por Leland McInnes.
76 Ataque para obter acesso não autorizado a uma máquina vítima na rede.
77 Ataque para obter ilegalmente os privilégios de root ao acessar legalmente uma máquina local.
78 Classe de estruturas de AM com uma estrutura proeminente para abordar a IA generativa.
79 Variante do algoritmo SMOTE que utiliza um algoritmo SVM


33

de algoritmos de classificação, nos conjunto de dados MQTT-IoT-IDS-202080 e NSL-KDD.
Primeiramente, aplicam a normalização dos dados, já em uma segunda etapa aplicam SMOTE
e undersampling. Na terceira etapa utilizam a seleção de recursos com Best First Search81(BFS)
e Genetic Search82. Por fim, realizam a classificação com os algoritmos NB, Bagging, AdaBoost,
J48 e RF. Nas diversas combinações aplicadas concluíram que para o conjunto de dados
MQTT-IoT-IDS-2020, o algoritmo AdaBoost juntamente com BFS para técnica de seleção
de recursos e J48 como algoritmo de classificação apresentam o melhor desempenho (99,86%
de Acurácia em 2,81 segundos). Já para o conjunto de dados NSL-KDD, as combinações
de oversampling, Bagging e Genetic Search apresentam o melhor desempenho (84,35% de
Acurácia em 0,32 segundo).

Tabela 3 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano
de 2021. Fonte: Elaborado pelo autor.

Artigo Dados Classificador Técnica SC Métricas
Mohseni
e Tanha
(2021)

CICIDS2017 RF RUSBoost PCA ACC;
G-Mean

Anh et al.
(2021)

CICIDS2017 kNN; AB;
RF; MLP;
CNNID; LSTM

Própria NI ACC;
F1; S

Szczepanski
et al. (2021)

IoT-23 ANN SMOTE; RUS;
SMOTEENN

NA ACC;
P; S

Wang e Sep-
tian (2021)

CICIDS2017;
CICIDS2018

RNNs;
LSTM

SMOTE Oracle-
explainer

ACC; P;
S; F1

Alshamy et
al. (2021)

NSL-KDD RF; SVM;
LR; AB

SMOTE NA ACC; F1;
P; S

Al-Imran
e Ripon
(2021)

Kyoto 2013 RF; XGB;
LSTM; GRU

SMOTETomek MRMR ACC; F1;
MCC; P; S

Wang et al.
(2021)

NSL-KDD RF ADASYN SAE ACC; F1;
P; S

Seth, Singh
e Chahal
(2021)

CICIDS2018 RF; ET; XGB;
GB; KNN;
LightGBM

IF PCA; RF ACC;
P; S

80 Conforme Hindy et al. (2020), é um conjunto de dados com base no protocolo Message Queuing Telemetry
Transport (MQTT) usado para comunicação de dispositivos IoT.

81 Método de seleção de recurso que pesquisa o espaço do subconjunto de recursos usando escalada gananciosa.
82 Método que realiza uma pesquisa simples dos atributos usando um algoritmo genético.


34

Tabela 3 – Continuação.

Chen, Zhou
e Yu (2021)

CICIDS2017 RF ADASYN;
SMOTE; RUS

NI AUC; F1;
P; S

Chindove
e Brown
(2021)

CICIDS2017;
CICIDS2018

MLP; SVM;
KNN; DT; RF;
RNN

SMOTE GI; PI;
PCA

ACC; F1;
P; S

Bagui e Li
(2021)

KDD99;
UNSW-NB15;
UNSW-NB17;
UNSW-NB18

ANN SMOTE;
RU-SMOTE;
ADASYN;
RU-ADAYSN;
RU; RO; RURO

NA F1; P; S

Varunram et
al. (2021)

CICIDS2017 RF; kNN; AB;
LR; SVM;
ANN; NB

SMOTE PCA;
t-SNE;
UMAP

ACC; F1;
P; S

Sapre, Islam
e Ahmadi
(2021)

NSL-KDD RNA GAN; kNN
(Oversampling);
NearMiss

NA S

Tauscher et
al. (2021)

NSL-KDD DT; RF; NB;
SVM; AB; GB;
MLP

SVM-SMOTE NA ACC;
F1; S

Jui et al.
(2021)

MQTT-IoT-
IDS-2020;
NSL-KDD

NB; AB; J48;
RF

SMOTE BFS ACC

Tabela 3 – Fim.

2.1.4 Trabalhos Correlatos - ano de 2022
Na proposta de Nagpal, Kaushal e Sharma (2022), a identificação de ataques de

detecção de intrusão baseia-se em usar o classificador SVM de modo otimizado juntamente com
o Big Bang-Big Crunch83 (BBBC), aplicando uma redução de features e fusão de características
com Information Gain84 e Chisquare85, que mostra uma relação entre duas variáveis categóricas,
mantendo apenas as características mais importantes do conjunto de dados. Por meio desta
combinação de algoritmos de redução de dimensionalidade, os autores as reduzem de 41 para
27 features e conduzem as experiências com criação de quatro conjuntos de dados diferentes,
a partir do conjunto de dados KDDCUP99. Logo após, aplicam undersampling, oversampling e
resampling, com e sem redução de features, avaliando-os. Segundo os autores, os melhores
83 Método de otimização que se baseia em uma das teorias da evolução do universo foi proposto por Erol e

Eksin (2006).
84 Técnica de seleção de características que calcula a redução da entropia.
85 Técnicas de seleção de características.


35

resultados foram atingidos com SVM, BBBC e a técnica de oversampling com a Acurácia
de 97% e uma taxa de identificação de verdeiros positivos da classe de ataques tipo Probe86

de 99,92% e para classe Normal de 99%, porem com baixas taxas de identificação de Falsos
Positivos.

No trabalho de Gu et al. (2022) é realizada uma classificação de ataques de intrusão
por meio de uma Rede Neural Convolutiva (CNN) e um algoritmo chamado CenterBoder-
line_SMOTE (CB_SMOTE), para resolver o problema de limitação de ataques. O método
CB_SMOTE proposto pelos autores, baseia-se na ideia do BSMOTE que os autores consideram
o que melhor desempenha a função para uma boa classificação. A diferença do CB_SMOTE
para o BSMOTE segue apenas na escolha dos dados da região de bordas, que são ampliados a
partir do limite do conjunto de dados. Os autores nomearam o modelo proposto de Sistema
de Detecção de Intrusão e Expansão (DEIDS). Os dados utilizados no estudo foram dois
conjuntos de dados de controle industrial o SWaT (Sistema de Tratamento de Água Segura) e
o S7, que simula a mineração e refino reais do processo industrial contendo ciberataques. Os
autores também, relataram que conseguiram alcançar uma taxa média de Acurácia de 98,29%
com o conjunto S7 e 98,88% com SWaT e uma taxa de detecção de 95% e 97% de acertos
respectivamente.

A proposta de Rani et al. (2022) propõem como solução para o desbalanceamento das
classes dos conjuntos de dados NSL-KDD e UNSW-NB15 utilizar o classificador de Rede Neural
aplicando penalidades por meio de pesos quando o algoritmo se comporta de modo tendencioso
à classe majoritária. Os autores comparam a performance deste modelo com outros métodos já
tradicionais de oversampling (SMOTE) e undersampling (Clustering Centroids), encontrados
na literatura. Como resultado, concluíram que a técnica SMOTE produziu melhores resultados
do que o método (Clustering Centroids), atingindo a pontuação de 85% e 91% e a medida de
AUC de 94% e 97% para NSL-KDD e UNSW-NB15, respectivamente. Os autores recomendam
que para trabalhos futuros poderão ser aplicadas técnicas de redução de dimensionalidade
como uma melhoria do modelo proposto por eles.

O trabalho de Lee, Kim e Choi (2022) tem como proposta testar vários métodos
de oversampling (BSMOTE, ROS, SMOTE e ADASYN) aplicados isoladamente e também
combinados com OSS, utilizando o conjunto de dados CICIDS2017. Na seleção de características
os autores removem 8 recursos que contém os mesmos valores (’Bwd PSH Flags’, ’Bwd URG
Flags’, ’Fwd Byts/b Avg’, ’Fwd Pkts/b Avg’, ’Fwd Blk Rate Avg’, ’Bwd Byts/b Avg’, ’ Bwd
Pkts/b Avg’, ’Bwd Blk Rate Avg’). Para a classificação utilizam CNN e avaliam o desempenho,
com as métricas de Acurácia, Precisão, Sensibilidade e F1-Score com base nos quatro indicadores
da matriz de confusão (TP, FP, FN, TN). Em conclusão, observaram que apesar dos métodos
de oversampling apresentar uma melhora de 3,98% na classificação em média, o método
86 Tipo de ataque onde um dispositivo envia muitos pacotes de autenticação diferentes, com a intensão de

sobrecarregar o ponto de acesso vítima do ataque, de modo a forçar uma reinicialização do dispositivo.


36

híbrido de OSS+BSMOTE atingiu o melhor desempenho com 94,58% de Acurácia, 94,58%
com F1-Score (micro), e 91,36% com F1-Score (macro).

Na proposta de Abedzadeh e Jacobs (2022) os autores dividem os dados em treino
e teste e logo após realizam a limpeza dos dados e uma seleção de características híbrida
com Forward Selection Algorithm87(FSA) e PCA diminuindo de 79 para 8 features o conjunto
de dados CICIDS2018. Na segunda etapa aplicam os algoritmos Markov Chain Monte Carlos
(MCMC) e GAN como técnicas de oversampling para analisar a atuação dos modelos. Na
terceira etapa, já com os dados balanceados, fazem uma classificação binária aplicando um
conjunto de algoritmos (Linear Regression, Lasso, Ridge, ElasticNet, LR, Gaussian Naïve Bayes,
Nearest Centroid, NN). Os resultados mostraram que o MCMC e GAN não apresentou melhoras
em comparação com a aplicação nos dados originais. Os melhores desempenhos foram obtidos
com LR e NN aplicado no conjunto de dados original. Também relatam que a LR gera um
custo computacional menor, atingindo a Acurácia de 88%, Precisão de 88% e Sensibilidade de
99%.

Neste artigo os autores Surya e Selvam (2022) procuram classificar ataques de intrusão
no conjunto de dados IoTID2088 utilizando AM. Para seleção de características removeram
9 colunas com zero de entradas. Neste contexto, utilizam cinco algoritmos para classificação
binária (Gaussian Naive Bayes (GNB), LR, DT, kNN e RF) e três para uma classificação
multiclasses (GNB, DT, RF), aplicando SMOTE para balanceamento dos dados. Nos resultados
da classificação binária atingem a Acurácia de 92.03% tanto para DT, como para RF, Precisão
de 99%, Sensibilidade de 100% com GNB e F1-Score de 92% utilizando DT e RF. Já na
classificação multiclasses os melhores resultados foram a Acurácia de 90,25% com DT e a
métrica de Precisão e Sensibilidade alcançando 100% com os três classificadores para com a
classe de Scan89.

Na proposta de Abdulkareem et al. (2022) os autores propõem uma classificação
com Ensemble Stack usando DT, NB, LR para detecção de intrusão. Para o problema de
desbalanceamento do conjunto de dados Bot-IoT90 aplicam a técnica de SMOTE testando o
desempenho de 11 categorias de ataques, divididos em 80% para treino e 20% para testes,
no qual apenas 3 das 43 características do conjunto são descartadas por serem especificas do
dispositivo que coletou os dados. Para avaliar o desempenho utilizam as métricas de Acurácia,
Precisão, Sensibilidade, Especificidade, Pontuação F1, Taxa de Falso Positivos, Taxa de Falso
Negativos, Especificidade e o tempo de treino e teste, com e sem SMOTE. Nos resultados,
o SMOTE-Stack superou outros classificadores de última geração em todas as 11 categorias
de ataques, porém o tempo de treino e teste aumentou devido a aplicação de oversampling.
87 Tipo de regressão passo a passo que começa com um modelo vazio e adiciona variáveis uma por uma

fornecendo melhoria ao modelo.
88 Conjunto de dados desenvolvido para detecção de ameaças no ecossistema da Internet.
89 Técnica comum que os hackers usam para descobrir portas abertas ou pontos fracos em uma rede.
90 Conjunto de dados criado através da concepção de um ambiente de rede realista no Cyber Range Lab da

UNSW Canberra.


37

As métricas de Acurácia, F1, Precisão e Sensibilidade atingiram 100%, 100%, 99% e 99%
respectivamente.

Com o objetivo de construir um modelo de detecção de intrusão baseado no balancea-
mento de dados e seleção de recursos, o trabalho de Sun et al. (2022) aplica uma metodologia
híbrida utilizando as técnicas RUS (undersampling), seguida de BSMOTE (oversampling) no
conjunto de dados CICIDS2017. Logo em seguida, dividem os dados em treino e teste (70-30) e
realizam uma seleção de características baseada em Information Gain, separando os resultados
em 6 grupos de dados contendo as seguintes quantidades de recursos (4, 22, 36, 62, 70 e 78)
a partir do mais pontuado para o menos pontuado. Na etapa seguinte classificaram os dados
com os algoritmos kNN, DT, RF. A partir dos resultados concluem que ao utilizarem o grupo
com 62 características atingem a melhor taxa de Sensibilidade de 96% com DT, melhorando
principalmente o reconhecimento de ataques de Web Attack Brute Force utilizando qualquer
dos três algoritmos.

Tabela 4 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano
de 2022. Fonte: Elaborado pelo autor.

Artigo Dados Classificador Técnica SC Métricas
Nagpal,
Kaushal
e Sharma
(2022)

KDDCUP99 SVM undersampling ;
oversampling ;
resampling

IG; Chis-
quare

ACC; F1; P;
S;

Gu et al.
(2022)

SWaT; S7 CNN CB_SMOTE
(oversampling)

NI; ACC; F1;
P; S; FNR;
FPR

Rani et al.
(2022)

NSL-KDD;
UNSW-NB15

NN SMOTE; CC NA; ACC; AUC;
F1; P;

Lee, Kim e
Choi (2022)

CICIDS2017 CNN BS;ROS;
SMOTE;
ADASYN;OSS

Próprio ACC; F1; P;
S

Abedzadeh
e Jacobs
(2022)

CICIDS2018 Linear Regres-
sion; Lasso;
Ridge; Elas-
ticNet; LR;
NB; Nearest
Centroid; NN

SMOTE FSA; PCA P; S

Surya e Sel-
vam (2022)

IoTID20 Ensemble
Stack (DT,
NB, LR)

SMOTE Próprio ACC; F1; P;
S


38

Tabela 4 – Continuação.

Abdulkareem
et al.
(2022)

Bot-IoT Ensemble
Stack (GNB;
LR; DT; kNN;
RF)

SMOTE Próprio ACC; E; F1;
P; S; FNR;
FPR

Sun et al.
(2022)

CICIDS2017 kNN; DT; RF BS; RUS IG S

Tabela 4 – Fim.

2.1.5 Trabalhos Correlatos - ano de 2023
O estudo de Xiang, Xu e Tang (2023) explora os algoritmos de oversampling Random

Over Sampling91 (ROS) e SMOTE em várias proporções de desbalanceamento que podem
impactar na classificação utilizando CNN, Vision Transformer 92 (VT), XGBoost e CatBoost no
conjunto de dados CICIDS-2017. Os resultados apontaram que o classificador VT juntamente
com SMOTE obteve a melhor performance atingindo com Sensibilidade, Precisão, F2-Score
e AUC de 99,10%, 97,23%, 97,52% e 99,42% respectivamente. Concluíram também que o
uso da técnica ROS, quando aplicado em uma taxa de desbalanceamento de 99:1 aumenta a
AUC dos algoritmos de classificação utilizados nos experimentos. Complementam ainda que à
medida que o desequilíbrio aumenta, a Acurácia dos quatro classificadores diminui, resultando
em uma diminuição na métrica F2-Score93 o que implica que o aumento das amostras melhora
a capacidade de aprendizado do modelo.

Para os autores Verma et al. (2023) a presença de dados com classes desbalanceadas
representam um grande desafio para sistemas de detecção de intrusão, dentro deste contexto, os
autores propõem uma abordagem de classificação binária no conjunto de dados UNSW-NB15,
selecionando as características com PCA e aplicando oversampling baseado na utilização da
técnica Gametic Hereditical(GH), algoritmo inspirado em princípios da biologia genética para
equilibrar classes em aplicações de segurança cibernética em sistemas IoT. Para classificação
utilizam os algoritmos RF, kNN, LR, SVM, DT e validam a eficácia do modelo com as métricas
de Acurácia, Sensibilidade e F1-Score atingindo o desempenho de 97,70%, 99,10% e 98,10%
respectivamente com RF. Os autores afirmam que o modelo proposto garante a propagação
de amostras sintéticas que se encontram dentro dos limites da classe minoritária, superando
os métodos convencionais nos valores das métricas em 6% para Acurácia, 8% para taxa de
Sensibilidade e 7% para F1-Score.

Os autores de Dasari et al. (2023) sugerem um modelo de Ensemble com uso de
91 Método de sobreamostragem aleatória usado para equilibrar a distribuição de classes multiplicando aleatori-

amente as amostras de rótulos de classes minoritárias.
92 Mecanismo para analisar imagens, dividindo-as em fragmentos menores e aproveitando mecanismos de

autoatenção conforme Dosovitskiy et al. (2020).
93 Métrica utilizada para diminuir a importância da Precisão e aumentar a importância da Sensibilidade.


39

Machine Learning Analytics94 utilizando RF, XGB e comparam com classificadores únicos NB,
DT e kNN. Para preparação do modelo realizam uma seleção de características utilizando
Relevância Mínima de Redundância Máxima (MRMR) e para o balanceamento dos dados
no conjunto de dados KDDCUP99 aplicam SMOTE, após converter os dados para uma
classificação binária. Para validação do modelo utilizam a métricas de Acurácia e F1-Score
conseguindo um desempenho de 98,09% e 97,89% respectivamente. Também afirmam que o
modelo proposto quando comparado com outras abordagens de Ensemble com Extra Trees
(ET) possui maior rapidez de classificação, proporcionando um melhor desempenho.

Visando o problema de dados de intrusão desbalanceados, o trabalho de Wang et
al. (2023) tem como proposta um método de oversampling chamado RB-SMOTE, que
utiliza BSMOTE como base aplicando uma camada de refinamento por meio de Rede Neural
Convolucional (CNN) de oito camadas para classificação. Os autores utilizam o conjunto de
dados NSL-KDD, no qual verificam as dimensões dos dados para converte-los em imagens
descobrindo semelhanças do mesmo tipo de dado e assim aplicam penalizações em regiões que
podem melhorar a representação dos recursos. Comparando os resultados com outros métodos
como RF + BSMOTE que atingiu 93,53% e SMOTEENN + CNN com 99,35% de Acurácia,
mostraram que o método proposto por eles apresentou um bom desempenho atingindo 99,84%
com mesma métrica.

O trabalho de Madwanna et al. (2023) tem como proposta uma classificação com dois
modelos de Deep Learning para detecção de intrusão. O primeiro baseia-se na utilização de
CNN juntamente com RNN aplicando LuNet95 para classificar dados de tráfego de entrada
extraindo dados temporais. No segundo modelo utilizam o método Temporal Neighborhood
Coding96 (TNC) com CNN para calcular características temporais de baixo nível e logo após,
esses recursos alimentam uma RNN para obter os recursos temporais de alto nível realizando
uma classificação unificada de captura das informações. Os conjuntos de dados utilizados são
UNSW-NB15 e NSL-KDD aplicando SMOTE para o balancear as classes. A validação dos
modelos propostos é realizada por meio de uma comparação com outros modelos selecionados
na literatura. Os resultados mostraram que o primeiro modelo proposto alcançou 82,19% e
98,87% de Acurácia na classificação de ataques nos conjuntos UNSW-NB15 e NSL-KDD,
respectivamente. No segundo modelo alcançou 98,87% de Acurácia usando o conjunto de
dados NSL-KDD. A melhor Acurácia nos modelos utilizados para comparação foi de 82,20%
com aplicação de SVM e AdaBoost para o balanceamento dos dados.

Com o intuito de classificar ataques de intrusão de forma binária no conjunto de dados
UNSW-NB15, os autores Mouiti et al. (2023) utilizam ADASYN para lidar com o desequilíbrio
das classes e aplicam os classificadores LR, RF, DT e Multilayer Perceptron (MLP) com e
94 Processo analítico de avaliação de dados e descoberta de insights para tomada de decisões.
95 Múltiplos níveis de convolução combinados e sub-redes recorrentes.
96 Codificação de Vizinhança Temporal, aproveita a suavidade local do processo gerador de um sinal para

definir vizinhanças no tempo com propriedades estacionárias.


40

sem ajustes de hiperparâmetros para uma comparação. Dentro deste cenário, afirmam que o
não ajuste dos hirperparâmetros e a não aplicação da validação cruzada implica a um modelo
impreciso com um elevado viés (underfitting) ou alta variância (overfitting) e ainda provoca um
aumento no tempo de treinamento. Como resultado, verificam que o desempenho do modelo
proposto melhoram a classificação, principalmente para o uso de RF, superando 98% para
com as métricas de Acurácia, Precisão, Sensibilidade, F1 e AUC; Logo após, o DT, variando
entre 94% para Sensibilidade e 96% para Precisão; LR, entre 86% para o Sensibilidade e 96%
para o AUC; e MLP, atingindo entre 89% e 97% para as taxas de Sensibilidade e a AUC,
respectivamente.

O artigo de Gou, Zhang e Zhang (2023), propõem uma classificação de ataques
utilizando Ensemble Bagging com os algoritmos RF, ET, XGB e LightGBM nos conjuntos
de dados CICIDS-2017 e Car-Hacking97. Devido ao desbalanceamento dos conjuntos usam
as técnicas de SMOTE+ RUS e ROS+RUS para solucionar o problema de desequilíbrio
das classes e também aplicam PCA reduzindo os 78 atributos do CICIDS2017 para 27. No
dataset Car-Hacking evitam a seleção de recursos por possuir apenas 8 recursos. Os resultados
mostraram que na classificação do conjunto de dados CICIDS2017 usando a combinação híbrida
de SMOTE e RUS o modelo atinge 96,65% de F1 e no conjunto Car-Hacking 99,99% com a
mesma métrica. Os autores relatam que o modelo proposto por eles pode proporcionar uma
melhoria de 6,8% na pontuação F1 comparado com os dados originais. Outras métricas como
Sensibilidade, Acurácia e Precisão também foram aplicadas na classificação de ambos conjuntos
de dados e tendo como resultados 99,99% quando aplicado no conjunto Car-Hacking e 96,65%,
94,90% e 96,65% respectivamente no CICIDS2017.

A proposta dos autores Jin et al. (2023) visa a classificação com os algoritmos CNN
e LSTM para ataques de intrusão. Para resolver o desbalanceamento do conjunto de dados
utilizado no trabalho, que foi originado do tráfego da rede de um sistema de controle de
armazenamento de água da província de Hebei98, aplicam SMOTE. Na validação dos resultados
os autores comparam o modelo com outros que aplicam RF, DT, SVM e LR. Com isso,
percebem que após a aplicação de SMOTE a detecção de ataques (classe minoritária) obteve
uma melhora significativa. Na aplicação de forma multiclasses, a Acurácia do modelo proposto
atingiu 97,04%, a Precisão 97,17%, F1 97,03% e a taxa de falsos negativos foi de 2,95%. Já
na classificação binária a Acurácia foi de 99,30% e a taxa de falsos negativos de 0,7%. Em
comparação com os modelos propostos, DT obteve a segunda melhor Acurácia com 95,43%,
F1 com 94,39% e taxa de falsos negativos de 4,57%. O classificador RF atingiu segunda melhor
Precisão com 94,98%.

No trabalho de Rahma et al. (2023) os autores afirmam que o desbalanceamento
das classes tem sido um problema decisivo em sistemas de detecção de intrusão por serem
97 Conjunto de dados fornecido e coletado durante o Car Hacking: Attack & Defense Challenge em 2020.
98 Província da República Popular da China.


41

tendenciosos para a classe majoritária. Desta forma, exploram em seu trabalho várias técnicas
de oversampling e undersampling (Random Over Sampling, SMOTE, ADASYN, Random
Under Sampling, AllKNN99, TomekLinks, SMOTEENN e SMOTETomek) para melhorarem
a detecção de ataques usando a técnica de aprendizado profundo combinando Rede Neural
Convolucional e LSTM Bidirecional (BiLSTM). Os resultados apontaram que com os dados
brutos a pontuação de Acurácia obteve o melhor resultado atingindo 96,50%. Mas utilizando o
método Random Over Sampling conseguem a maior pontuação F1 com 58,95%. Em conclusão
relatam que as técnicas de undersampling e oversampling podem melhorar o desempenho de
IDS de forma singular, mas ainda precisam ser aprimorados. O conjunto de dados utilizado nos
experimentos foi UNSW-NB15.

O estudo de Gavrylenko, Vladislav e Khatsko (2023) visa melhorar a qualidade da
classificação dos dados desbalanceados no conjunto de dados UNSW-NB15. Diante de vá-
rias abordagens de balanceamento de dados como SMOTEENN, SVM-SMOTE, BSMOTE,
ADASYN, SMOTE, KMeansSMOTE100 testadas pelos autores, o SMOTEENN foi a que atingiu
a melhor performance, destacando-se com uma pontuação F1 de 94% juntamente com os
classificadores Gradient Boosting ou Random Forest. Segundo os autores, em comparação com
a classificação aplicada nos dados originais usando a mesma métrica atingiu apenas 61%.

Os autores Bagui et al. (2023) citam em seu trabalho que apesar do aumento dos
ataques nas redes de computadores crescerem frequentemente, a porcentagem desses ataques
no tráfego real da rede é significativamente menor, formando conjuntos de dados altamente
desbalanceados. Em solução utilizam de undersampling e oversampling nos dados e vice-versa,
com as técnicas BSMOTE e SVM-SMOTE e RUS no conjunto de dados UNSW-NB15 para
observarem a melhor porcentagem para ser aplicada nos dados. Devido a Acurácia ser uma
métrica tendenciosa para classes com mais dados, os autores utilizam a Precisão, Sensibilidade,
F1 para avaliar os modelos. Após uma seleção de características com Information Gain, a
classificação se realiza com algoritmo kNN, testando os valores de k = 3, 5 e 10. Em conclusão
notam que usando uma sobreamostragem de 10% tanto com BSMOTE ou SVM-SMOTE
seguidos da subamostragem com RUS alcançam os melhores resultados e também relatam que
para classes mais raras, o uso de kNN com k mais alto levou a um aumento nas porcentagens
dos resultados de resampling. Com o método de oversampling SVM-SMOTE seguido do
método de undersampling RUS e classificando kNN com k = 10 atingiram a Precisão 91,40%,
Sensibilidade de 95,70%, F1 de 93,50% e Macro precisão de 95,70% e com BSMOTE seguido
de RUS alcançaram 96,80%, 94,40%, 95,60%, 98,40% respectivamente, classificando ataques
de Backdoors.101.

Na proposta de Mohammadi e Babagoli (2023), o objetivo é a detecção de ataques de
99 Técnica de undersampling derivação de Edited Nearest Neighbours proposto por Tomek (1976).
100 Técnica de oversampling baseado em agrupamento k-means juntamente com a técnica SMOTE.
101 Tipo de ataque onde um mecanismo de segurança do sistema é contornado de forma indetectável para

acessar um computador.


42

Brute force, Infiltration, Botnet e Portscan baseado em modelagem de regressão não linear
utilizando o conjunto de dados CICIDS2017. No pré-processamento, o algoritmo SMOTETomek
é utilizado para o balanceamento dos dados e na seleção dos recursos os algoritmos meta-
heurísticos Gray Wolf 102 e Hunger Games Search (HGS)103, que removeu mais de 80% dos
recursos do conjunto de dados classificando-os com irrelevante. Em sequência realizam uma
classificação binária com Regressão Logística. Os resultados apontaram para uma melhor
atuação do algoritmo híbrido HGS em comparação aos resultados nos trabalhos relacionados,
obtendo uma taxa média de Acurácia de 99,17% contra a média de 94,61% dos trabalhos
relacionados.

Tabela 5 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano
de 2023. Fonte: Elaborado pelo autor.

Artigo Dados Classificador Técnica SC Métricas
Xiang, Xu e
Tang (2023)

CICIDS2017 CNN; VT; XGB;
CatBoost

ROS; SMOTE; NA AUC; F2;
P; S

Verma et al.
(2023)

UNSW-NB15 RF; kNN; LR;
SVM; DT

GH PCA ACC; F1;
S

Dasari et al.
(2023)

KDD99 RF, XGB ROS; SMOTE MRMR ACC; F1

Wang et al.
(2023)

NSL-KDD RF; CNN; RB-SMOTE; BS;
SMOTEENN

Correlação ACC

Madwanna
et al. (2023)

UNSW-NB15;
NSL-KDD

RNN; CNN;
SVM; AB

BS; RBSMOTE NA ACC

Mouiti et al.
(2023)

UNSW-NB15 LR; RF; DT;
MLP

ADASYN NA ACC;
AUC; F1;
P; S

Gou, Zhang
e Zhang
(2023)

CICIDS2017 RF; ET; XGB;
LightGBM

SMOTE; ROS;
RUS

PCA ACC; F1;
P; S

Jin et al.
(2023)

Próprio (He-
bei)

CNN; LSTM SMOTE NA ACC; F1;
FNR; P; S

Rahma et al.
(2023)

UNSW-NB15 CNN; LSTM ROS,SMOTE;
ADASYN;RUS;
AllKNN;Tomek;
SMOTEENN;
SMOTETomek

NA ACC; F1;
S

102 Técnica meta-heurística estocástica de inteligência de enxame, desenvolvida em 2014, cuja ideia é baseada
no modelo de caça em bando dos lobos cinzentos.

103 Algoritmo projetado conforme as atividades motivadas pela fome e a escolha comportamental dos animais.


43

Tabela 5 – Continuação.

Gavrylenko,
Vladislav
e Khatsko
(2023)

UNSW-NB15 Ensemble; GB;
RF

SVMSMOTE;BS;
ADASYN;
SMOTE; KMe-
ansSMOTE;
SMOTEENN

NA F1;

Bagui et al.
(2023)

UNSW-NB15 kNN SVM-SMOTE;
BS; RUS

IG F1; P; S

Mohammadi
e Babagoli
(2023)

CICIDS2017 LR SMOTETomek Gray
Wolf ;
HGS

ACC

Tabela 5 – Fim.

2.2 Inclinações Extraídas dos Trabalhos
Uma análise dos conjuntos de dados, classificadores, métodos de seleção de caracte-

rísticas, técnicas de balanceamento de dados aplicadas e métricas de avaliações, permitem
uma visualização das inclinações mais utilizadas empregadas na presente pesquisa. A Figura
4 apresenta os cinco conjuntos de dados mais utilizados por quantidade e ano a ano, nos
trabalhos selecionados nesta pesquisa:

Figura 4 – Conjuntos de dados extraídos nos trabalhos selecionados - visualização ano a ano.

Fonte: Elaborado pelo autor.


44

Observa-se, que o conjunto de dados CICIDS2017 aparece presente nos trabalhos dos
anos de 2019 até 2023, tendo uma expressiva representação nos artigos selecionados, somando
um total de 14 repetições. Já CICIDS2018 apesar de contabilizar 6 trabalhos não aparece nos
anos de 2019 e 2023.

Nota-se que o conjunto de dados UNSW-NB15, obteve um crescimento expressivo em
2023, porém em 2019 não foi encontrado em nenhum trabalho selecionado, contabilizando um
total de 9 trabalhos.

Também representativos no gráfico apresentam-se o NSL-KDD com 11 aparições e
o KDDCup99 com 6 ambos representados de 2019 até 2023 nos papers da pesquisa, mas
possuem dados obsoletos se comparados aos demais, por se tratar de conjuntos de dados com
mais de duas décadas, não contendo ataques mais recentes como Ransomware104 e com muita
publicações existentes. No entanto, cabe ressaltar que embora eles sejam antigos, são muito
usados ainda, pois permitem comparar desempenhos atuais com desempenho passados.

Neste sentido, pode-se dizer que quanto mais novos os dados de ataques nos conjuntos
de dados, mais viáveis para construção de um modelo de classificação eficaz, por conter
tanto ataques e vulnerabilidades do cenário atual, quanto também tráfego normal de redes,
compatíveis com os dispositivos atualizados.

Segundo Khraisat et al. (2019), que pesquisaram a eficiência de vários conjuntos de
dados de IDS usados para as técnicas de AM, relatam que diversas abordagens foram utilizadas
para detecção de ataques de dia zero, mas estas técnicas apresentam problemas para gerar e
atualizar estes dados, fazendo produzir alarmes falsos ou apresentarem uma baixa Acurácia em
suas classificações. Complementam ainda, que como as atividades normais estão modificando
frequentemente perdem sua precisão com o tempo, o que torna necessário que AM utilize
conjunto de dados novos e mais abrangentes.

É importante ressaltar que em alguns trabalhos selecionados na pesquisa, os autores
utilizaram mais de um conjunto dados para seus experimentos, o que também foi contabilizado
na contagem apresentada na Figura 4.

A Figura 5 ilustra os classificadores utilizados por ano extraídos dos trabalhos selecio-
nados na pesquisa. Trata-se dos cinco classificadores com mais utilização ao longo dos anos,
ficando visível um grande uso de Random Forest (RF), que aparece em enorme quantidade em
2021 contabilizando 11 vezes e totalizando 26 de 2019 a 2023.

Percebe-se também, uma grande utilização de Rede Neurais (NN) principalmente no
ano de 2021 somando 9 trabalhos. Mas não se pode deixar de considerar o uso de Máquinas de
Vetores de Suporte (SVM), embora tenha apresentado queda em 2022 que aprece em apenas
1 trabalho, porém somando 13 representações em todo o período de 2019 a 2023, igualmente
104 Tipo de código malicioso que torna inacessíveis os dados armazenados em um equipamento, geralmente

usando criptografia.


45

Decison Tree (DT) também com 13 representações aparecendo em todos os anos da pesquisa.
E por fim, k-Nearest Neighbor (kNN) que aprece em 5 trabalhos no ano de 2020 e 14 no
período de 2019 a 2023. Esses dados podem ajudar a entender os classificadores escolhidos nos
anos de 2019 a 2023 para trabalhar juntamente com técnicas de balanceamento dos dados em
conjunto de dados de intrusão.

É importante evidenciar que em alguns trabalhos selecionados na pesquisa, os autores
utilizaram mais de um classificador, o que também foi contabilizado na contagem apresentada
na Figura 5.

Outro fator observado nos trabalhos, é que alguns autores associaram classificadores,
aplicando-os sequencialmente para conseguir atingir uma melhor performance, RF é um exemplo
disso sendo citado em vários trabalhos que foram selecionados.

No artigo de Sun et al. (2020), a proposta pretende aplicar o algoritmo de classificação
individualmente para cada classe detectada pelo ataque do IDS105, tanto nos conjuntos de
dados UNSW-NB15 como no CICIDS-2018 e logo após aplicam a média dos resultados de
cada métrica por classe de ataque antes e depois da aplicação da técnica de SMOTE para uma
comparação dos resultados.

Figura 5 – Classificadores utilizados nos artigos correlatos.

Fonte: Elaborado pelo autor.

A Figura 6 apresenta as 5 técnicas mais aplicadas nos trabalhos correlatos, pode-se
observar que a técnica SMOTE é utilizada na maioria dos trabalhos correlatos para tratar o
105 Sistema de detecção de intrusão.


46

desbalanceamento das classes nos conjuntos de dados, totalizando 26 trabalhos. Com isto,
nota-se que mais da metade dos trabalhos aplicaram a técnica de SMOTE para equilibrar as
classes ou para validar o modelo proposto, fazendo comparações.

Também, aparece a derivação do método SMOTE (BSMOTE), que faz-se notar que
não foi usado apenas no ano de 2021 em trabalhos escolhidos na pesquisa, mas somam 9
trabalhos que fizeram o uso desta técnica.

A técnica SMOTE surgiu no ano de 2002 proposto por Chawla et al. (2002), sendo
uma das mais conhecidas na aplicação de conjunto de dados desbalanceados para ser usado na
classificação de modelos de AM. O SMOTE usa o algoritmo kNN para selecionar as k amostras
da classe minoritária mais próximas de uma amostra também da classe minoritária, e amostras
sintéticas são criadas e posicionadas no segmento entre elas.

Já BSMOTE, surgiu em 2005 quando Han, Wang e Mao (2005), baseando-se na
técnica SMOTE apresentam dois novos métodos de oversampling : BSMOTE1 e BSMOTE2,
que usa apenas os exemplos minoritários próximos à fronteira entre as classes para serem
superamostrados.

O trabalho de Pawlicki et al. (2020), testou com vários algoritmos de balanceamento
de dados aplicado no conjunto de dados CICIDS2017 e BSMOTE foi o que melhor se ajustou
em comparação com outros métodos de oversampling do modelo proposto por eles. Também
relatam em seu trabalho, que muitas abordagens derivadas de SMOTE vem sendo encontrada
na literatura.

A técnica ADASYN foi aplicada em 8 trabalhos selecionados para a pesquisa, este
algoritmo foi proposto por He et al. (2008) e tem como base a geração dos dados da classe
minoritária de forma adaptativa conforme as distribuições das classes. Este modelo procura
amostras que são difíceis de aprender, fazendo uma sobreamostragem para equilibrar as classes
dos conjuntos de dados.

No trabalho de Chen, Zhou e Yu (2021), os autores aplicaram a técnica de ADASYN e
classificaram o modelo proposto com Random Forest, combinação que comparada com outras
técnicas de (oversampling) aplicadas no conjunto de dados CICIDS2017, foi a que atingiu
melhores resultados.

A técnica RUS também contabilizou 8 trabalhos na pesquisa, ficando com a mesma
quantidade ano a ano que ADASYN.

A técnica Random Under-Sampling (RUS) é fundamentada da seguinte forma: cada
elemento da classe onde será feita a predição, possui uma chance igual de ser escolhida para a
amostra. Determina-se a quantidade de dados da amostra e com um método de sorteio, a cada
tipo de amostra dos dados é atribuído um número, em seguida os números são selecionados
aleatoriamente. Esta abordagem de undersampling é comumente usada para lidar com conjuntos
de dados desbalanceados em problemas de classificação em AM.


47

Em Bagui et al. (2023), os autores aplicaram várias técnicas de undersampling e
oversampling no conjunto de dados UNSW-NB15, perceberam que os melhores resultados
foram atingidos na aplicação com RUS após a aplicação de BSMOTE.

Outra técnica entre as 5 mais aplicadas nos trabalhos correlatos foi Random Oversam-
pling (ROS), que utiliza a classe minoritária para balancear o conjunto de dados, duplicando
aleatoriamente os dados com ou sem reposição as observações de dados da classe minoritária.

No trabalho de Xiang, Xu e Tang (2023) os autores perceberam que ao aplicar a técnica
ROS no conjunto de dados CICIDS2017 em uma taxa de desbalanceamento de 99:1 aumenta
a AUC dos algoritmos de classificação utilizados em seus experimentos.

Faz-se importante ressaltar que foram aplicadas pelos autores uma ou mais técnicas a
cada trabalho, sendo todas contabilizadas na contagem da Figura 6.

Figura 6 – Técnicas de balanceamento utilizadas nos trabalhos correlatos.

Fonte: Elaborado pelo autor.

Na Figura 7, percebe-se que o método de oversampling aparece com mais frequência nos
trabalhos correlatos para resolver o problema de desbalanceamento dos dados nos conjuntos de
dados gerados por IDS. Porém, nota-se que o método de resampling vêm crescendo nos últimos
anos, sendo que no ano de 2023 aparece em 6 trabalhos na pesquisa. Notou-se também, que a
maioria dos autores dos trabalhos correlatos aplicaram mais de um método de balanceamento
de classes, para fazer uma comparação dos resultados e verificar o melhor resultado por meio
das métricas de avaliação.


48

Na contagem do gráfico da Figura 7 contabilizou-se todos os métodos descritos pelos
autores dos trabalhos correlatos.

Conforme Chen, Zhou e Yu (2021), os conjuntos de dados gerados por IDS apresentam
um grande e grave desequilíbrio que resultam em um baixo desempenho de classificação em
comportamentos de ataque de pequeno tamanho de amostra, dificultando a detecção ataques
de rede com precisão e eficiência.

Percebe-se que devido à pequena quantidade nas classes de ataques, os autores aplicam
o método de oversampling com mais frequência, porém os métodos de undersampling e de
resampling em alguns casos podem trazer bons resultados.

Figura 7 – Métodos de balanceamento utilizadas nos trabalhos correlatos.

Fonte: Elaborado pelo autor.

2.2.1 Métricas de Desempenho Utilizadas nos Trabalhos Correlatos
As diversas métricas de classificação têm como alvo comum medir a performance do

modelo proposto, mas realizam a tarefa de formas diferentes. Segundo Alfrhan, Alhusain e
Khan (2020), a métrica F1-Score é a que produz um resultado mais correto ao trabalhar com
conjuntos de dados que possuem dados desbalanceados, por possuir um baixo Valor Preditivo
Positivo (PPV) das classes de ataques, que contêm pequenas porcentagens de dados, apesar
de ser afetado pelos valores decrescentes da Sensibilidade e Precisão. Entretanto, citam que
Acurácia também pode ser conveniente para conjunto de dados com classes desbalanceadas,
por conter um leve efeito sobre a classe minoritária. Pode-se verificar algumas destas métricas
nas equações:


49

A Acurácia pode ser obtida pela soma de Verdadeiros Positivos (VP) e Verdadeiros
Negativos (VN) sobre a soma de Verdadeiros Positivos (VP), Verdadeiros Negativos (VN),
Falsos Positivos (FP) e Falsos Negativos (FN).

Acurácia = V P + V N

V P + V N + FP + FN
(1)

A Precisão é a métrica que avalia a quantidade de Verdadeiros Positivos(VP) sobre a
soma de Verdadeiros Positivos(VP) e Falsos Positivos(FP).

Precisão = V P

V P + FP
(2)

A Sensibilidade ou Recall é a métrica que avalia a capacidade de detectar os resultados
classificados como positivos e pode ser definida como Verdadeiros Positivos(VP) sobre a soma
de Verdadeiros Positivos(VP) e Falsos Negativos(FN).

Sensibilidade = V P

V P + FN
(3)

A Especificidade avalia a capacidade do método detectar resultados negativos e pode
ser definida como: Verdadeiros Negativos(VN) sobre a soma de Verdadeiros Negativos(VN)
com Falsos Positivos(FP).

Especificidade = V N

V N + FP
(4)

A métrica F1-Score ou F–Measure é uma medida harmônica entre a Precisão e a
Sensibilidade.

F1 − Score = 2 ∗ (precision ∗ sensibilidade)
(precision + sensibilidade) (5)

Outra métrica utilizada nos trabalhos correlatos para avaliação dos modelos de clas-
sificação de intrusão usadas por Rani et al. (2022) e por Alfrhan, Alhusain e Khan (2020) é
a Curva ROC (Receiver Operating Characteristic Curve), que se resume em um gráfico que
permite medir um classificador binário levando em conta os Verdadeiros Positivos (VP) e
Falsos Positivos (FP), podendo ser obtida por meio do cruzamento gráfico da Precisão com o
Recall (Sensibilidade) em diferentes limiares de decisão, estimando os valores da área s