UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Bauru Carlos Alexandre Carvalho Tojeiro Identificação de Portscan com Machine Learning - Uma Análise dos Impactos de Algoritmos de Oversampling e Undersampling no Desenvolvimento de Sistemas de Detecção de Intrusão Bauru 2024 Carlos Alexandre Carvalho Tojeiro Identificação de Portscan com Machine Learning - Uma Análise dos Impactos de Algoritmos de Oversampling e Undersampling no Desenvolvimento de Sistemas de Detecção de Intrusão Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Ciência da Computação, junto ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual Paulista “Júlio de Mesquita Filho", Câmpus de Bauru. Orientador: Prof. Dr. Kelton Augusto Pontara da Costa Coorientador: Prof. Dr. Thiago José Lu- cas Bauru 2024 T646i Tojeiro, Carlos Alexandre Carvalho Identificação de Portscan com Machine Learning : Uma Análise dos Impactos de Algoritmos de Oversampling e Undersampling no Desenvolvimento de Sistemas de Detecção de Intrusão / Carlos Alexandre Carvalho Tojeiro. -- Bauru, 2024 100 p. : il., tabs. Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru Orientador: Kelton Augusto Pontara da Costa Coorientador: Thiago José Lucas 1. Aprendizado do computador. 2. Redes de computadores. 3. Sistemas de detecção de intrusão (Medidas de segurança). I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. Resumo A necessidade de trabalhar com as informações digitais nas empresas gerou um crescimento nos números de ataques cibernéticos em busca de ativos valiosos. Em contraproposta, pesquisadores e administradores de redes vêm buscando uma precisão maior do processo que visa descobrir portas “abertas” em dispositivos de rede, sendo que as “portas” são pontos de acesso pelos quais os dados transitam nos dispositivos. Dentro desta proposta, este trabalho apresenta um estudo da aplicação de combinações de algoritmos de Aprendizado de Máquina (AM) que possam identificar uma maior quantidade de tentativas de “escaneamento de portas”, técnica usada para identificar o estado de uma porta de rede, já que os cibercrimes normalmente iniciam- se com um ataque de Portscan. O trabalho proposto compara dois métodos de seleção de características, aplicando métodos de undersampling e oversampling para o balanceamento das classes “normal” e “ataque”, classificando-os com Rede Neural, Regressão Logística, Máquinas de Vetores de Suporte, Random Forest (RF), Decision Tree (DT) e k-Nearest Neighbors (kNN) no conjunto de dados CICIDS2017. O resultado adquirido com as diferentes combinações de algoritmos de AM demonstrou-se que a combinação dos classificadores RF, DT e kNN juntamente com a técnica de SMOTEENN, obtiveram desempenhos superiores as demais combinações propostas no trabalho. Palavras-chave: Machine Learning ; Balanceamento de Dados; Portscan; Sistemas de Detecção de Intrusão; Redes de Computadores. Abstract The need to work with digital information in companies has led to an increase in the number of cyber attacks in search of valuable assets. In counter-proposal researchers and network administrators have been searching for greater precision of the process of discovering “open ports” on network devices, where “ports” are access points for which information passes through the devices. Within this proposal, this work presents a study of the application of combinations of Machine Learning (ML) algorithms that can identify a greater number of “port scanning” attempts, a technique used to identify the state of a network port, since cybercrime cybercrimes usually begin with a port scanning attack. The proposed work compares two feature selection methods, applying undersampling and oversampling methods to balance the “normal” and “attack” classes, classifying them with using Neural Networks (NN), Logistic Regression (LR), Support Vector Machines (SVM), Random Forest (RF), Decision Tree (DT) and k-Nearest Neighbours (kNN) on the CICIDS2017 dataset. The results obtained with the different combinations of algorithms showed that the combination of the RF, DT and kNN classifiers together with the SMOTEENN technique performed better than the other combinations proposed in the work. Keywords: Machine Learning; Data Balancing;Portscan; Intrusion Detection Systems; Com- puter Networks. Lista de ilustrações Figura 1 – Metodologia do trabalho utilizada na revisão sistemática da literatura. . . . 18 Figura 2 – Distribuição dos artigos obtidos pelo ano de publicação. . . . . . . . . . . 19 Figura 3 – Fluxo do procedimento realizado na Revisão Sistemática da Literatura. . . 20 Figura 4 – Conjuntos de dados extraídos nos trabalhos selecionados - visualização ano a ano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Figura 5 – Classificadores utilizados nos artigos correlatos. . . . . . . . . . . . . . . . 45 Figura 6 – Técnicas de balanceamento utilizadas nos trabalhos correlatos. . . . . . . . 47 Figura 7 – Métodos de balanceamento utilizadas nos trabalhos correlatos. . . . . . . . 48 Figura 8 – Sistemas de Detecção de Intrusão. . . . . . . . . . . . . . . . . . . . . . . 59 Figura 9 – Curva da Regressão Logística Hosmer, Taber e Lemeshow (1991). . . . . . 61 Figura 10 – Máquina de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 62 Figura 11 – Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Figura 12 – Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Figura 13 – k-Nearest Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Figura 14 – Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Figura 15 – Fluxo de trabalho do processo metodológico . . . . . . . . . . . . . . . . 72 Figura 16 – Validação Cruzada - 10-fold cross-validation . . . . . . . . . . . . . . . . . 79 Lista de tabelas Tabela 1 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2019. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 23 Tabela 2 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2020. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 27 Tabela 3 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2021. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 33 Tabela 4 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2022. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 37 Tabela 5 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2023. Fonte: Elaborado pelo autor. . . . . . . . . . . . . . . . . 42 Tabela 6 – Arquitetura de uma Matriz de Confusão. Fonte: Adaptada de Phetlasy et al. (2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Tabela 7 – Compilação dos resultados publicados para os artigos citados. Fonte: Elabo- rado pelo autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tabela 8 – Features selecionadas por RFE e MI. Fonte: Elaborado pelo autor. . . . . . 77 Tabela 9 – Combinações das Técnicas. Fonte: Elaborado pelo autor. . . . . . . . . . . 81 Tabela 10 – Modelos - Resultados das Combinações. Fonte: Elaborado pelo autor. . . . 84 Lista de abreviaturas e siglas AM - Aprendizado de Máquina ANN - Artificial Neural Network AB - AdaBoost ACC - Accuracy A-SUWO - Adaptive Semi-Unsupervisioned Weighted Oversampling AUC - Area Under the ROC Curve BBBC - Big Bang-Big Crunch BFS - Best First Search BSMOTE - Borderline Synthetic Minority Oversampling TEchnique CC - ClusterCuntroids CERT.br - Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil CFS - Correlation Based Feature Selection CNN - Convolutional Neural Network CNNID - Convolutional Neural Networks for Intrusion Detection DDoS - Distributed Denial of Service DJ - Decision Jungle DT - Decision Tree E - Especificidade ENN - Edited Nearest Neighbor ERR - Eliminação de Recurso Recursivo ET - ExtraTrees FCBF - Fast Correlation Based Filter for Feature Selection FSA - Forward Selection Algorithm GB - Gradient-Boosting GH - Gametic Hereditica GI - Gini Importance GNB - Naive Bayes Gaussiano GRU - Gated Recurrent Units IA - Artificial Intelligence IBK - Instance-based learning algorithms IDS - Intrusion Detection System J48DT - J48 Decision Tree kNN - k Nearest Neighbor LBFGS - Limited Broyden-Fletcher-Goldfarb-Shanno LL - Log Loss LSTM - Long Short Term Memory MC - Matriz de Confusão MDI - Feature Importance Measure MI - Mutual Information ML - Machine Learning MLP - Multilayer Perceptron MRMR - Maximum Relevance — Minimum Redundancy MTL - Nonoidal T-Normal Basead Logic NB - Naive Bayes NI - Não Informado NN - Neural Network OSS - One-Sided Selection P - Precision PCA - Principal Component Analysis PI - Permutation Importance PPV - Positive Predictive Value RF - Random Forest RFE - Recursive Feature Elimination RN - Neural Network RNN - Recurrent Neural Networks ROC - Receiver Operating Characteristic RUS - Random under-sampling S - Sensitivity SA - Sem Aplicação SAE - Sparse Auto-Encode SMOTE - Synthetic Minority Over-sampling Technique STL - Standard Template Library SVM - Support Vector Machine t-SNE - t-Distributed Stochastic Neighbor Embedding UCI-MLR - UCI Machine Learning Repository UMAP - Uniform Manifold Approximation and Projection VSTG-MTL - Variable Selection and Task Grouping for Multi-Task Learning VT - Vision Transformer XB - eXtreme Gradient Boosting XGBoost Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 17 2.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Trabalhos Correlatos - ano de 2019 . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Trabalhos Correlatos - ano de 2020 . . . . . . . . . . . . . . . . . . . . . 24 2.1.3 Trabalhos Correlatos - ano de 2021 . . . . . . . . . . . . . . . . . . . . . 28 2.1.4 Trabalhos Correlatos - ano de 2022 . . . . . . . . . . . . . . . . . . . . . 34 2.1.5 Trabalhos Correlatos - ano de 2023 . . . . . . . . . . . . . . . . . . . . . 38 2.2 Inclinações Extraídas dos Trabalhos . . . . . . . . . . . . . . . . . . . 43 2.2.1 Métricas de Desempenho Utilizadas nos Trabalhos Correlatos . . . . . . . . 48 2.2.2 Métricas de Desempenho Extraídas dos Trabalhos . . . . . . . . . . . . . . 50 2.2.3 Discussão dos Trabalhos em Aberto . . . . . . . . . . . . . . . . . . . . . 56 2.3 Sistema de Detecção de Intrusão . . . . . . . . . . . . . . . . . . . . 58 2.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.5 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.5.1 Regressão Logística (LR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.5.2 Máquinas de Vetores de Suporte (SVM) . . . . . . . . . . . . . . . . . . . 62 2.5.3 Random Forest (RF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.4 Decision Tree (DT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5.5 k-Nearest Neighbors (kNN) . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.5.6 Rede Neural Artificial (RNA) . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.6 Métodos de Balanceamento . . . . . . . . . . . . . . . . . . . . . . . 67 2.6.1 SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.6.2 SVMSMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.6.3 NearMiss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.6.4 SMOTEENN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.1 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.1 Limpeza e Preparação dos Dados . . . . . . . . . . . . . . . . . . . . . . 75 3.2.2 Seleção de Características . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.2.3 Hiperparâmetros e Validação Cruzada . . . . . . . . . . . . . . . . . . . . 78 4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 81 5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 92 5.1 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 1 Introdução Com o crescente número de informações armazenadas em computadores, houve um expressivo aumento de ataques cibernéticos, provocando indisponibilidade de serviços de redes, e roubo de ativos, resultando em sérios prejuízos para empresas e organizações. Para realização destes ataques, surgem as varreduras (scan), que abrange, buscas minuciosas em redes de computadores, força bruta de senhas, exploração de vulnerabilidades. De acordo com o Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil (CERT.br), de Janeiro a Dezembro de 2023 as notificações de ataques de Portscan somaram 75,27% dos incidentes reportados no Brasil. De acordo com Abdi et al. (2024), estes ataques estão tornando-se cada vez mais sofisticados e difíceis de detectar. Por outro lado, para proteger as informações e manter os dispositivos de rede disponíveis aos usuários, vêm surgindo vários estudos direcionados ao processo de identificação de ataques, que utilizam conjuntos de dados pré-coletados de ferramentas de detecção de intrusão, treinados com técnicas de AM para a identificação de ações maliciosas. Dentro deste contexto IDSs geram grande quantidade de alertas, sendo a maioria falsos positivos, que podem induzir o sistema à se tornar menos eficaz ou inútil devido a identificação de ameaças com muita frequência. Por outro lado, considera-se que a diminuição dos alertas de falsos negativos seja o fator mais importante na detecção de intrusões na rede, por serem ataques verdadeiros classificados como falsos, o que pode acarretar uma avaliação equivocada dos resultados. Desta forma, caso o número de falsos negativos apresentar uma quantidade elevada, o acompanhamento pode ser impreciso. Logo, a Sensibilidade e F1-Score são métricas de avaliação essenciais para este trabalho por apresentar alto contraste entre as classes com muitos registros e outras com poucos registros (RAHMA et al., 2023). Em solução a estes problemas são aplicadas diversas técnicas de diferentes combinações que implicam em um melhor desempenho do modelo de AM para reconhecimento de verdadeiras ameaças, que utilizam de tática para identificar e explorar vulnerabilidades na rede. Entre essas melhorias surgem os métodos que trabalham com conjuntos de dados desbalanceados, que podem ser classificados em duas categorias principais. A primeira categoria trabalha ao nível de dados para equilibrar a quantidade das classes presentes no conjunto de dados, sendo os mais comuns são oversampling e undersampling. A segunda categoria trabalha modificando a classificação existente no algoritmo, aplicando penalidades quando a classificação tende a classe majoritária (NGUYEN; COOPER; KAMEI, 2009). 15 Os métodos de oversampling e undersampling são utilizados quando existe uma distorção nas distribuições das classes dos conjuntos de dados usados para treinamentos de modelos de AM, problema que denominamos de classificação desbalanceada. Também destaca-se um terceiro método ao nível de dados onde é aplicado a combinação dos métodos de oversampling e undersampling nomeada de resampling (BAGUI; LI, 2021). A classificação desbalanceada implica em resultados tendenciosos, ou seja, quando o algoritmo treinado aprende demais sobre uma classe dominante do conjunto de dados, enquanto negligencia todas as outras classes menores que contém baixas quantidade de dados, havendo um sobreajuste da classe majoritária. A problemática elencada no presente trabalho baseou-se para identificar quais combi- nações de técnicas de balanceamento de dados podem ser trabalhadas buscando um melhor modelo de AM, oversampling, undersampling ou a terceira abordagem híbrida que combina ambas as abordagens anteriores nomeada resampling? O Objetivo Geral da presente Dissertação foi analisar os impactos de custo compu- tacional e desempenho nos erros de classificação pelo emprego combinado de algoritmos de balanceamento de dados e de seleção de características aplicados a Detecção de Intrusão. Os Objetivos Específicos foram os que se seguem: • Realização de uma Revisão Sistemática na Literatura de forma com que fosse possível compreender o estado-da-arte do tema estudado; • De posse do estado-da-arte, a extração e análise das principais variáveis envolvidas nos trabalhos correlatos, quais sejam: classificadores, conjuntos de dados, algoritmos de balanceamento de dados e métodos de seleção de características; • Quanto aos materiais e métodos: pré-processamento dos dados; classificação dos objetos e análise dos resultados; • Compilação dos resultados obtidos e; • Análise, considerações e sugestões de pesquisas futuras; Em Fundamentação Teórica (Capítulo 2), o trabalho resumiu-se no emprego de Revisão Sistemática da Literatura (Seção 2.1) onde foram extraídos os dados relevantes dos trabalhos correlatos obtidos na pesquisa. Em seguida na (Seção 2.2) são verificadas as principais inclinações extraídas dos trabalhos. Logo após (Seção 2.3) são apresentados os conceitos relevantes para compreensão de Sistema de Detecção de Intrusão, em sequencia (Seção 2.4) apresenta-se a definição de Aprendizado de Máquina, os classificadores (Seção 2.5) utilizados nas predições dos modelos propostos deste trabalho e por fim (Seção 2.6), mostram-se os conceitos dos algoritmos de balanceamento das classes que foram aplicados no presente trabalho. 16 Já em Metodologia (Capítulo 3), pode-se verificar a descrição do processo de pesquisa do trabalho empregada no conjunto de dados (Seção 3.1), o pré-processamento (limpeza e preparação dos dados) e o processo utilizado para seleção das características dos dados no conjunto de dados podem ser visto na (Seção 3.2). Em Resultados e Discussão (Capítulo 4) apresentam-se as combinações dos algoritmos para gerar modelos de AM e os resultados parciais obtidos com os testes a partir do desempenho das combinações propostas. Por fim, em Considerações Finais (Capítulo 5) contém a conclusão dos resultados obtidos do desempenho do modelo proposto e as publicações durante a execução das disciplinas obrigatórias e do desenvolvimento da Dissertação. De acordo com Souza, Dias e Santos (2019), os métodos de pesquisa utilizados, abordam os seguintes passos: Planejamento (formalização por meio de um protocolo), Con- dução (identificação, seleção, extração e análise dos dados) e Apresentação dos Resultados (sistematização dos dados). 2 Fundamentação Teórica O presente capítulo tem por objetivo especificar os conceitos relevantes para compreen- são de IDS e AM. 2.1 Revisão Sistemática da Literatura A Revisão Sistemática da Literatura abrange o levantamento de trabalhos correlatos de forma que o processo possa ser replicável por pesquisadores e estudantes. É um componente de identificação, avaliação e interpretação de toda a pesquisa, ou área pesquisada. Kitchenham e Charters (2007) destacam a importância da definição dos critérios de busca para que haja uma análise ponderada em relação aos artigos que serão selecionados, também, possibilitando que pesquisadores consigam dar continuidade ao segmento estudado. Já Martins et al. (2013), descrevem a revisão sistemática da literatura, como a parte do trabalho onde os estudos da pesquisa buscam incluir uma classificação empírica ou analítica, também os métodos (teste, investigação, revisão) e técnicas que serão aplicadas. Na mesma linha de pensamento, Lopes e Fracolli (2008), diz que entre as mais importantes características da revisão sistemática estão: fontes de pesquisa abrangentes, seleção dos primeiros estudos da pesquisa sob critérios aplicados de forma homogênea e avaliação fundamentada da amostra. Também salienta, que o tratamento estatístico dado aos resultados obtidos a partir de revisões sistemáticas é visto como meta-análise e vem sendo amplamente utilizado por pesquisadores. Biolchini et al. (2005) relata o procedimento como sendo uma forma de se obter evidência na literatura capaz de justificar a própria pesquisa, que deve ser realizada após a definição de uma formalidade de buscas e de uma metodologia geral. Para Souza, Dias e Santos (2019), uma revisão sistemática deve considerar os seguintes passos: estabelecer a técnica a ser utilizada na pesquisa, definir as palavras-chave encontrando palavras e sinônimos que melhor possa definir o escopo do trabalho, definir a strings de busca onde se possa fazer concatenação com o conector OR ou AND, definir as bases de busca e fazer o refinamento da busca aplicando filtros. A revisão sistemática obedeceu aos critérios de Souza, Dias e Santos (2019), conforme se observa nas Figuras 1 e 3 ilustram os procedimentos usados. 18 Figura 1 – Metodologia do trabalho utilizada na revisão sistemática da literatura. Fonte: Elaborado pelo autor Detalham-se as etapas ilustradas na Figura 1 conforme segue: 1. Na primeira etapa (1) definiu-se em quais bases seriam feitas as pesquisas dos artigos. As seguintes plataformas de trabalhos publicados foram utilizadas: IEEExplore1, ACM Digital Library 2, SPRINGER3 e MDPI 4, também realizou-se pesquisas nas bases Scopus 5 obedecendo os mesmos critérios, mas obteve como retorno artigos repetidos que já tinham sidos adicionados, então manteve-se apenas as quatro primeiras bases de pesquisas. 2. Logo em seguida, na etapa (2), buscou-se trabalhos com palavras contidas no título, resumo e palavras-chave como “intrusion” e “imbalance” ou “oversampling” ou “under- sampling”, além de limitar o intervalo de publicação entre o ano de 2019 até 2023 para utilizar-se os trabalhos mais recentes neste estudo. 1 https://ieeexplore.ieee.org/ 2 https://dl.acm.org/ 3 https://rd.springer.com/ 4 https://www.mdpi.com/ 5 https://www.scopus.com/ 19 3. Na terceira etapa (3), por meio de leitura dos resumos para verificar os trabalhos mais importantes para pesquisa, definiram-se os critérios de exclusão e inclusão dos trabalhos pesquisados, separando apenas aqueles que continham combinações de classificadores e técnicas de balanceamento que melhoram os resultados após a aplicação visando a classificação de detecção de ataques de intrusão, excluindo os que trabalhavam com predição de defeitos em softwares, predições utilizando imagens. 4. Na etapa (4), contabilizou-se a contagem dos trabalhos para uma nova seleção, eliminando os trabalhos repetidos. 5. Por fim na etapa (5), realizou-se nova seleção de forma que os trabalhos menos relevantes que não faziam parte do foco da pesquisa, descartando-se após a leitura mantendo-se somente os artigos que davam ênfase para os métodos e técnicas de balanceamento para descoberta de ataques de intrusão. Manteve-se também aqueles que apresentavam uma metodologia adequada e instrumentos de pesquisas voltados para o presente trabalho. Na Figura 2 pode-se observar os trabalhos selecionados perante as plataformas de pesquisas: Figura 2 – Distribuição dos artigos obtidos pelo ano de publicação. Fonte: Elaborado pelo autor 20 Com os trabalhos já selecionados e filtrados, procurou-se extrair os dados mais importantes observando as tendências envolvidas nos artigos como: • Tipo de algoritmo de AM usados como classificadores; • Dados: os conjuntos de dados utilizados nos trabalhos selecionados; • As técnicas de Feature Selection aplicadas ou sem nenhuma aplicação (NA) de técnicas, ou não informado (NI) se foi aplicada alguma técnica para seleção de características, limpeza dos dados e redução da dimensionalidade e otimização dos dados; • Quais técnicas/métodos foram usados para o balanceamento das classes: “oversam- pling” ou/e “undersampling”. • Quais métricas foram utilizadas pelos autores para avaliarem seus modelos e que resultados atingiram, como Acurácia (ACC), Precisão (P), F1-Score(F1); Recall ou Sensibilidade (S); e Detection Rate, por exemplo; Para facilitar o entendimento do processo de Revisão Sistemática da Literatura, desde início até a escolha dos trabalhos mais relevantes, a Figura 3 exibe um fluxograma do processo adotado: Figura 3 – Fluxo do procedimento realizado na Revisão Sistemática da Literatura. Fonte: Elaborado pelo autor 21 Os artigos correlatos selecionados e resumidos para destacar os detalhes mais importantes na pesquisa foram organizados da seguinte maneira: As Tabelas 1, 2, 3 e 4 apresentam os trabalhos correlatos e os dados extraídos para os anos de 2019, 2020, 2021, 2022 e 2023 podendo ser encontrados nas subseções 2.1.1, 2.1.2, 2.1.3 e 2.1.4 respectivamente. 2.1.1 Trabalhos Correlatos - ano de 2019 O artigo de Pang et al. (2019) tem como proposta um método de oversampling para detecção de Malwares6, que agrupam ataques por características nominais, formando assinaturas utilizadas para identificar instâncias maliciosas. O problema relatado pelos autores é o desbalanceamento das classes causado pela classe normal ser dez por cento da classe maliciosa. Desta forma, como solução os autores aplicam o BorderlineSMOTE7(BSMOTE) para equilibrar as classes e usam o Support Vector Machine8(SVM) como classificador. Como resultado os autores conseguiram atingir uma taxa de 89,83% com a métrica F1-Score. O trabalho de Jimoh, Ismaila e Olalere (2019), visa implementar a técnica de SMOTE9 e utilizar AM para detecção de Botnet10. O classificador usado no trabalho foi o J48 Decision Tree11 (J48DT) e o conjunto de dados CICIDS201712, segundo os autores, este conjunto possui um desbalanceamento das classes de 99:1. Após a aplicação do SMOTE, eles conseguem uma melhoria significativa na taxa de detecção com as métricas de avaliação de desempenho como Curva Operacional dos Receptores (ROC), Acurácia, Sensibilidade, F-Measure, Precisão, Taxa de Verdadeiros Positivos (TPR), Taxa de Falsos Positivos (FPR) e Coeficiente de Correlação Mathews13 (MCC). Os autores comentam que devido a desigualdade das classes, o algoritmo de treinamento pode encontrar dificuldade em identificar os dados considerados benignos, podendo com isto aumentar a Taxa de Falsos Positivos. Outro apontamento feito pelos autores é que a MCC, como medida de precisão, é uma das melhores abordagens para os dados de desbalanceados. Os resultados mostraram-se satisfatórios com o uso do classificador J48DT com a técnica SMOTE de forma que atingiram 99,95% de Acurácia. No trabalho de Lu et al. (2019), a proposta tem como finalidade usar uma combinação da técnica de oversampling SMOTE com a regra Edited Nearest Neighbor 14 (ENN) para 6 Qualquer software intencionalmente feito para causar danos a um computador, servidor, cliente, ou a uma rede de computadores. 7 Algoritmo que é uma variante do SMOTE detecta as amostras limite para gerar novas amostras sintéticas. 8 Conjunto de métodos de aprendizagem supervisionada usados para classificação e regressão. 9 Técnica de sobreamostragem Minoritária Sintética proposto por Chawla et al. (2002). 10 Redes de terminais “escravos”, que vão de computadores e celulares a dispositivos da Internet das Coisas, que hackers usam para cometer crimes dos mais diversos, de roubo de dados a ataques DDoS. 11 Algoritmo de Árvores de Decisão. 12 Conjunto de dados que compreende comportamento de tráfego de rede normal e de ataques conforme Sharafaldin, Lashkari e Ghorbani (2019). 13 Medida de qualidade de duas classificações binárias. 14 Técnica de undersampling de dados. 22 resolver o desbalanceamento do conjunto de dados KDDCup’99 e classificar os ataques com Random Forest15 (RF). Como resultado conseguem alcançar valores maiores de Precisão, Sensibilidade e F1, atingindo 99% para as três métricas. O método proposto por Phetlasy et al. (2019) para melhorar o reconhecimento do tráfego malicioso detectando ataques no conjunto de dados NSL-KDD é de aplicar classificadores sequenciais após o uso de SMOTE para equilíbrio das classes. Como resultado, os autores obtiveram a taxa de Acurácia de 89,95% usando J48DT + MLP16 + SMOTE e 74,63% sem balanceamento com os mesmos classificadores. Também atingiram uma Sensibilidade 84,60%, Especificidade de 97,02% e a taxa de Falsos Negativos igual 1,97% com três classificadores aplicados sequencialmente J48DT + MLP + IBK17 + SMOTE, contra 81,36% e 4,08% respectivamente classificados sem métodos de oversampling. Desta forma concluem que a combinação de três classificadores sequenciais juntamente com SMOTE podem reduzir falsos negativos e melhorar a Sensibilidade e a Acurácia. No estudo de Pristyanto e Dahlan (2019), os autores aplicam a técnica de resampling utilizando a combinação dos algoritmos One-Sided Selection18 (OSS) e SMOTE, em dois conjuntos de dados públicos do repositório UCI Machine Learning Repository para testes de performance de comparação em classificações de detecção de ataques de phishing19. Os classificadores utilizados no trabalho são Decision Tree20 (DT), k-Nearest-Neighbor 21 (kNN), Redes Neurais Artificiais22 (ANN) e SVM com os dados divididos na proporção de 80% para treino e 20% para testes tanto para classificação binária quanto para multiclasses. Como resultado, atingem um aumento satisfatório com as métricas de avaliação de Acurácia (96,26%) e G-Mean23 (96,26%) usando ANN + SMOTE + OSS, com os dados originais apenas 95,91% e 95,88% respectivamente no primeiro conjunto de dados. Já no segundo conjunto a Acurácia obteve (92,87%) e G-Mean (94,64%) como o classificador DT, com os dados originais somente 88,82% e 90,35% na devida ordem. O trabalho de Tan et al. (2019), tem como proposta usar o classificador RF com a técnica de SMOTE para identificar ataques de invasão no conjunto de dados KDDCup’9924. Os autores relatam que atingiram uma Acurácia de 92,39% sem o método de oversampling, já 15 Algoritmo de árvore de decisão. 16 Rede neural convolucional. 17 Proposto por Aha, Kibler e Albert (1991) o algoritmo IBK (Instance-based learning algorithms) e um algoritmo do tipo K-Nearest Neighbors (kNN) 18 Técnica de undersampling proposto por Kubat, Matwin et al. (1997). 19 Crime de enganar as pessoas para compartilharem informações confidenciais como senhas e número de cartões de crédito. 20 Algoritmo de aprendizagem supervisionado não paramétrico, utilizado para tarefas de classificação e regressão. 21 Algoritmo de aprendizagem supervisionada usado no campo de Data Mining e Machine Learning. 22 Técnicas computacionais que apresentam um modelo matemático inspirado na estrutura neural. 23 A média de sensibilidade e especificidade que mede o desempenho geral do algoritmo de aprendizagem. 24 Conjunto de dados usado para a Terceira Competição Internacional de Descoberta de Conhecimento e Ferramentas de Mineração de Dados. 23 com SMOTE atingiram 92,57%, superando até a classificação de outros classificadores como LibSVM25, Naive Bayes26. Na Tabela 1 estão organizados os principais detalhes extraídos dos artigos publicados no ano de 2019. As Tabelas 1, 2, 3, 4 e 5 estão organizadas da seguinte forma: • Artigo - O trabalho que se refere os dados; • Dados - Os conjuntos de dados usados no artigo; • Classificador - Os classificadores usados no artigo; • Técnica - A técnica de balanceamento dos dados aplicadas no trabalho; • SC - A técnica de seleção de característica aplicadas no trabalho (NI - Não Informada, NA - Não Aplicada); • Métricas - As métricas utilizadas para avaliação do modelo proposto no trabalho. Tabela 1 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2019. Fonte: Elaborado pelo autor. Artigo Dados Classificador Técnica SC Métricas Pang et al. (2019) Próprio SVM BSMOTE NI AUC; F1; G-Mean Jimoh, Ismaila e Olalere (2019) CICIDS2017 J48DT SMOTE NI ACC; AUC; F1; P; S; Lu et al. (2019) KDDCup99 RF SMOTEENN NI F1; P; S Phetlasy et al. (2019) NSL-KDD J48DT; MLP; IBK SMOTE NI ACC; E; S Pristyanto e Dahlan (2019) UCI-MLR kNN; SVM; ANN; DT SMOTE+OSS NA ACC; G-Mean Tan et al. (2019) KDDCup99 RF SMOTE NA ACC; AUC 25 Bibliotecas de aprendizagem de máquinas de código aberto. 26 Classificador probabilístico baseado no ”Teorema de Bayes”. 24 2.1.2 Trabalhos Correlatos - ano de 2020 A presente subseção descreve os trabalhos relacionados obtidos por meio de Pesquisa de Revisão Sistemática da Literatura para o ano de 2020. A proposta de Prayogo e Karimah (2020) apresenta uma abordagem para classificar ataques de phishing utilizando a aplicação de SMOTE para resolver o desequilíbrio das classes. O conjunto de dados utilizado no estudo abrange 11.055 instâncias com 30 características disponibilizado pela UCI Machine Learning Repository. No trabalho, os autores informam que é feito uma seleção de características reduzindo de 30 para 12, mas não esclarecem o método utilizado para escolha. O classificador aplicado foi o kNN com k=5, e as métricas utilizadas para avaliação do modelo são a Matriz de Confusão, Acurácia, Precisão, Sensibilidade e F-Measure. Os resultados encontrados pelos autores apontam que neste caso, kNN com SMOTE consegue atingir uma Acurácia de 97,47%, Precisão 97,50%, Sensibilidade 97,50% e F1-Score de 97,50%, melhorando efetivamente a classificação em comparação com os dados originais. Já no trabalho de Alfrhan, Alhusain e Khan (2020), fizeram uso a ferramenta Azure Microsoft Machine Learning Studio para aplicar os algoritmos de AM (NB, RF, kNN e SVM) e fazer a classificação e identificação de ataques no conjunto de dados CICIDS2017. Como o conjunto de dados possui um grande desbalanceamento das classes, aplicam a técnica de SMOTE, para resolver o problema e comparar os resultados. O trabalho é dividido em duas etapas: na primeira são realizados os testes com os algoritmos de AM sem o uso do SMOTE. Já na segunda etapa aplicam o SMOTE e logo após comparam os resultados obtidos com as métricas de Precisão, Sensibilidade e F1-Score e Curva Roc (ROC). Nos resultado, observam melhorias com todas as métricas de avaliação utilizadas no trabalho atingindo taxas de 100% de reconhecimento de ataques, sendo que o algoritmo SVM teve o melhor desempenho. Com os dados originais os resultados foram 98,20%, 99,10% e 100% respectivamente com as mesmas métricas. Os autores também ressaltam a afirmação que a medida F1-Score é a melhor avaliação quando se trabalha com o conjunto de dados desbalanceados. O trabalho de Sun et al. (2020), visa como proposta de balanceamento de dados o método de oversampling para igualar a quantidade de dados de tráfego benigno e de ataques existentes nos conjuntos de dados UNSW-NB1527 e CICIDS-201828. Apontam que existem dois desafios-chave em detecção de intrusão no mundo real, dados desbalanceados onde a maioria dos dados é composto de tráfego normal e fluxo provindo de diferentes terminais de rede. Como solução, apresentam um método em que aplicam vários algoritmos de AM: Support Vector Machine (SVM), Decision Tree29 (DT), k-Nearest Neighbor (kNN) e AdaBoost (AB) e três algoritmos MTL (monoidal t-norm based logic30). Logo após, aplicam o algoritmo 27 Conjunto de dados de ataques de rede criado pelo Centro Australiano de Segurança Cibernética. 28 Conjunto de dados de ataques de rede criado pelo Instituto Canadense de Segurança Cibernética. 29 Algoritmo de árvore de decisão. 30 Algoritmos que utilizam funções chamadas de t-normas para possíveis interpretações de conjunção lógica. 25 Standard Template Library 31(STL) para comparação. Para o desbalanceamento dos dados aplicam o SMOTE juntamente com o A-SUWO32 e para verificação dos resultados fazem uso das métricas F1-Score, Taxa de Falsos Negativos (FNR) e Taxa de Falsos Positivos (FPR). Os resultados mostraram que o VSTG-MTL e FSP-VSTG-MTL com SMOTE têm os melhores métodos desempenho para detecção de intrusão atingindo F1-Score 77,58%; FNR 9,95%; FPR 56,52%. No artigo de Pawlicki et al. (2020), a proposta é avaliar formas de equilibrar a quantidade de dados benignos e de ataques para utilizar classificadores de AM como Rede Neural Artificial (RNA), Random Forest e um classificador Naive Bayes em aplicações de cibersegurança. Segundo os autores, os testes realizados com os métodos de undersampling (NearMiss33; TomekLinks34; ClusterCentroids35(CC) e RandomUnderSampler36 (RUS)) juntamente com o conjunto de dados CICIDS2017, alcançaram resultados ótimos ou melhores do que os de oversampling, equiparando ao mesmo nível que o método de BSMOTE. A média da Acurácia para detecção de ataques com RF+RUS usando até 1.174 instâncias por classe atingiu 96,57% e com até 7.141 instâncias 98,72% respectivamente. Também afirmaram que existe uma ligação forte entre o tamanho da classe majoritária, a Precisão e o Sensibilidade apresentada pelo número de amostras falsamente classificadas como da classe minoritárias. A proposta de Pan e Xie (2020), baseia-se em fazer uma classificação de ataques de intrusão com o algoritmo XGBoost37(XGB) e compará-la com os algoritmos de Support Vector Machine, Random Forest. Para a preparação dos dados usando o conjunto de dados KDDCup’99, os autores utilizam-se PCA38 para selecionar as características e diminuir a redundância dos dados. Para resolver o problema do balanceamento dos dados no conjunto de dados utilizam a aplicação de ADASYN39. Os resultados apontados pelos autores mostrou que é possível reduzir a taxa de Falsos Positivos (FPR) do modelo de detecção das amostras minoritárias e otimizar a taxa F1-Score. As taxas de FPR do modelo proposto para amostras minoritárias classificando ataques de R2L e U2R foram de 17,3% e 19,7%, e a métrica F1 alcançou 90,10% e 84,50% com o classificador XGB. Os autores Zhang, Zhang e Li (2020), usaram em seu trabalho o algoritmo ReliefF40 juntamente com BSMOTE, e como classificador utilizaram três tipos diferentes de algoritmos combinados, kNN, NB e C4.541. O conjunto de dados selecionado para o trabalho foi o 31 Algoritmo usado para aplicar ruído gaussiano aditivo centrado em zero. 32 Método de oversampling Adaptive Semi-Unsupervisioned Weighted Oversampling. 33 Algoritmos de undersampling tem como função eliminar aleatoriamente amostras da classe majoritária. 34 Algoritmo de undersampling para classificação desbalanceada. 35 Técnica de undersampling que geram um novo conjunto baseado em centróides por métodos de agrupamento. 36 Algoritmo de subamostragem aleatória (RUS) 37 Algoritmo de AM, baseado em árvore de decisão que utiliza uma estrutura de Gradient boosting. 38 Principal Component Analysis método de seleção de características. 39 Método de oversampling Oversample using Adaptive Synthetic . 40 Algoritmo para seleção de features. 41 Algoritmo utilizado para criar uma árvore de decisão. 26 NSL-KDD. Os resultados experimentais apresentaram um bom desempenho no conjunto e atingiram uma melhora considerável da Acurácia com a combinação de kNN com C4.5 atingindo 99,89%, 99,91%, 99,89%, 99,96% e 99,98% para as classes Normal, DoS, R2L, Probe e U2R, respectivamente. A métrica F1 usando a mesma combinação, obteve a atuação de 99,90%, 99,88%, 97,67%, 99,79% e 98,69%, também respectivamente para as mesmas classes testadas, apresentando superioridade para com as outras combinações do trabalho. Engly, Larsen e Meng (2020), tem como proposta utilizar AM para identificar ataques no conjunto de dados NSL-KDD. Desta forma, os autores realizaram experimentos com RF, ANN e Gradient-Boosting Machines42(GB). Para ajustar o desequilíbrio das classes usam o SMOTE e para reduzir as features utilizam-se de métodos de seleção de características como Correlation Based Feature Selection43 (CFS), Fast Correlation-based Filter 44 (FCBF) e seleção baseada na consistência. Como resultado de seus experimentos, afirmam que o melhor desempenho alcançado foi usando Ensemble Boosting com duas redes neurais e GB, atingindo uma taxa de Acurácia de 81% e F1-Score de 68%, uma melhoria de 10% e 24% respectivamente, em comparação com o treinamento do modelo no conjunto de dados original. Os autores Gonzalez-Cuautle et al. (2020), citam em seu artigo que AM tem melhorado as práticas clássicas de detecção de intrusão, mas que os dados demasiadamente desbalanceados gerados pelos Sistemas de Detecção de Intrusão (IDS) podem produzir resultados tendenciosos em relação a classe majoritária (Overfitting) 45. Como solução apresentam uma proposta da aplicação da técnica de SMOTE para ajustes em dois conjuntos de dados (CIDDS-00146 e ISCX-Bot-201447), logo após fazem a divisão de (80-20) para treino e teste respectivamente. Prosseguem realizando a extração das features mais pontuadas com PCA e classificam os dados com k-Nearest-Neighbor (kNN); Support Vector Machine; Logistic Regression48 (LR); Decision Trees (DT); e Random Forest . Nos resultados, concluem que, ao testar vários classificadores juntamente com a técnica SMOTE e a otimização de parâmetros Limited Broyden- Fletcher-Goldfarb-Shanno49 (LBFGS) foram fatores essenciais para conseguirem desempenhos satisfatórios na classificação. Os autores citam que em comparação com outras abordagens que utilizaram os mesmos conjunto de algoritmos na literatura, o modelo proposto por eles atingiram melhores resultados. O conjunto de algoritmos, SMOTE + LBFGS apresenta a seguinte Acurácia com respectivos algoritmos de AM: kNN 98,72%, SVM 97,35%, LR 97,89%, DT 98,65%, e RF 98,84%. Também a Característica Operacional do Receptor (ROC) para o 42 Algoritmo de AM, baseado em árvore de decisão 43 Algoritmo de estratégia de busca heurística. 44 Método de seleção de características. 45 Termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados 46 Conjunto de dados de avaliação para sistemas de detecção de intrusão de rede baseados em anomalias criado pela Universidade de Coburgo na Alemanha. 47 Conjunto de dados de ataque fornecido pelo Instituto Canadense de Segurança Cibernética com 16 tipos diferentes de botnets. 48 Modelo estatístico usado para determinar a probabilidade de um evento acontecer. 49 Algoritmo de otimização para obter melhores resultados com classificadores. 27 subconjunto balanceado CIDDS-001 obteve 99,58% com kNN e para subconjunto balanceado ISCX-Bot-2014 atingiu 96,26% com RF. Karatas, Demir e Sahingoz (2020) realizam primeiramente a análise de seis conjuntos de dados para escolherem qual utilizar em seu trabalho, logo após ao escolherem o conjunto de dados CICIDS2018 por ser mais atualizado, aplicam a técnica SMOTE, classificando os dados com seis classificadores individualmente (GB, Análise Discriminante Linear50 (LDA), kNN, RF, DT e AB) e comparam com os resultados aplicados no conjunto de dados original. Os resultados mostram que as taxas de detecção obtiveram um aumento substancial de 4,01% e 30,59% em comparação com os dados originais. As melhores pontuações de Acurácia foram para AB 99.99% na identificação das classes de ataques (Botnet, DoS, Brute Force) e 100% em (SQLInject); RF 99.99% nas classes de ataques (DoS, Brute Force e SQLInject); kNN 100% na identificação de (SQLInject) e GB 99.99% em (DoS) e 100% para (SQLInject). Tabela 2 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2020. Fonte: Elaborado pelo autor. Artigo Dados Classificador Técnica SC Métricas Prayogo e Ka- rimah (2020) UCI-MLR kNN SMOTE NI ACC; F1; P; S Alfrhan, Alhu- sain e Khan (2020) CICIDS2017 DF; DJ; SVM SMOTE NI AUC; F1; S Sun et al. (2020) UNSW- NB15; CICIDS2018 SVM; DT; kNN; AB; VSTG-MTL SMOTE; A-SUWO NI F1; FNR; FPR Pawlicki et al. (2020) CICIDS2017 RNA; RF; NB NearMiss; RU; TomekLinks; CC; BSMOTE NA ACC; F1; P; S Pan e Xie (2020) KDDCUP99 XGB; SVM; RF ADASYN PCA F1; FPR Zhang, Zhang e Li (2020) NSL-KDD kNN; C4.5; NB BSMOTE ReliefF F1; P; S; FPR; ACC; G-Mean Engly, Lar- sen e Meng (2020) NSL-KDD RF; ANN; GB SMOTE CFS; FCBF ACC; F1; P; S 50 Método usado em estatística e outros campos, para encontrar uma combinação linear de recursos que caracteriza duas ou mais classes de objetos, ou eventos. 28 Tabela 2 – Continuação. Gonzalez- Cuautle et al. (2020) CIDDS-001; ISCX-Bot- 2014 kNN; SVM; LR; DT; RF SMOTE PCA ACC; AUC; F1; P; S Karatas, De- mir e Sahin- goz (2020) CICIDS2018 kNN; RF; GB; AB; DT; LDA; SMOTE NA ACC; F1; P; S Tabela 2 – Fim. 2.1.3 Trabalhos Correlatos - ano de 2021 Os autores Mohseni e Tanha (2021), afirmam em seu trabalho que o desbalanceamento dos dados das classes benigna e de ataques gerados pelos IDSs, dificultam o trabalho de classificação correta dos algoritmos tradicionais que tentam descobrir características na classe minoritária. Também citam, que a técnica de undersampling se ajusta melhor do que a de oversampling que leva ao sobreajustamento dos dados. Desta forma, fazem uma proposta de agrupamento (clustering) baseada em densidade, depois aplicam a técnica para balanceamento RUSBoost Classifier51 no conjunto de dados CICIDS2017. Usando 20000 exemplos, realizam a seleção de características com PCA para reduzir de 83 para 30 features e aplicam o classificador RF com os dados nas proporções (1:15, 1:25, 1:50, e 1:100). Como melhor resultado, atingem 99% de G-Mean e 99,70% Acurácia na proporção de (1:15). No trabalho de Anh et al. (2021), a proposta é a construção de um novo conjunto de dados de intrusão baseado no CICIDS-2017 para resolver o desbalanceamento das classes. Para isto fazem uso do simulador GNS352 e ferramentas de ataques, os autores produziram um tráfico de dados com as mesmas características do CICIDS-2017. Neste modelo de proposta, eles aumentam o tráfego malicioso para 40% dos dados originais e assim resolveram o problema de desbalanceamento das classes. Após a criação do conjunto de dados, os autores realizam uma limpeza dividindo os dados em treino e testes numa proporção 80% para treino e 20% para testes. Os classificadores usados são o kNN com k=5, AdaBoost, Random Forest, Redes Neurais (Multilayer Perceptron53) MLP, convolutional neural network (CNNID), Long Short-Term Memory 54(LSTM) e testam seus modelos com as métricas de Acurácia, Precisão, Sensibilidade e F1-Score calculados a partir da Matriz de Confusão. Os resultados conseguidos pelos autores mostram uma melhora em relação ao conjunto de dados original, atingindo 99% de Acurácia, F1-Score e Sensibilidade, com o classificador RF. A proposta de Szczepanski et al. (2021), investiga o impacto dos métodos que fazem o 51 Algoritmo para lidar com problemas de desequilíbrio de classe em dados com rótulos de classe discretos. 52 Simulador de redes, que emula diversos equipamentos de uma rede. 53 Rede neural com uma ou mais camadas ocultas. 54 Rede neural recorrente capaz de aprender a dependência da ordem de aprendizagem. 29 balanceamento de dados equilibrando as classes no conjunto de dados. Para isto, os autores utilizam o conjunto de dados IoT-2355 e aplicam SMOTE como método de oversampling, Random Under-Sampling56 (RUS) para undersampling e SMOTEENN57 como resampling e assim realizar uma comparação entre elas. Logo em seguida, realizam a classificação por meio de uma Rede Neural Artificial (ANN) de duas camadas e finalizam utilizando as métricas de Acurácia, Precisão e Sensibilidade para verificação dos resultados. Segundo os autores, embora o modelo treinado com o conjunto de dados desbalanceado tenha alcançado uma Acurácia superior, não garante que o resultado esteja corretamente classificado pelo algoritmo, isto acontece em uma situação com grandes discrepâncias entre as quantidades de amostras, caracterizando ser uma métrica muito enganosa (Overfitting). Observando as outras métricas, torna-se claro que praticamente classificou todas as amostras como benignas. Os resultados obtidos com a Acurácia foram 99% com os dados originais, 91% aplicando os métodos de oversampling, também 91% com undersampling e 97% com o método híbrido SMOTEENN. O artigo de Wang e Septian (2021), tem como proposta uma combinação de algoritmos de Deep Learning Neural Networks58 baseados em Long short-term memory (LSTM) com técnicas de SMOTE para detecção de intrusão nos conjuntos de dados CICIDS-2017 e CICIDS- 2018. Após a limpeza dos dados, os autores realizam a seleção de características a partir de árvores de decisão com Oracle-explainer59 avaliando os recursos selecionados com LIME60 e a aplicação de SMOTE para equilibrar os dados. Em seguida, dividem os dados em 80% para treino e 20% para testes, classificando-os com Redes Neurais Recorrentes (RNNs) e LSTM em busca de melhores resultados. Segundo os autores, o método de oversampling melhora o desempenho da detecção de intrusão tanto para o AM como para métodos de Aprendizagem Profunda. Nos resultados, os autores obtiveram melhor desempenho com o conjunto de dados CICIDS-2017 e LSTM atingindo F1-Score de 98,90%, já com CICIDS-2018 usando as mesmas técnicas conseguiram uma pontuação F1-Score de 98,80%. No trabalho de Alshamy et al. (2021), a proposta tem como base a aplicação dos classificadores RF, AB, LR, e SVM no conjunto de dados NSL-KDD para verificar a melhor atuação entre os algoritmos. Devido à desigualdade da quantidade de dados das classes, os autores aplicaram a técnica SMOTE. Como resultado, na classificação binária alcançaram a Acurácia de 99,89%, 99,26%, 99,13%, e 97,26% respectivamente. Na classificação multiclasses os resultados foram 99,88%, 99,82%, 87,23% e 75,86% também respectivamente com os mesmos classificadores e a mesma métrica. Os autores consideram que o modelo proposto por eles obteve excelentes resultados em comparação com outros encontrados na literatura, tanto 55 Conjunto de dados de tráfego de rede de dispositivos da Internet das Coisas (IoT). 56 Método de undersampling que escolhe aleatoriamente amostras com ou sem reposição. 57 Combina a abordagem de oversampling do SMOTE com undersampling de Edited Nearest Neighbors. 58 Algoritmo que utiliza técnica de inteligência artificial conhecida como Aprendizado Profundo. 59 Informa quais dados devem ser usados para calcular a Zona de Eficiência ou módulo de Comparação de Vizinhos e fornece maneiras de melhorar ou corrigir os recursos utilizados. 60 Efetua a interpretação dos dados na tomada de decisão dos modelos de algoritmos de AM. 30 para classificação binária como para multiclasses. Já os autores Al-Imran e Ripon (2021), utilizam o conjunto de dados Kyoto Honeypot61 com a proposta de melhorar a identificação de intrusão usando classificadores de Deep Learning. Fazendo uma minuciosa preparação dos dados, os pesquisadores realizam a limpeza, indexação dos dados categóricos, normalização e discretização atribuindo uma etiqueta a cada valor numérico para manter uma relação ordenada e melhorar o desempenho do modelo. Na seleção de características, fazem uso do algoritmo MRMR (Minimum Redundancy Maximum Rele- vance62.), reduzindo de 24 para 19 características. Em seguida, equilibram as classes aplicando SMOTETomek63 que combina a técnica de oversampling com a de undersampling e separam os dados em 70% para treino e 30% para testes. Segundo os autores, os melhores classificadores foram o algoritmo XGBoost que atingiu Acurácia de 99,08% e RF, que também atingiu uma Sensibilidade de 98,65%, sendo superiores aos outros classificadores, apesar dos modelos de redes neurais, LSTM e Gated Recurrent Unit64(GRU) também conseguiram bons resultados. Wang et al. (2021), realizam uma combinação de Sparse Auto-Encoder 65 (SAE) para extração da features e RF para classificação de ataques de detecção de intrusão. Para uma melhora nos resultados, aplica-se a técnica de ADASYN ajustando o desbalanceamento dos dados no conjunto de dados de referência NSL-KDD. A divisão para treino é teste adotada é de 80% e 20% respectivamente, feita após a limpeza e normalização nos dados. Para avaliar os resultados, os autores comparam com vários métodos de AM comumente utilizados na literatura como Naive Bayesian, Support Vector Machine, Decision Tree e k-Nearest Neighbor. Os resultados mostraram que o modelo proposto pelos autores usando SAE e RF atingiram 99,80%, 99,78%, 99,77%, 99,77% de Precisão, F1, Acurácia e Sensibilidade respectivamente, seguido dos classificadores kNN, DT, SVM e NB que obtiveram resultados de ao menos 2 pontos percentuais abaixo. No artigo de Seth, Singh e Chahal (2021), a proposta é classificar ataques de intrusão selecionando as características com uma abordagem híbrida utilizando PCA e RF. O conjunto de dados usado no trabalho foi o CICIDS-2018 que possui 80 features, e um alto desbalanceamento das classes. Nesta proposta, os autores reduziram as features para 24 e solucionaram o problema de desbalanceamento com a técnica de IsolationForest66 com método de undersampling a um nível aceitável. Na etapa de classificação foi utilizado cinco algoritmos de AM, porém o que apresentou melhores resultados foi o LightGBM67 com uma taxa de Acurácia de 97%, Precisão 99% e uma taxa de Sensibilidade de 96% com uma baixa latência de previsão. O modelo proposto pelos autores aumentou 1,5% na taxa de Acurácia e 3% na Precisão em relação aos 61 Conjunto de dados de tráfego de rede dos Honeypots da Universidade de Kyoto. 62 Método de seleção de características Relevância máxima - Redundância mínima. 63 Técnica que combina o SMOTE e Tomek Links. 64 Visa resolver o problema da dissipação do gradiente comum em uma rede neural recorrente padrão. 65 Tipo de rede profunda que pode ser usada para a redução da dimensionalidade. 66 Algoritmo para detecção de anomalias de dados desenvolvido inicialmente por Fei Tony Liu em 2008. 67 Uma estrutura de reforço de gradiente que utiliza algoritmos de aprendizagem baseados em árvores. 31 outros classificadores testados no trabalho. Os autores Chen, Zhou e Yu (2021), relatam que os conjuntos de dados de detecção de intrusão são propensos a um baixo desempenho de classificação devido ao desbalanceamento das classes de ataques e normal. Desta forma, sugerem o uso de ADASYN e RF para classificação no conjunto de dados CICIDS2017. Os resultados apresentados nos experimentos mostraram uma melhoria, com as métricas de Precisão de 98,50%, Sensibilidade de 92,30%, F1-Score de 95,30 e valores de AUC de 98,78% após o uso de ADASYN, comparando com SMOTE que obteve 98,39%, 91,72%, 94,94% e 99,74% com as mesmas métricas respectivamente. A combinação de RF+ADASYN também se mostrou superior a técnica RUS e para com os dados originais. No trabalho de Chindove e Brown (2021), os autores afirmam que devido ao tamanho e à aplicabilidade dos conjuntos de dados de detecção de intrusão, as técnicas de AM são essenciais para classificação do tráfego de redes. Diante deste fator, eles avaliam os conjuntos de dados CICIDS2017 e CICIDS2018, com as técnicas de seleção de features Gini Importance68 (GI), Permutation Importance69 (PI) e PCA e os classificadores MLP, SVM, KNN, DT, RF e Rede Neural Recorrente (RNN), juntamente com SMOTE. Os melhores resultados, apresentaram as taxas de F1-Score de 73% com a combinação RNN + PI e 87% com RF + PI, aplicado no conjunto de dados CICIDS2017. Já no CICIDS2018 as taxas com F1-Score foram de 73% e 72%, utilizando respectivamente as mesmas combinações. O trabalho de Bagui e Li (2021), afirma que a utilização de dados desbalanceados para classificar ataques com Redes Neurais Artificiais é um grande desafio, devido a enorme influência da classe majoritária, especialmente em classificação de multiclasses. Os autores também relatam em seus estudos que a técnica de oversampling tende a aumentar o tempo de treinamento e a de undersampling tende a diminuir, já resampling quase não impacta no tempo de treinamento e também detecta mais dados da classe minoritária. O modelo proposto por eles é a aplicação de combinações das técnicas de undersampling e oversampling em seis conjuntos de dados com cinco técnicas de reamostragens diferentes e classificá-los com Rede Neural Artificial (ANN). Os autores concluíram em seus experimentos, que para os conjuntos de dados que possuem um grande desbalanceamento de classes a técnica de resampling é a mais adequada para ser aplicada, mas em conjuntos com um baixo desbalanceamento de classes a melhora é pouco significativa. A técnica RURO70 foi a que teve o melhor desempenho para identificação de dados da classe minoritária, apesar da diferença para com as técnicas de RU-SMOTE71 e RU-ADASYN72 serem mínimas. A métrica de Sensibilidade Macro de RURO no conjunto de dados KDD’99 foi a mais alta atingindo 96%, enquanto a Sensibilidade Macro 68 O coeficiente de Gini mede a desigualdade entre os valores de uma distribuição de frequência. 69 Técnica que mede a contribuição de cada recurso para o desempenho estatístico de um modelo. 70 Técnia de resampling que utiliza subamostragem aleatória com técnica de sobreamostragem aleatória. 71 Técnica de resampling que utiliza subamostragem aleatória com técnica de sobreamostragem minoritária sintética. 72 Técnica de resampling que utiliza subamostragem aleatória com método de amostragem sintética adaptativa. 32 de RU-SMOTE e RU-ADAYSN ficou em 95,59%, já com RU o valor foi de 90,5% mostrando-se inferior aos outros métodos de resampling, mas muito melhor do que com os dados originais sem aplicações de técnicas de balanceamento com 73% de Sensibilidade. Já no trabalho de Varunram et al. (2021), a proposta considera uma classificação binária de ataques DDoS73 no conjunto de dados CICIDS2017, com os algoritmos kNN, AB, SVM, LR, RF, RNN e NB juntamente com SMOTE. Também são aplicadas três técnicas de redução e seleção de características PCA, t-SNE74 e UMAP75. Logo após, fazem uma comparação dos resultados, para descobrir qual classificador e técnica de redução de dimensionalidade combinadas apresentam melhor performance em AM. No trabalho proposto, a Precisão média dos modelos com a aplicação das técnicas de redução de dimensionalidade aumentou entre 4,01% e 30,59% respectivamente. A combinação que apresentou melhor desempenho foi kNN com Acurácia, Precisão, Sensibilidade e F1 de 99,98%, nos dados reduzidos do t-SNE. Quanto ao tempo gasto de treino, observaram que kNN e RF se destacam dos demais, com apenas 3 minutos cada. O estudo de Sapre, Islam e Ahmadi (2021) apresenta uma proposta para classificar dois tipos de ataques de intrusão: root-to-local76 (R2L) e user-to-root77 (U2R) no conjunto de dados NSL-KDD. Dentro da ideia, utilizam oversampling com Generative Adversarial Networks78 (GAN), oversampling com kNN e undersampling com NearMiss para balancear os dados e verificarem os resultados da classificação feita com Redes Neurais Artificiais. Os resultados mostraram que os melhores desempenhos apresentados para ataques U2R e R2L com a métrica F1-Score de 11% e 22%, respectivamente foram com os dados originais sem modificação. Já a classificação utilizando oversampling baseado em GAN conseguiu a maior taxa de Sensibilidade atingindo 94% na classificação da classe U2R. E o uso de undersampling com NearMiss obteve a melhor Sensibilidade para com a classe R2L atingindo 18%. O artigo de Tauscher et al. (2021) propõem uma classificação binária no conjunto de dados NSL-KDD com vários classificadores (DT, RF, NB, SVM, AB, GB, MLP e Autoencoder com 3 camadas e 15 neurônios), balanceando os dados com SVM-SMOTE79. Os resultados mostraram que o classificador SVM atingiu a melhor Precisão com 97,56%, GB a melhor Sensibilidade com 95.13% e Autoencoder produz a melhor Acurácia e F1-Score com 87,52% e 88,48% respectivamente. O trabalho de Jui et al. (2021) baseia-se na aplicação de AM utilizando combinações de técnicas de pré-processamento, seleção de características, oversampling, undersampling e 73 Ataques de negação de serviço distribuído. 74 Algoritmo de aprendizado de máquina usado para visualização e também para redução de dimensionalidade. 75 Técnica de redução de dimensionalidade baseada em gráficos, introduzida em 2018 por Leland McInnes. 76 Ataque para obter acesso não autorizado a uma máquina vítima na rede. 77 Ataque para obter ilegalmente os privilégios de root ao acessar legalmente uma máquina local. 78 Classe de estruturas de AM com uma estrutura proeminente para abordar a IA generativa. 79 Variante do algoritmo SMOTE que utiliza um algoritmo SVM 33 de algoritmos de classificação, nos conjunto de dados MQTT-IoT-IDS-202080 e NSL-KDD. Primeiramente, aplicam a normalização dos dados, já em uma segunda etapa aplicam SMOTE e undersampling. Na terceira etapa utilizam a seleção de recursos com Best First Search81(BFS) e Genetic Search82. Por fim, realizam a classificação com os algoritmos NB, Bagging, AdaBoost, J48 e RF. Nas diversas combinações aplicadas concluíram que para o conjunto de dados MQTT-IoT-IDS-2020, o algoritmo AdaBoost juntamente com BFS para técnica de seleção de recursos e J48 como algoritmo de classificação apresentam o melhor desempenho (99,86% de Acurácia em 2,81 segundos). Já para o conjunto de dados NSL-KDD, as combinações de oversampling, Bagging e Genetic Search apresentam o melhor desempenho (84,35% de Acurácia em 0,32 segundo). Tabela 3 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2021. Fonte: Elaborado pelo autor. Artigo Dados Classificador Técnica SC Métricas Mohseni e Tanha (2021) CICIDS2017 RF RUSBoost PCA ACC; G-Mean Anh et al. (2021) CICIDS2017 kNN; AB; RF; MLP; CNNID; LSTM Própria NI ACC; F1; S Szczepanski et al. (2021) IoT-23 ANN SMOTE; RUS; SMOTEENN NA ACC; P; S Wang e Sep- tian (2021) CICIDS2017; CICIDS2018 RNNs; LSTM SMOTE Oracle- explainer ACC; P; S; F1 Alshamy et al. (2021) NSL-KDD RF; SVM; LR; AB SMOTE NA ACC; F1; P; S Al-Imran e Ripon (2021) Kyoto 2013 RF; XGB; LSTM; GRU SMOTETomek MRMR ACC; F1; MCC; P; S Wang et al. (2021) NSL-KDD RF ADASYN SAE ACC; F1; P; S Seth, Singh e Chahal (2021) CICIDS2018 RF; ET; XGB; GB; KNN; LightGBM IF PCA; RF ACC; P; S 80 Conforme Hindy et al. (2020), é um conjunto de dados com base no protocolo Message Queuing Telemetry Transport (MQTT) usado para comunicação de dispositivos IoT. 81 Método de seleção de recurso que pesquisa o espaço do subconjunto de recursos usando escalada gananciosa. 82 Método que realiza uma pesquisa simples dos atributos usando um algoritmo genético. 34 Tabela 3 – Continuação. Chen, Zhou e Yu (2021) CICIDS2017 RF ADASYN; SMOTE; RUS NI AUC; F1; P; S Chindove e Brown (2021) CICIDS2017; CICIDS2018 MLP; SVM; KNN; DT; RF; RNN SMOTE GI; PI; PCA ACC; F1; P; S Bagui e Li (2021) KDD99; UNSW-NB15; UNSW-NB17; UNSW-NB18 ANN SMOTE; RU-SMOTE; ADASYN; RU-ADAYSN; RU; RO; RURO NA F1; P; S Varunram et al. (2021) CICIDS2017 RF; kNN; AB; LR; SVM; ANN; NB SMOTE PCA; t-SNE; UMAP ACC; F1; P; S Sapre, Islam e Ahmadi (2021) NSL-KDD RNA GAN; kNN (Oversampling); NearMiss NA S Tauscher et al. (2021) NSL-KDD DT; RF; NB; SVM; AB; GB; MLP SVM-SMOTE NA ACC; F1; S Jui et al. (2021) MQTT-IoT- IDS-2020; NSL-KDD NB; AB; J48; RF SMOTE BFS ACC Tabela 3 – Fim. 2.1.4 Trabalhos Correlatos - ano de 2022 Na proposta de Nagpal, Kaushal e Sharma (2022), a identificação de ataques de detecção de intrusão baseia-se em usar o classificador SVM de modo otimizado juntamente com o Big Bang-Big Crunch83 (BBBC), aplicando uma redução de features e fusão de características com Information Gain84 e Chisquare85, que mostra uma relação entre duas variáveis categóricas, mantendo apenas as características mais importantes do conjunto de dados. Por meio desta combinação de algoritmos de redução de dimensionalidade, os autores as reduzem de 41 para 27 features e conduzem as experiências com criação de quatro conjuntos de dados diferentes, a partir do conjunto de dados KDDCUP99. Logo após, aplicam undersampling, oversampling e resampling, com e sem redução de features, avaliando-os. Segundo os autores, os melhores 83 Método de otimização que se baseia em uma das teorias da evolução do universo foi proposto por Erol e Eksin (2006). 84 Técnica de seleção de características que calcula a redução da entropia. 85 Técnicas de seleção de características. 35 resultados foram atingidos com SVM, BBBC e a técnica de oversampling com a Acurácia de 97% e uma taxa de identificação de verdeiros positivos da classe de ataques tipo Probe86 de 99,92% e para classe Normal de 99%, porem com baixas taxas de identificação de Falsos Positivos. No trabalho de Gu et al. (2022) é realizada uma classificação de ataques de intrusão por meio de uma Rede Neural Convolutiva (CNN) e um algoritmo chamado CenterBoder- line_SMOTE (CB_SMOTE), para resolver o problema de limitação de ataques. O método CB_SMOTE proposto pelos autores, baseia-se na ideia do BSMOTE que os autores consideram o que melhor desempenha a função para uma boa classificação. A diferença do CB_SMOTE para o BSMOTE segue apenas na escolha dos dados da região de bordas, que são ampliados a partir do limite do conjunto de dados. Os autores nomearam o modelo proposto de Sistema de Detecção de Intrusão e Expansão (DEIDS). Os dados utilizados no estudo foram dois conjuntos de dados de controle industrial o SWaT (Sistema de Tratamento de Água Segura) e o S7, que simula a mineração e refino reais do processo industrial contendo ciberataques. Os autores também, relataram que conseguiram alcançar uma taxa média de Acurácia de 98,29% com o conjunto S7 e 98,88% com SWaT e uma taxa de detecção de 95% e 97% de acertos respectivamente. A proposta de Rani et al. (2022) propõem como solução para o desbalanceamento das classes dos conjuntos de dados NSL-KDD e UNSW-NB15 utilizar o classificador de Rede Neural aplicando penalidades por meio de pesos quando o algoritmo se comporta de modo tendencioso à classe majoritária. Os autores comparam a performance deste modelo com outros métodos já tradicionais de oversampling (SMOTE) e undersampling (Clustering Centroids), encontrados na literatura. Como resultado, concluíram que a técnica SMOTE produziu melhores resultados do que o método (Clustering Centroids), atingindo a pontuação de 85% e 91% e a medida de AUC de 94% e 97% para NSL-KDD e UNSW-NB15, respectivamente. Os autores recomendam que para trabalhos futuros poderão ser aplicadas técnicas de redução de dimensionalidade como uma melhoria do modelo proposto por eles. O trabalho de Lee, Kim e Choi (2022) tem como proposta testar vários métodos de oversampling (BSMOTE, ROS, SMOTE e ADASYN) aplicados isoladamente e também combinados com OSS, utilizando o conjunto de dados CICIDS2017. Na seleção de características os autores removem 8 recursos que contém os mesmos valores (’Bwd PSH Flags’, ’Bwd URG Flags’, ’Fwd Byts/b Avg’, ’Fwd Pkts/b Avg’, ’Fwd Blk Rate Avg’, ’Bwd Byts/b Avg’, ’ Bwd Pkts/b Avg’, ’Bwd Blk Rate Avg’). Para a classificação utilizam CNN e avaliam o desempenho, com as métricas de Acurácia, Precisão, Sensibilidade e F1-Score com base nos quatro indicadores da matriz de confusão (TP, FP, FN, TN). Em conclusão, observaram que apesar dos métodos de oversampling apresentar uma melhora de 3,98% na classificação em média, o método 86 Tipo de ataque onde um dispositivo envia muitos pacotes de autenticação diferentes, com a intensão de sobrecarregar o ponto de acesso vítima do ataque, de modo a forçar uma reinicialização do dispositivo. 36 híbrido de OSS+BSMOTE atingiu o melhor desempenho com 94,58% de Acurácia, 94,58% com F1-Score (micro), e 91,36% com F1-Score (macro). Na proposta de Abedzadeh e Jacobs (2022) os autores dividem os dados em treino e teste e logo após realizam a limpeza dos dados e uma seleção de características híbrida com Forward Selection Algorithm87(FSA) e PCA diminuindo de 79 para 8 features o conjunto de dados CICIDS2018. Na segunda etapa aplicam os algoritmos Markov Chain Monte Carlos (MCMC) e GAN como técnicas de oversampling para analisar a atuação dos modelos. Na terceira etapa, já com os dados balanceados, fazem uma classificação binária aplicando um conjunto de algoritmos (Linear Regression, Lasso, Ridge, ElasticNet, LR, Gaussian Naïve Bayes, Nearest Centroid, NN). Os resultados mostraram que o MCMC e GAN não apresentou melhoras em comparação com a aplicação nos dados originais. Os melhores desempenhos foram obtidos com LR e NN aplicado no conjunto de dados original. Também relatam que a LR gera um custo computacional menor, atingindo a Acurácia de 88%, Precisão de 88% e Sensibilidade de 99%. Neste artigo os autores Surya e Selvam (2022) procuram classificar ataques de intrusão no conjunto de dados IoTID2088 utilizando AM. Para seleção de características removeram 9 colunas com zero de entradas. Neste contexto, utilizam cinco algoritmos para classificação binária (Gaussian Naive Bayes (GNB), LR, DT, kNN e RF) e três para uma classificação multiclasses (GNB, DT, RF), aplicando SMOTE para balanceamento dos dados. Nos resultados da classificação binária atingem a Acurácia de 92.03% tanto para DT, como para RF, Precisão de 99%, Sensibilidade de 100% com GNB e F1-Score de 92% utilizando DT e RF. Já na classificação multiclasses os melhores resultados foram a Acurácia de 90,25% com DT e a métrica de Precisão e Sensibilidade alcançando 100% com os três classificadores para com a classe de Scan89. Na proposta de Abdulkareem et al. (2022) os autores propõem uma classificação com Ensemble Stack usando DT, NB, LR para detecção de intrusão. Para o problema de desbalanceamento do conjunto de dados Bot-IoT90 aplicam a técnica de SMOTE testando o desempenho de 11 categorias de ataques, divididos em 80% para treino e 20% para testes, no qual apenas 3 das 43 características do conjunto são descartadas por serem especificas do dispositivo que coletou os dados. Para avaliar o desempenho utilizam as métricas de Acurácia, Precisão, Sensibilidade, Especificidade, Pontuação F1, Taxa de Falso Positivos, Taxa de Falso Negativos, Especificidade e o tempo de treino e teste, com e sem SMOTE. Nos resultados, o SMOTE-Stack superou outros classificadores de última geração em todas as 11 categorias de ataques, porém o tempo de treino e teste aumentou devido a aplicação de oversampling. 87 Tipo de regressão passo a passo que começa com um modelo vazio e adiciona variáveis uma por uma fornecendo melhoria ao modelo. 88 Conjunto de dados desenvolvido para detecção de ameaças no ecossistema da Internet. 89 Técnica comum que os hackers usam para descobrir portas abertas ou pontos fracos em uma rede. 90 Conjunto de dados criado através da concepção de um ambiente de rede realista no Cyber Range Lab da UNSW Canberra. 37 As métricas de Acurácia, F1, Precisão e Sensibilidade atingiram 100%, 100%, 99% e 99% respectivamente. Com o objetivo de construir um modelo de detecção de intrusão baseado no balancea- mento de dados e seleção de recursos, o trabalho de Sun et al. (2022) aplica uma metodologia híbrida utilizando as técnicas RUS (undersampling), seguida de BSMOTE (oversampling) no conjunto de dados CICIDS2017. Logo em seguida, dividem os dados em treino e teste (70-30) e realizam uma seleção de características baseada em Information Gain, separando os resultados em 6 grupos de dados contendo as seguintes quantidades de recursos (4, 22, 36, 62, 70 e 78) a partir do mais pontuado para o menos pontuado. Na etapa seguinte classificaram os dados com os algoritmos kNN, DT, RF. A partir dos resultados concluem que ao utilizarem o grupo com 62 características atingem a melhor taxa de Sensibilidade de 96% com DT, melhorando principalmente o reconhecimento de ataques de Web Attack Brute Force utilizando qualquer dos três algoritmos. Tabela 4 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2022. Fonte: Elaborado pelo autor. Artigo Dados Classificador Técnica SC Métricas Nagpal, Kaushal e Sharma (2022) KDDCUP99 SVM undersampling ; oversampling ; resampling IG; Chis- quare ACC; F1; P; S; Gu et al. (2022) SWaT; S7 CNN CB_SMOTE (oversampling) NI; ACC; F1; P; S; FNR; FPR Rani et al. (2022) NSL-KDD; UNSW-NB15 NN SMOTE; CC NA; ACC; AUC; F1; P; Lee, Kim e Choi (2022) CICIDS2017 CNN BS;ROS; SMOTE; ADASYN;OSS Próprio ACC; F1; P; S Abedzadeh e Jacobs (2022) CICIDS2018 Linear Regres- sion; Lasso; Ridge; Elas- ticNet; LR; NB; Nearest Centroid; NN SMOTE FSA; PCA P; S Surya e Sel- vam (2022) IoTID20 Ensemble Stack (DT, NB, LR) SMOTE Próprio ACC; F1; P; S 38 Tabela 4 – Continuação. Abdulkareem et al. (2022) Bot-IoT Ensemble Stack (GNB; LR; DT; kNN; RF) SMOTE Próprio ACC; E; F1; P; S; FNR; FPR Sun et al. (2022) CICIDS2017 kNN; DT; RF BS; RUS IG S Tabela 4 – Fim. 2.1.5 Trabalhos Correlatos - ano de 2023 O estudo de Xiang, Xu e Tang (2023) explora os algoritmos de oversampling Random Over Sampling91 (ROS) e SMOTE em várias proporções de desbalanceamento que podem impactar na classificação utilizando CNN, Vision Transformer 92 (VT), XGBoost e CatBoost no conjunto de dados CICIDS-2017. Os resultados apontaram que o classificador VT juntamente com SMOTE obteve a melhor performance atingindo com Sensibilidade, Precisão, F2-Score e AUC de 99,10%, 97,23%, 97,52% e 99,42% respectivamente. Concluíram também que o uso da técnica ROS, quando aplicado em uma taxa de desbalanceamento de 99:1 aumenta a AUC dos algoritmos de classificação utilizados nos experimentos. Complementam ainda que à medida que o desequilíbrio aumenta, a Acurácia dos quatro classificadores diminui, resultando em uma diminuição na métrica F2-Score93 o que implica que o aumento das amostras melhora a capacidade de aprendizado do modelo. Para os autores Verma et al. (2023) a presença de dados com classes desbalanceadas representam um grande desafio para sistemas de detecção de intrusão, dentro deste contexto, os autores propõem uma abordagem de classificação binária no conjunto de dados UNSW-NB15, selecionando as características com PCA e aplicando oversampling baseado na utilização da técnica Gametic Hereditical(GH), algoritmo inspirado em princípios da biologia genética para equilibrar classes em aplicações de segurança cibernética em sistemas IoT. Para classificação utilizam os algoritmos RF, kNN, LR, SVM, DT e validam a eficácia do modelo com as métricas de Acurácia, Sensibilidade e F1-Score atingindo o desempenho de 97,70%, 99,10% e 98,10% respectivamente com RF. Os autores afirmam que o modelo proposto garante a propagação de amostras sintéticas que se encontram dentro dos limites da classe minoritária, superando os métodos convencionais nos valores das métricas em 6% para Acurácia, 8% para taxa de Sensibilidade e 7% para F1-Score. Os autores de Dasari et al. (2023) sugerem um modelo de Ensemble com uso de 91 Método de sobreamostragem aleatória usado para equilibrar a distribuição de classes multiplicando aleatori- amente as amostras de rótulos de classes minoritárias. 92 Mecanismo para analisar imagens, dividindo-as em fragmentos menores e aproveitando mecanismos de autoatenção conforme Dosovitskiy et al. (2020). 93 Métrica utilizada para diminuir a importância da Precisão e aumentar a importância da Sensibilidade. 39 Machine Learning Analytics94 utilizando RF, XGB e comparam com classificadores únicos NB, DT e kNN. Para preparação do modelo realizam uma seleção de características utilizando Relevância Mínima de Redundância Máxima (MRMR) e para o balanceamento dos dados no conjunto de dados KDDCUP99 aplicam SMOTE, após converter os dados para uma classificação binária. Para validação do modelo utilizam a métricas de Acurácia e F1-Score conseguindo um desempenho de 98,09% e 97,89% respectivamente. Também afirmam que o modelo proposto quando comparado com outras abordagens de Ensemble com Extra Trees (ET) possui maior rapidez de classificação, proporcionando um melhor desempenho. Visando o problema de dados de intrusão desbalanceados, o trabalho de Wang et al. (2023) tem como proposta um método de oversampling chamado RB-SMOTE, que utiliza BSMOTE como base aplicando uma camada de refinamento por meio de Rede Neural Convolucional (CNN) de oito camadas para classificação. Os autores utilizam o conjunto de dados NSL-KDD, no qual verificam as dimensões dos dados para converte-los em imagens descobrindo semelhanças do mesmo tipo de dado e assim aplicam penalizações em regiões que podem melhorar a representação dos recursos. Comparando os resultados com outros métodos como RF + BSMOTE que atingiu 93,53% e SMOTEENN + CNN com 99,35% de Acurácia, mostraram que o método proposto por eles apresentou um bom desempenho atingindo 99,84% com mesma métrica. O trabalho de Madwanna et al. (2023) tem como proposta uma classificação com dois modelos de Deep Learning para detecção de intrusão. O primeiro baseia-se na utilização de CNN juntamente com RNN aplicando LuNet95 para classificar dados de tráfego de entrada extraindo dados temporais. No segundo modelo utilizam o método Temporal Neighborhood Coding96 (TNC) com CNN para calcular características temporais de baixo nível e logo após, esses recursos alimentam uma RNN para obter os recursos temporais de alto nível realizando uma classificação unificada de captura das informações. Os conjuntos de dados utilizados são UNSW-NB15 e NSL-KDD aplicando SMOTE para o balancear as classes. A validação dos modelos propostos é realizada por meio de uma comparação com outros modelos selecionados na literatura. Os resultados mostraram que o primeiro modelo proposto alcançou 82,19% e 98,87% de Acurácia na classificação de ataques nos conjuntos UNSW-NB15 e NSL-KDD, respectivamente. No segundo modelo alcançou 98,87% de Acurácia usando o conjunto de dados NSL-KDD. A melhor Acurácia nos modelos utilizados para comparação foi de 82,20% com aplicação de SVM e AdaBoost para o balanceamento dos dados. Com o intuito de classificar ataques de intrusão de forma binária no conjunto de dados UNSW-NB15, os autores Mouiti et al. (2023) utilizam ADASYN para lidar com o desequilíbrio das classes e aplicam os classificadores LR, RF, DT e Multilayer Perceptron (MLP) com e 94 Processo analítico de avaliação de dados e descoberta de insights para tomada de decisões. 95 Múltiplos níveis de convolução combinados e sub-redes recorrentes. 96 Codificação de Vizinhança Temporal, aproveita a suavidade local do processo gerador de um sinal para definir vizinhanças no tempo com propriedades estacionárias. 40 sem ajustes de hiperparâmetros para uma comparação. Dentro deste cenário, afirmam que o não ajuste dos hirperparâmetros e a não aplicação da validação cruzada implica a um modelo impreciso com um elevado viés (underfitting) ou alta variância (overfitting) e ainda provoca um aumento no tempo de treinamento. Como resultado, verificam que o desempenho do modelo proposto melhoram a classificação, principalmente para o uso de RF, superando 98% para com as métricas de Acurácia, Precisão, Sensibilidade, F1 e AUC; Logo após, o DT, variando entre 94% para Sensibilidade e 96% para Precisão; LR, entre 86% para o Sensibilidade e 96% para o AUC; e MLP, atingindo entre 89% e 97% para as taxas de Sensibilidade e a AUC, respectivamente. O artigo de Gou, Zhang e Zhang (2023), propõem uma classificação de ataques utilizando Ensemble Bagging com os algoritmos RF, ET, XGB e LightGBM nos conjuntos de dados CICIDS-2017 e Car-Hacking97. Devido ao desbalanceamento dos conjuntos usam as técnicas de SMOTE+ RUS e ROS+RUS para solucionar o problema de desequilíbrio das classes e também aplicam PCA reduzindo os 78 atributos do CICIDS2017 para 27. No dataset Car-Hacking evitam a seleção de recursos por possuir apenas 8 recursos. Os resultados mostraram que na classificação do conjunto de dados CICIDS2017 usando a combinação híbrida de SMOTE e RUS o modelo atinge 96,65% de F1 e no conjunto Car-Hacking 99,99% com a mesma métrica. Os autores relatam que o modelo proposto por eles pode proporcionar uma melhoria de 6,8% na pontuação F1 comparado com os dados originais. Outras métricas como Sensibilidade, Acurácia e Precisão também foram aplicadas na classificação de ambos conjuntos de dados e tendo como resultados 99,99% quando aplicado no conjunto Car-Hacking e 96,65%, 94,90% e 96,65% respectivamente no CICIDS2017. A proposta dos autores Jin et al. (2023) visa a classificação com os algoritmos CNN e LSTM para ataques de intrusão. Para resolver o desbalanceamento do conjunto de dados utilizado no trabalho, que foi originado do tráfego da rede de um sistema de controle de armazenamento de água da província de Hebei98, aplicam SMOTE. Na validação dos resultados os autores comparam o modelo com outros que aplicam RF, DT, SVM e LR. Com isso, percebem que após a aplicação de SMOTE a detecção de ataques (classe minoritária) obteve uma melhora significativa. Na aplicação de forma multiclasses, a Acurácia do modelo proposto atingiu 97,04%, a Precisão 97,17%, F1 97,03% e a taxa de falsos negativos foi de 2,95%. Já na classificação binária a Acurácia foi de 99,30% e a taxa de falsos negativos de 0,7%. Em comparação com os modelos propostos, DT obteve a segunda melhor Acurácia com 95,43%, F1 com 94,39% e taxa de falsos negativos de 4,57%. O classificador RF atingiu segunda melhor Precisão com 94,98%. No trabalho de Rahma et al. (2023) os autores afirmam que o desbalanceamento das classes tem sido um problema decisivo em sistemas de detecção de intrusão por serem 97 Conjunto de dados fornecido e coletado durante o Car Hacking: Attack & Defense Challenge em 2020. 98 Província da República Popular da China. 41 tendenciosos para a classe majoritária. Desta forma, exploram em seu trabalho várias técnicas de oversampling e undersampling (Random Over Sampling, SMOTE, ADASYN, Random Under Sampling, AllKNN99, TomekLinks, SMOTEENN e SMOTETomek) para melhorarem a detecção de ataques usando a técnica de aprendizado profundo combinando Rede Neural Convolucional e LSTM Bidirecional (BiLSTM). Os resultados apontaram que com os dados brutos a pontuação de Acurácia obteve o melhor resultado atingindo 96,50%. Mas utilizando o método Random Over Sampling conseguem a maior pontuação F1 com 58,95%. Em conclusão relatam que as técnicas de undersampling e oversampling podem melhorar o desempenho de IDS de forma singular, mas ainda precisam ser aprimorados. O conjunto de dados utilizado nos experimentos foi UNSW-NB15. O estudo de Gavrylenko, Vladislav e Khatsko (2023) visa melhorar a qualidade da classificação dos dados desbalanceados no conjunto de dados UNSW-NB15. Diante de vá- rias abordagens de balanceamento de dados como SMOTEENN, SVM-SMOTE, BSMOTE, ADASYN, SMOTE, KMeansSMOTE100 testadas pelos autores, o SMOTEENN foi a que atingiu a melhor performance, destacando-se com uma pontuação F1 de 94% juntamente com os classificadores Gradient Boosting ou Random Forest. Segundo os autores, em comparação com a classificação aplicada nos dados originais usando a mesma métrica atingiu apenas 61%. Os autores Bagui et al. (2023) citam em seu trabalho que apesar do aumento dos ataques nas redes de computadores crescerem frequentemente, a porcentagem desses ataques no tráfego real da rede é significativamente menor, formando conjuntos de dados altamente desbalanceados. Em solução utilizam de undersampling e oversampling nos dados e vice-versa, com as técnicas BSMOTE e SVM-SMOTE e RUS no conjunto de dados UNSW-NB15 para observarem a melhor porcentagem para ser aplicada nos dados. Devido a Acurácia ser uma métrica tendenciosa para classes com mais dados, os autores utilizam a Precisão, Sensibilidade, F1 para avaliar os modelos. Após uma seleção de características com Information Gain, a classificação se realiza com algoritmo kNN, testando os valores de k = 3, 5 e 10. Em conclusão notam que usando uma sobreamostragem de 10% tanto com BSMOTE ou SVM-SMOTE seguidos da subamostragem com RUS alcançam os melhores resultados e também relatam que para classes mais raras, o uso de kNN com k mais alto levou a um aumento nas porcentagens dos resultados de resampling. Com o método de oversampling SVM-SMOTE seguido do método de undersampling RUS e classificando kNN com k = 10 atingiram a Precisão 91,40%, Sensibilidade de 95,70%, F1 de 93,50% e Macro precisão de 95,70% e com BSMOTE seguido de RUS alcançaram 96,80%, 94,40%, 95,60%, 98,40% respectivamente, classificando ataques de Backdoors.101. Na proposta de Mohammadi e Babagoli (2023), o objetivo é a detecção de ataques de 99 Técnica de undersampling derivação de Edited Nearest Neighbours proposto por Tomek (1976). 100 Técnica de oversampling baseado em agrupamento k-means juntamente com a técnica SMOTE. 101 Tipo de ataque onde um mecanismo de segurança do sistema é contornado de forma indetectável para acessar um computador. 42 Brute force, Infiltration, Botnet e Portscan baseado em modelagem de regressão não linear utilizando o conjunto de dados CICIDS2017. No pré-processamento, o algoritmo SMOTETomek é utilizado para o balanceamento dos dados e na seleção dos recursos os algoritmos meta- heurísticos Gray Wolf 102 e Hunger Games Search (HGS)103, que removeu mais de 80% dos recursos do conjunto de dados classificando-os com irrelevante. Em sequência realizam uma classificação binária com Regressão Logística. Os resultados apontaram para uma melhor atuação do algoritmo híbrido HGS em comparação aos resultados nos trabalhos relacionados, obtendo uma taxa média de Acurácia de 99,17% contra a média de 94,61% dos trabalhos relacionados. Tabela 5 – Artigos obtidos por meio da Revisão Sistemática da Literatura publicados no ano de 2023. Fonte: Elaborado pelo autor. Artigo Dados Classificador Técnica SC Métricas Xiang, Xu e Tang (2023) CICIDS2017 CNN; VT; XGB; CatBoost ROS; SMOTE; NA AUC; F2; P; S Verma et al. (2023) UNSW-NB15 RF; kNN; LR; SVM; DT GH PCA ACC; F1; S Dasari et al. (2023) KDD99 RF, XGB ROS; SMOTE MRMR ACC; F1 Wang et al. (2023) NSL-KDD RF; CNN; RB-SMOTE; BS; SMOTEENN Correlação ACC Madwanna et al. (2023) UNSW-NB15; NSL-KDD RNN; CNN; SVM; AB BS; RBSMOTE NA ACC Mouiti et al. (2023) UNSW-NB15 LR; RF; DT; MLP ADASYN NA ACC; AUC; F1; P; S Gou, Zhang e Zhang (2023) CICIDS2017 RF; ET; XGB; LightGBM SMOTE; ROS; RUS PCA ACC; F1; P; S Jin et al. (2023) Próprio (He- bei) CNN; LSTM SMOTE NA ACC; F1; FNR; P; S Rahma et al. (2023) UNSW-NB15 CNN; LSTM ROS,SMOTE; ADASYN;RUS; AllKNN;Tomek; SMOTEENN; SMOTETomek NA ACC; F1; S 102 Técnica meta-heurística estocástica de inteligência de enxame, desenvolvida em 2014, cuja ideia é baseada no modelo de caça em bando dos lobos cinzentos. 103 Algoritmo projetado conforme as atividades motivadas pela fome e a escolha comportamental dos animais. 43 Tabela 5 – Continuação. Gavrylenko, Vladislav e Khatsko (2023) UNSW-NB15 Ensemble; GB; RF SVMSMOTE;BS; ADASYN; SMOTE; KMe- ansSMOTE; SMOTEENN NA F1; Bagui et al. (2023) UNSW-NB15 kNN SVM-SMOTE; BS; RUS IG F1; P; S Mohammadi e Babagoli (2023) CICIDS2017 LR SMOTETomek Gray Wolf ; HGS ACC Tabela 5 – Fim. 2.2 Inclinações Extraídas dos Trabalhos Uma análise dos conjuntos de dados, classificadores, métodos de seleção de caracte- rísticas, técnicas de balanceamento de dados aplicadas e métricas de avaliações, permitem uma visualização das inclinações mais utilizadas empregadas na presente pesquisa. A Figura 4 apresenta os cinco conjuntos de dados mais utilizados por quantidade e ano a ano, nos trabalhos selecionados nesta pesquisa: Figura 4 – Conjuntos de dados extraídos nos trabalhos selecionados - visualização ano a ano. Fonte: Elaborado pelo autor. 44 Observa-se, que o conjunto de dados CICIDS2017 aparece presente nos trabalhos dos anos de 2019 até 2023, tendo uma expressiva representação nos artigos selecionados, somando um total de 14 repetições. Já CICIDS2018 apesar de contabilizar 6 trabalhos não aparece nos anos de 2019 e 2023. Nota-se que o conjunto de dados UNSW-NB15, obteve um crescimento expressivo em 2023, porém em 2019 não foi encontrado em nenhum trabalho selecionado, contabilizando um total de 9 trabalhos. Também representativos no gráfico apresentam-se o NSL-KDD com 11 aparições e o KDDCup99 com 6 ambos representados de 2019 até 2023 nos papers da pesquisa, mas possuem dados obsoletos se comparados aos demais, por se tratar de conjuntos de dados com mais de duas décadas, não contendo ataques mais recentes como Ransomware104 e com muita publicações existentes. No entanto, cabe ressaltar que embora eles sejam antigos, são muito usados ainda, pois permitem comparar desempenhos atuais com desempenho passados. Neste sentido, pode-se dizer que quanto mais novos os dados de ataques nos conjuntos de dados, mais viáveis para construção de um modelo de classificação eficaz, por conter tanto ataques e vulnerabilidades do cenário atual, quanto também tráfego normal de redes, compatíveis com os dispositivos atualizados. Segundo Khraisat et al. (2019), que pesquisaram a eficiência de vários conjuntos de dados de IDS usados para as técnicas de AM, relatam que diversas abordagens foram utilizadas para detecção de ataques de dia zero, mas estas técnicas apresentam problemas para gerar e atualizar estes dados, fazendo produzir alarmes falsos ou apresentarem uma baixa Acurácia em suas classificações. Complementam ainda, que como as atividades normais estão modificando frequentemente perdem sua precisão com o tempo, o que torna necessário que AM utilize conjunto de dados novos e mais abrangentes. É importante ressaltar que em alguns trabalhos selecionados na pesquisa, os autores utilizaram mais de um conjunto dados para seus experimentos, o que também foi contabilizado na contagem apresentada na Figura 4. A Figura 5 ilustra os classificadores utilizados por ano extraídos dos trabalhos selecio- nados na pesquisa. Trata-se dos cinco classificadores com mais utilização ao longo dos anos, ficando visível um grande uso de Random Forest (RF), que aparece em enorme quantidade em 2021 contabilizando 11 vezes e totalizando 26 de 2019 a 2023. Percebe-se também, uma grande utilização de Rede Neurais (NN) principalmente no ano de 2021 somando 9 trabalhos. Mas não se pode deixar de considerar o uso de Máquinas de Vetores de Suporte (SVM), embora tenha apresentado queda em 2022 que aprece em apenas 1 trabalho, porém somando 13 representações em todo o período de 2019 a 2023, igualmente 104 Tipo de código malicioso que torna inacessíveis os dados armazenados em um equipamento, geralmente usando criptografia. 45 Decison Tree (DT) também com 13 representações aparecendo em todos os anos da pesquisa. E por fim, k-Nearest Neighbor (kNN) que aprece em 5 trabalhos no ano de 2020 e 14 no período de 2019 a 2023. Esses dados podem ajudar a entender os classificadores escolhidos nos anos de 2019 a 2023 para trabalhar juntamente com técnicas de balanceamento dos dados em conjunto de dados de intrusão. É importante evidenciar que em alguns trabalhos selecionados na pesquisa, os autores utilizaram mais de um classificador, o que também foi contabilizado na contagem apresentada na Figura 5. Outro fator observado nos trabalhos, é que alguns autores associaram classificadores, aplicando-os sequencialmente para conseguir atingir uma melhor performance, RF é um exemplo disso sendo citado em vários trabalhos que foram selecionados. No artigo de Sun et al. (2020), a proposta pretende aplicar o algoritmo de classificação individualmente para cada classe detectada pelo ataque do IDS105, tanto nos conjuntos de dados UNSW-NB15 como no CICIDS-2018 e logo após aplicam a média dos resultados de cada métrica por classe de ataque antes e depois da aplicação da técnica de SMOTE para uma comparação dos resultados. Figura 5 – Classificadores utilizados nos artigos correlatos. Fonte: Elaborado pelo autor. A Figura 6 apresenta as 5 técnicas mais aplicadas nos trabalhos correlatos, pode-se observar que a técnica SMOTE é utilizada na maioria dos trabalhos correlatos para tratar o 105 Sistema de detecção de intrusão. 46 desbalanceamento das classes nos conjuntos de dados, totalizando 26 trabalhos. Com isto, nota-se que mais da metade dos trabalhos aplicaram a técnica de SMOTE para equilibrar as classes ou para validar o modelo proposto, fazendo comparações. Também, aparece a derivação do método SMOTE (BSMOTE), que faz-se notar que não foi usado apenas no ano de 2021 em trabalhos escolhidos na pesquisa, mas somam 9 trabalhos que fizeram o uso desta técnica. A técnica SMOTE surgiu no ano de 2002 proposto por Chawla et al. (2002), sendo uma das mais conhecidas na aplicação de conjunto de dados desbalanceados para ser usado na classificação de modelos de AM. O SMOTE usa o algoritmo kNN para selecionar as k amostras da classe minoritária mais próximas de uma amostra também da classe minoritária, e amostras sintéticas são criadas e posicionadas no segmento entre elas. Já BSMOTE, surgiu em 2005 quando Han, Wang e Mao (2005), baseando-se na técnica SMOTE apresentam dois novos métodos de oversampling : BSMOTE1 e BSMOTE2, que usa apenas os exemplos minoritários próximos à fronteira entre as classes para serem superamostrados. O trabalho de Pawlicki et al. (2020), testou com vários algoritmos de balanceamento de dados aplicado no conjunto de dados CICIDS2017 e BSMOTE foi o que melhor se ajustou em comparação com outros métodos de oversampling do modelo proposto por eles. Também relatam em seu trabalho, que muitas abordagens derivadas de SMOTE vem sendo encontrada na literatura. A técnica ADASYN foi aplicada em 8 trabalhos selecionados para a pesquisa, este algoritmo foi proposto por He et al. (2008) e tem como base a geração dos dados da classe minoritária de forma adaptativa conforme as distribuições das classes. Este modelo procura amostras que são difíceis de aprender, fazendo uma sobreamostragem para equilibrar as classes dos conjuntos de dados. No trabalho de Chen, Zhou e Yu (2021), os autores aplicaram a técnica de ADASYN e classificaram o modelo proposto com Random Forest, combinação que comparada com outras técnicas de (oversampling) aplicadas no conjunto de dados CICIDS2017, foi a que atingiu melhores resultados. A técnica RUS também contabilizou 8 trabalhos na pesquisa, ficando com a mesma quantidade ano a ano que ADASYN. A técnica Random Under-Sampling (RUS) é fundamentada da seguinte forma: cada elemento da classe onde será feita a predição, possui uma chance igual de ser escolhida para a amostra. Determina-se a quantidade de dados da amostra e com um método de sorteio, a cada tipo de amostra dos dados é atribuído um número, em seguida os números são selecionados aleatoriamente. Esta abordagem de undersampling é comumente usada para lidar com conjuntos de dados desbalanceados em problemas de classificação em AM. 47 Em Bagui et al. (2023), os autores aplicaram várias técnicas de undersampling e oversampling no conjunto de dados UNSW-NB15, perceberam que os melhores resultados foram atingidos na aplicação com RUS após a aplicação de BSMOTE. Outra técnica entre as 5 mais aplicadas nos trabalhos correlatos foi Random Oversam- pling (ROS), que utiliza a classe minoritária para balancear o conjunto de dados, duplicando aleatoriamente os dados com ou sem reposição as observações de dados da classe minoritária. No trabalho de Xiang, Xu e Tang (2023) os autores perceberam que ao aplicar a técnica ROS no conjunto de dados CICIDS2017 em uma taxa de desbalanceamento de 99:1 aumenta a AUC dos algoritmos de classificação utilizados em seus experimentos. Faz-se importante ressaltar que foram aplicadas pelos autores uma ou mais técnicas a cada trabalho, sendo todas contabilizadas na contagem da Figura 6. Figura 6 – Técnicas de balanceamento utilizadas nos trabalhos correlatos. Fonte: Elaborado pelo autor. Na Figura 7, percebe-se que o método de oversampling aparece com mais frequência nos trabalhos correlatos para resolver o problema de desbalanceamento dos dados nos conjuntos de dados gerados por IDS. Porém, nota-se que o método de resampling vêm crescendo nos últimos anos, sendo que no ano de 2023 aparece em 6 trabalhos na pesquisa. Notou-se também, que a maioria dos autores dos trabalhos correlatos aplicaram mais de um método de balanceamento de classes, para fazer uma comparação dos resultados e verificar o melhor resultado por meio das métricas de avaliação. 48 Na contagem do gráfico da Figura 7 contabilizou-se todos os métodos descritos pelos autores dos trabalhos correlatos. Conforme Chen, Zhou e Yu (2021), os conjuntos de dados gerados por IDS apresentam um grande e grave desequilíbrio que resultam em um baixo desempenho de classificação em comportamentos de ataque de pequeno tamanho de amostra, dificultando a detecção ataques de rede com precisão e eficiência. Percebe-se que devido à pequena quantidade nas classes de ataques, os autores aplicam o método de oversampling com mais frequência, porém os métodos de undersampling e de resampling em alguns casos podem trazer bons resultados. Figura 7 – Métodos de balanceamento utilizadas nos trabalhos correlatos. Fonte: Elaborado pelo autor. 2.2.1 Métricas de Desempenho Utilizadas nos Trabalhos Correlatos As diversas métricas de classificação têm como alvo comum medir a performance do modelo proposto, mas realizam a tarefa de formas diferentes. Segundo Alfrhan, Alhusain e Khan (2020), a métrica F1-Score é a que produz um resultado mais correto ao trabalhar com conjuntos de dados que possuem dados desbalanceados, por possuir um baixo Valor Preditivo Positivo (PPV) das classes de ataques, que contêm pequenas porcentagens de dados, apesar de ser afetado pelos valores decrescentes da Sensibilidade e Precisão. Entretanto, citam que Acurácia também pode ser conveniente para conjunto de dados com classes desbalanceadas, por conter um leve efeito sobre a classe minoritária. Pode-se verificar algumas destas métricas nas equações: 49 A Acurácia pode ser obtida pela soma de Verdadeiros Positivos (VP) e Verdadeiros Negativos (VN) sobre a soma de Verdadeiros Positivos (VP), Verdadeiros Negativos (VN), Falsos Positivos (FP) e Falsos Negativos (FN). Acurácia = V P + V N V P + V N + FP + FN (1) A Precisão é a métrica que avalia a quantidade de Verdadeiros Positivos(VP) sobre a soma de Verdadeiros Positivos(VP) e Falsos Positivos(FP). Precisão = V P V P + FP (2) A Sensibilidade ou Recall é a métrica que avalia a capacidade de detectar os resultados classificados como positivos e pode ser definida como Verdadeiros Positivos(VP) sobre a soma de Verdadeiros Positivos(VP) e Falsos Negativos(FN). Sensibilidade = V P V P + FN (3) A Especificidade avalia a capacidade do método detectar resultados negativos e pode ser definida como: Verdadeiros Negativos(VN) sobre a soma de Verdadeiros Negativos(VN) com Falsos Positivos(FP). Especificidade = V N V N + FP (4) A métrica F1-Score ou F–Measure é uma medida harmônica entre a Precisão e a Sensibilidade. F1 − Score = 2 ∗ (precision ∗ sensibilidade) (precision + sensibilidade) (5) Outra métrica utilizada nos trabalhos correlatos para avaliação dos modelos de clas- sificação de intrusão usadas por Rani et al. (2022) e por Alfrhan, Alhusain e Khan (2020) é a Curva ROC (Receiver Operating Characteristic Curve), que se resume em um gráfico que permite medir um classificador binário levando em conta os Verdadeiros Positivos (VP) e Falsos Positivos (FP), podendo ser obtida por meio do cruzamento gráfico da Precisão com o Recall (Sensibilidade) em diferentes limiares de decisão, estimando os valores da área s