UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Câmpus Bauru Weslley Rosalem Previsão de séries temporais com Transformers e LSTM otimizadas por meta-heurísticas: uma abordagem AIOps para previsão de consumo de recursos computacionais. Bauru 2025 Weslley Rosalem Previsão de séries temporais com Transformers e LSTM otimizadas por meta-heurísticas: uma abordagem AIOps para previsão de consumo de recursos computacionais. Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Ciência da Computação, junto ao Programa de Pós-Graduação em Ciência da Computação, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho", Câmpus de Bauru. Orientador: Prof. Dr. Kelton Augusto Pontara da Costa UNESP Bauru 2025 R788p Rosalem, Weslley Previsão de séries temporais com Transformers e LSTM otimizadas por meta-heurísticas: uma abordagem AIOps para previsão de consumo de recursos computacionais. / Weslley Rosalem. -- Bauru, 2025 112 p. Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru Orientador: Kelton Augusto Pontara da Costa 1. Deep Learning. 2. Séries Temporais. 3. LSTM. 4. Transformer. 5. AIOps.. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a). Resumo Com a crescente transformação digital, a gestão de ambientes de Tecnologia da Informação (TI) tornou-se um desafio cada vez mais complexo e dinâmico. A Inteligência Artificial para Operações de TI (AIOps) surge como uma solução promissora, integrando aprendizado de máquina e big data para automatizar tarefas críticas, como a detecção de anomalias, a pre- visão de capacidade e a identificação de causas raízes. Este estudo propõe uma abordagem comparativa entre as arquiteturas Long Short-Term Memory (LSTM) e Transformer para a previsão de consumo de recursos computacionais, utilizando dados de séries temporais provenientes de dois conjuntos distintos: Google Cluster Traces 2019 e métricas do Pro- metheus. A pesquisa realiza uma revisão sistemática da literatura, com foco em trabalhos publicados entre 2019 e 2023, e introduz o algoritmo de otimização meta-heurística Manta Ray Foraging Optimization (MRFO) para ajuste de hiperparâmetros das redes neurais. A metodologia contempla o pré-processamento dos dados, a configuração experimental e a utilização de métricas como MAE, RMSE, MAPE e SMAPE. O estudo visa contribuir para a eficiência das operações de TI, oferecendo subsídios para a gestão proativa de recursos e a mitigação de falhas em ambientes de nuvem. Palavras-chave: Deep Learning; Séries Temporais; LSTM; Transformer; MRFO; AIOps. Abstract With the ongoing digital transformation, the management of Information Technology (IT) environments has become an increasingly complex and dynamic challenge. Artificial Intelli- gence for IT Operations (AIOps) has emerged as a promising solution, integrating machine learning and big data to automate critical tasks such as anomaly detection, capacity fore- casting, and root cause analysis. This study proposes a comparative approach between Long Short-Term Memory (LSTM) and Transformer architectures for predicting computational resource consumption, using time series data from two distinct datasets:Google Cluster Traces 2019 and Prometheus metrics. The research includes a systematic literature review focused on studies published between 2019 and 2023, and introduces the metaheuristic optimization algorithm Manta Ray Foraging Optimization (MRFO) for neural network hyperparameter tuning. The methodology encompasses data preprocessing, experimental setup, and the use of evaluation metrics such as MAE, RMSE, MAPE, and SMAPE. This study aims to contribute to the efficiency of IT operations, providing insights for proactive resource management and failure mitigation in cloud-based environments. Keywords: Deep Learning; Time Series; LSTM; Transformer; MRFO; AIOps. Lista de ilustrações Figura 1 – Procedimento adotado para realização da Revisão Sistemática da Lite- ratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Figura 2 – Distribuição dos artigos por ano de publicação . . . . . . . . . . . . . . 20 Figura 3 – Detalhamento do resultado após os processos de filtragem dos artigos . 20 Figura 4 – Procedimento adotado para realização da Revisão Sistemática da Lite- ratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Figura 5 – Predições do uso de memória no Google Cluster . . . . . . . . . . . . . 56 Figura 6 – Predições Prometheus - 30 minutos . . . . . . . . . . . . . . . . . . . . 57 Figura 7 – Curva de convergência do MRFO durante a otimização da LSTM no cenário Prometheus (granularidade de 15 min). . . . . . . . . . . . . . 58 Lista de tabelas Tabela 1 – Características da análise sistemática da literatura . . . . . . . . . . . 27 Tabela 2 – Estatísticas descritivas iniciais. . . . . . . . . . . . . . . . . . . . . . . 47 Tabela 3 – Limites de busca dos hiper-parâmetros da LSTM. . . . . . . . . . . . . 49 Tabela 4 – Limites de busca dos hiper-parâmetros do Transformer. . . . . . . . . . 51 Tabela 5 – Desempenho médio (média ± desvio-padrão) do modelo LSTM no Google Cluster Traces. . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Tabela 6 – Desempenho médio (média ± desvio-padrão) do modelo Transformer no Google Cluster Traces. . . . . . . . . . . . . . . . . . . . . . . . . . 55 Tabela 7 – Desempenho médio (média ± desvio-padrão) do modelo LSTM no Prometheus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Tabela 8 – Desempenho médio (média ± desvio-padrão) do modelo Transformer no Prometheus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Tabela 9 – Hiperparâmetros ótimos (MRFO) para a LSTM. . . . . . . . . . . . . 57 Tabela 10 – Hiperparâmetros ótimos (MRFO) para o Transformer. . . . . . . . . 58 Tabela 11 – Resultados do algoritmo MRFO otimizando a LSTM (janela de 15 min) para métricas coletadas via Prometheus. . . . . . . . . . . . . . . . . . 109 Lista de abreviaturas e siglas AI - Artificial Intelligence AIOPs - Artificial Intelligence for IT Operations ARIMA - AutoRegressive Integrated Moving Average Autoformer - Auto-regressive Transformer for Time Series BERT - Bidirectional Encoder Representations from Transformers CAM - Class Activation Mapping CNN - Convolutional Neural Network CPU - Central Processing Unit CVAE - Conditional Variational Autoencoder DevOps - Development Operations DL - Deep Learning FFN - Feed-Forward Network GPT - Generative Pre-trained Transformer GRU - Gated Recurrent Unit HAC - Hierarchical Agglomerative Clustering HIS - Hospital Information Systems IT - Information Technology K8s - Kubernetes KPI - Key Performance Indicator LSTM - Long Short-Term Memory MAE - Mean Absolute Error MAPE - Mean Absolute Percentage Error ML - Machine Learning MLOPs - Machine Learning Operations MRFO - Manta Ray Foraging Optimization NLP - Natural Language Processing NNET - Neural Network PSO - Particle Swarm Optimization PU - Positive-Unlabeled RMSE - Root Mean Squared Error RMSprop - Root Mean Square Propagation RNN - Recurrent Neural Network SGD - Stochastic Gradient Descent SMAPE - Symmetric Mean Absolute Percentage Error TF - Transformer TI - Tecnologias da Informação TIC - Tecnologias da Informação e Comunicação TSTF - Time Series Transformer TTM - Tiny Time Mixer ViT - Vision Transformer Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1 Desafio operacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2 AIOps como paradigma. . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Limitações dos trabalhos existentes. . . . . . . . . . . . . . . . . . . . 14 1.4 Motivação adicional: observabilidade em Prometheus. . . . . . . . . 14 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 18 2.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . 18 2.1.1 Técnicas para Revisão Sistemática da Literatura . . . . . . . . . . . . . . . 18 2.1.2 Trabalhos Correlatos - ano de 2019 . . . . . . . . . . . . . . . . . . . . . 22 2.1.3 Trabalhos Correlatos - ano de 2020 . . . . . . . . . . . . . . . . . . . . . 22 2.1.4 Trabalhos Correlatos - ano de 2021 . . . . . . . . . . . . . . . . . . . . . 23 2.1.5 Trabalhos Correlatos - ano de 2022 . . . . . . . . . . . . . . . . . . . . . 24 2.1.6 Trabalhos Correlatos - ano de 2023 . . . . . . . . . . . . . . . . . . . . . 26 2.2 Introdução à LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.1 Formulação Matemática da LSTM . . . . . . . . . . . . . . . . . . . . . . 28 2.2.2 Vantagens da LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2.3 Limitações da LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.4 Aplicações em Previsão de Séries Temporais . . . . . . . . . . . . . . . . . 30 2.2.5 Comparação com Outras Variantes de RNNs . . . . . . . . . . . . . . . . 31 2.2.6 Avanços Recentes em LSTM para AIOps . . . . . . . . . . . . . . . . . . . 31 2.3 Arquitetura Transformer e Mecanismo de Atenção . . . . . . . . . . 32 2.3.1 Arquitetura Original – Encoder-Decoder . . . . . . . . . . . . . . . . . . . 32 2.3.2 Mecanismo de Atenção Multi-Cabeças . . . . . . . . . . . . . . . . . . . . 33 2.3.3 Rede Feed-Forward e Codificação Posicional . . . . . . . . . . . . . . . . . 34 2.3.4 Normalização de Camada e Estabilização do Treinamento . . . . . . . . . . 35 2.3.5 Resumo da Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.6 Evolução da Arquitetura Transformer e Aplicações em Séries Temporais . . 36 2.3.7 Transformers em NLP: Modelos BERT e GPT . . . . . . . . . . . . . . . 36 2.3.8 Transformers em Visão Computacional: Vision Transformer (ViT) . . . . . 37 2.3.9 Transformers para Séries Temporais e AIOps . . . . . . . . . . . . . . . . 38 2.3.10 Transformers e AIOps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.11 Aplicação no Trabalho Atual: Previsão de Métricas com Transformer Simpli- ficado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.4 Algoritmo MRFO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.1 Google Cluster Traces (2019) . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.2 Prometheus Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.3 Pipeline de Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2 Formulação Matemática do Problema . . . . . . . . . . . . . . . . . . 48 3.3 Modelo LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.2 Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.3 Hiper-parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4 Modelo Transformer para Séries Temporais . . . . . . . . . . . . . . 50 3.4.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.2 Atenção Escalonada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.3 Prevenção de Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.4 Hiper-parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5 Meta-Otimização via MRFO . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5.2 Configuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6 Ambiente Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6.1 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6.2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.7 Métricas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.7.1 Definições formais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.7.2 Interpretação prática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.7.3 Comparação estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1 Desempenho nos Dados do Google Cluster Traces . . . . . . . . . . 55 4.2 Desempenho nos Dados do Prometheus . . . . . . . . . . . . . . . . 56 4.3 Hiperparâmetros Ótimos Encontrados (MRFO) . . . . . . . . . . . . 57 5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1 Contribuições Científicas e Práticas . . . . . . . . . . . . . . . . . . . 59 5.2 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 APÊNDICES 66 APÊNDICE A – TRANSFORMER-PSEUDO-CODIGO.PY . . . . . 67 APÊNDICE B – LSTM-TRAINED.PY . . . . . . . . . . . . . . . . 70 APÊNDICE C – TRANSFORMER-TRAINED.PY . . . . . . . . . . 85 APÊNDICE D – IMPLEMENTAÇÃO DO MODELO . . . . . . . . 99 D.1 model.py . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 D.2 Tabela de execuções . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 1 INTRODUÇÃO A quarta revolução industrial consolidou-se sobre a premissa de que dados e, por conseguinte, infraestruturas de Tecnologia da Informação (TI) figuram como novos ativos estratégicos. Setores críticos, tais como saúde, finanças, telecomunicações, segurança pública e logística, passaram a ancorar seus modelos de negócio em plataformas digitais que demandam alta disponibilidade, resiliência, flexibilidade e elasticidade. Para satisfazer tais requisitos, arquiteturas monolíticas cederam lugar a ecossistemas distribuídos, baseados em virtualização, contêineres, microsserviços e computação em múltiplas nuvens (PAHL, 2015). Embora essa evolução otimize escalabilidade e time-to-market, ela introduz uma combinatória de componentes heterogêneos servidores físicos, máquinas virtuais, redes definidas por software, bancos de dados multimodais, service meshes cuja interdependência eleva a complexidade operacional a níveis sem precedentes. 1.1 Desafio operacional1 A heterogeneidade estrutural, aliada à explosão de métricas geradas em tempo real (ordem de milhões de data points por minuto em grandes nuvens públicas), torna onerosa a detecção proativa de anomalias, a identificação de causa-raiz e a previ- são de capacidade. Métodos tradicionais, baseados em limiares estáticos ou regressão linear, falham em capturar padrões não-lineares e dependências de longo alcance. Como consequência, equipes operacionais permanecem reféns de abordagens majoritariamente reativas, o que compromete Service-Level Agreements (SLAs) e eleva custos de downtime não planejado. 1.2 AIOps como paradigma. Nesse cenário, desponta o AIOps (Artificial Intelligence for IT Operations) dis- ciplina que combina big data2 a técnicas de aprendizado de máquina avançado para automatizar processos operacionais (SILL, 2019). O pilar analítico da AIOps é a mo- delagem de Key Performance Indicators (KPIs) como séries temporais, permitindo a antecipação de tendências de consumo de recursos e a detecção de padrões anômalos. 1 As métricas analisadas em (COHEN et al., 2004) apontam que mais de 70 % dos incidentes críticos em datacenters derivam de falhas de configuração ou correlação ineficiente de alertas. 2 Big data é caracterizado pelos “5 Vs”: volume, velocidade, variedade, veracidade e valor. A literatura recente adiciona variabilidade e visualização como dimensões complementares. 14 Modelos de deep learning (DL), em particular Long Short-Term Memory (LSTM) e, mais recentemente, a arquitetura Transformer destacam-se pelo poder de representação para relacionamentos temporais complexos (VASWANI et al., 2017). 1.3 Limitações dos trabalhos existentes. A literatura indica dois eixos predominantes de pesquisa: (i) LSTM/GRU (Gated Recurrent Unit) sintonizados via grid search ou random search, métodos exaustivos ou estocásticos que apresentam baixa escalabilidade mediante o aumento da dimensionalidade hiperparamétrica; (ii) Transformers aplicados a séries temporais, porém mediante tuning manual, heurísticas simplistas ou pesquisa bayesiana clássica, o que não explora plenamente superfícies de perda complexas. Ainda carece de: (a) uma comparação sistemática entre LSTM, ou modelos de aprendi- zado profundo para series temporais, e Transformers, sob conjunto de dados e métricas idênticos, em contexto de AIOps; e (b) uma investigação sobre meta-heurísticas modernas notadamente o Manta Ray Foraging Optimization (MRFO) (ZHAO; WANG; ZHANG, 2020) para otimizar hiperparâmetros em tais modelos. 1.4 Motivação adicional: observabilidade em Prometheus. Ferramentas nativas-na-nuvem, como o Prometheus, tornaram-se padrão de fato para coleta de métricas de sistemas distribuídos. Sua linguagem de consulta (PromQL) e a natureza pull-based favorecem instrumentação granular, mas geram fluxos de dados de alta cardinalidade. Integrar modelos DL especialmente Transformers a esse repositório de séries temporais abre caminho para pipelines preditivos online, elevando a automação do ciclo “monitorar-analisar-agir”. Objetivo geral Avaliar o impacto do uso do algoritmo de otimização MRFO na melhoria do desempenho preditivo de modelos LSTM e Transformer aplicados à previsão do consumo de recursos computacionais, com base em séries temporais extraídas de ambientes AIOps e monitoradas por meio do Prometheus. 15 Objetivos específicos a) Construir um benchmark unificado com os conjuntos Google Cluster Traces 2019 e métricas do Prometheus, reamostrados nas granularidades de 1, 5 e 30 minutos. b) Implementar pipelines de LSTM e Transformer com parametrização flexível (unida- des, camadas, dropout, janela de entrada). c) Empregar o MRFO para minimizar o Mean Absolute Percentage Error (MAPE) em validação, comparando-o a Grid Search, Random Search e PSO (Particle Swarm Optimization). d) Quantificar, na fase de teste, ganhos de RMSE (Root Mean Squared Error), MAE (Mean Absolute Error) , MAPE e Simetric Mean Absolut Percentage Error (SMAPE) trazidos pelo MRFO nas diferentes granularidades. e) Discutir implicações práticas para orquestração de recursos e detecção de anomalias em plataformas baseadas no Prometheus. Contribuições • Proposição de um pipeline de otimização automática integrado MRFO a modelos sequenciais de última geração. • Primeiro estudo, até onde se sabe, a comparar LSTM e Transformer sob condições experimentais idênticas em dados reais de AIOps. • Evidência empírica de que o MRFO reduz o MAPE em até 13,6 %, além de ganhos consistentes em RMSE e SMAPE. • Divulgação pública de código-fonte e artefatos experimentais visando à reprodutibili- dade.3 Metodologia em síntese Dois datasets reais, reprocessados em três granularidades, servem de base aos experimentos. Os modelos recebem janelas deslizantes de tamanho n ∈ {24, 48, 72, 96} e predizem o próximo passo. O MRFO opera com população de 20 pessoas, 500 iterações, alternando entre estratégias chain, cyclone e somersault. O erro em validação (MAPE) orienta a busca e as métricas finais são computadas em teste. 3 Repositório GitHub: https://github.com/weslleyrosalem/dissertacao/tree/main/Experiments 16 Resultados em perspectiva Resultados preliminares indicam que o Transformer supera o LSTM em escalas de 30 minutos, enquanto o LSTM mantém leve vantagem em 1 minuto. O MRFO reduz o MAE médio em até 6,8 % (Google Cluster Traces) e 5,4 % (Prometheus), evidenciando sua superioridade sobre métodos de busca convencionais. Estrutura da dissertação • Capítulo 1 — Introdução Delimita o problema, explicita a lacuna científica, apresenta os objetivos, destaca as contribuições e antecipa a metodologia. • Capítulo 2 — Fundamentação Teórica Reúne conceitos nucleares e trabalhos relacionados, organizados em quatro subseções: 1. Revisão Sistemática da Literatura (Subsec. 2.1): protocolo, filtros e síntese de 21 artigos relevantes; 2. Long Short-Term Memory (Subsec. 2.2): formulação matemática, vantagens, limitações e aplicações em AIOps; 3. Arquitetura Transformer (Subsec. 2.3): descreve o mecanismo de atenção, evoluções (BERT, GPT, ViT) e adaptações para séries temporais; 4. Algoritmo MRFO (Subsec. 2.4): fundamentos bio-inspirados e equações de atualização. • Capítulo 3 — Metodologia Detalha o pipeline experimental: 1. Conjuntos de Dados e Pré-processamento (3.1); 2. Formulação do Problema e Janelas de Entrada (3.2); 3. Arquiteturas LSTM e Transformer (3.3); 4. Otimização de Hiperparâmetros via MRFO (3.4). • Capítulo 4 — Resultados Apresenta métricas (RMSE, MAE, MAPE, SMAPE), curvas de previsão, tabelas comparativas e análise do ganho obtido com o MRFO. • Capítulo 5 — Conclusão Resume achados, discute limitações (custo computacional, univariância, etc.) e propõe extensões — previsão multivariada, sparse-attention e meta-heurísticas híbridas. 17 • Referências Listagem normatizada (IEEE/ABNT) dos trabalhos citados. • Apêndices Códigos-fonte em Python: pseudocódigo do Transformer, arquitetura detalhada e scripts de treino (Apêndices A–C). Essa organização reflete fielmente a estrutura atualmente compilada e facilita ao leitor acompanhar o fluxo: da fundamentação teórica ao método, dos resultados quantitativos às implicações práticas. 2 Fundamentação Teórica Este capítulo aborda os conceitos e teorias fundamentais que embasam este estudo. A compreensão desses conceitos é essencial para entender as técnicas e metodologias adotadas ao longo deste trabalho. Inicialmente, é discutida a evolução da Inteligência Artificial (IA). Em seguida, é focado no subcampo da IA denominado AIOps, que integra IA e análise de dados visando aprimorar as operações de TI. A familiaridade com IA e AIOps é vital para perceber como essas tecnologias podem ser aplicadas em ambientes de TI, potencializando a detecção de anomalias e a análise preditiva de séries temporais. 2.1 Revisão Sistemática da Literatura A Revisão Sistemática da Literatura é uma abordagem metodológica que busca identificar, avaliar e interpretar todas as pesquisas relevantes sobre um tema específico. Distingue-se por sua metodologia rigorosa e bem definida, que pode ser replicada e auditada, conferindo maior confiabilidade ao processo utilizado (TRANFIELD; DENYER; SMART, 2003). Essa metodologia é empregada para coletar e sintetizar evidências empíricas que atendam a critérios de inclusão preestabelecidos (KITCHENHAM; CHARTERS, 2007). O processo envolve a definição de questões de pesquisa pertinentes, a seleção e avaliação qualitativa dos estudos, a extração de dados, a síntese e apresentação da documentação dos achados. 2.1.1 Técnicas para Revisão Sistemática da Literatura A Revisão Sistemática é fundamental na pesquisa acadêmica, pois oferece uma visão holística do conhecimento existente, destacando lacunas que podem ser objeto de futuras investigações (PETTICREW; ROBERTS, 2006). Além disso, evita a duplicação de esforços, evidenciando pesquisas prévias sobre o tema. A elaboração da revisão sistemática inicia-se com a definição de um protocolo rigoroso de pesquisa. Esse protocolo estabelece os critérios de inclusão e exclusão, as bases de dados a serem consultadas e as estratégias de busca a serem adotadas (BIOLCHINI et al., 2005). A Figura 1 apresenta uma ilustração detalhada sobre procedimento adotado neste estudo: 19 Figura 1 – Procedimento adotado para realização da Revisão Sistemática da Literatura. Fonte: Elaborado pelo autor As etapas apresentadas na Figura 1 são detalhadas a seguir: 1. As queries4 são strings5 que estabelecem critérios para a seleção de artigos. Nesta pesquisa, o foco foi em artigos, cujo título ou keywords6 incluíssem a palavra AIOPs. Além disso, restringiu-se o período de publicação entre 2018 e o primeiro semestre de 2023. 2. Dada a reconhecida relevância em Ciência da Computação, especialmente em Redes de Computadores, monitoramento e observabilidade, duas bases de pesquisa científica foram selecionadas: IEEExplore7 e ACM Digital Library8. 3. A execução das queries nas bases mencionadas resultou em 80 artigos. A distribuição dos artigos por ano de publicação é ilustrada na Figura 2. 4 Queries são instruções ou expressões usadas para recuperar informações de um banco de dados. Elas são frequentemente escritas em uma linguagem de consulta de banco de dados como SQL. 5 Strings são sequências de caracteres usadas para representar texto em programação e computação. Elas são fundamentais para o processamento de texto, pesquisa e muitas outras aplicações. 6 Keywords são palavras ou frases que resumem o conteúdo principal de um texto, documento ou base de dados. Elas são frequentemente usadas em buscas para encontrar informações relevantes. 7 8 https://ieeexplore.ieee.org/ https://dl.acm.org/ 20 Figura 2 – Distribuição dos artigos por ano de publicação Fonte: Elaborado pelo autor. 4. Durante a filtragem, foram removidos artigos duplicados ou inacessíveis, totalizando 22 duplicados e 2 inacessíveis. Dos 56 artigos remanescentes, 35 não se alinhavam diretamente ao escopo desta dissertação. Portanto, após a filtragem, 21 artigos foram reconhecidos como estreitamente relacionados ao tema proposto. A Figura 3 ilustra este processo. Figura 3 – Detalhamento do resultado após os processos de filtragem dos artigos Fonte: Elaborado pelo autor. 5. A última etapa envolveu a extração das informações mais relevantes dos artigos selecionados. Para identificar tendências, foram consideradas as seguintes categorias de análise: 21 • Tipo de modelo: técnicas de Aprendizado de máquina (Machine Learning,ML) empregadas ou propostas; • Dataset9: bases de dados utilizadas nos testes; • Arquitetura: arquiteturas propostas; • Feature selection10; • Features11 selecionadas; • Resultados: conclusões alcançadas pelos autores, como RMSE e MAE; • Metodologia: recursos utilizados na criação do modelo de identificação de anomalias e predição, incluindo linguagens e softwares. Os artigos selecionados foram sintetizados, destacando-se os elementos mais perti- nentes ao contexto desta pesquisa. A organização dos estudos foi realizada conforme os seguintes critérios: • Não foram encontrados trabalhos correlatos no ano de 2018. Esta afirmação indica que, após uma busca sistemática na literatura utilizando palavras-chave e critérios específicos, não foram identificados estudos ou publicações relacionadas ao tema da dissertação no ano de 2018; • Trabalhos correlatos de 2019 na Subseção 2.1.2; • Trabalhos correlatos de 2020 na Subseção 2.1.3; • Trabalhos correlatos de 2021 na Subseção 2.1.4; • Trabalhos correlatos de 2022 na Subseção 2.1.5; • Trabalhos correlatos de 2023 na Subseção 2.1.6; A Figura 4 ilustra o processo completo da Revisão Sistemática da Literatura, desde a definição das queries até a extração das informações cruciais: 9 Um dataset é uma coleção de dados, geralmente apresentada em formato tabular, que serve como entrada para algoritmos de ML e análise estatística. 10 Feature Selection é o processo de selecionar um subconjunto de características relevantes para uso em modelagem. A seleção de características eficaz pode melhorar o desempenho do modelo e reduzir a complexidade computacional. 11 Features são variáveis individuais que atuam como entradas em modelos de ML. Cada feature representa uma dimensão específica de dados que o algoritmo pode usar para aprender. 22 Figura 4 – Procedimento adotado para realização da Revisão Sistemática da Literatura. Fonte: Elaborado pelo autor 2.1.2 Trabalhos Correlatos - ano de 2019 No artigo de Nedelkoski, Cardoso e Kao (2019), os autores exploram a aplicação de AIOps para detectar anomalias com base em registros de distributed tracing. Esses registros fornecem informações detalhadas sobre a disponibilidade e o tempo de resposta dos serviços. A abordagem proposta concentra-se na detecção de anomalias no tempo de resposta, utilizando aprendizado não supervisionado. Os autores empregam técnicas de modelagem de dados com aprendizado profundo e avaliam a precisão e o desempenho da proposta em ambientes de teste e produção. A combinação de GRUs e autoencoders variacionais é destacada como uma técnica promissora para a modelagem de séries temporais complexas. 2.1.3 Trabalhos Correlatos - ano de 2020 O estudo de Mormul e Stach (2020) aborda o desafio de monitorar ambientes de TI complexos, englobando nuvens privadas e públicas, ambientes de IoT (Internet of Things), aplicativos e contêineres. Eles destacam a necessidade de um modelo de contexto em AIOps para gerenciar grandes volumes de dados armazenados em diferentes formatos. O 23 framework proposto é estruturado em cinco camadas: aquisição, gerenciamento, análise, apresentação de dados e respostas automatizadas. O Monitoring Resource Model (MRM) é um componente central desse framework. Para a análise de dados, é proposto um modelo de Aprendizado de máquina baseado em redes neurais, especificamente o LSTM. Kostadinov, Atanasova e Petrov (2020) discutem a importância do ML, especial- mente no contexto de AIOps, para descobrir relacionamentos entre objetos e processos em infraestruturas de TI convergentes. O estudo enfatiza a necessidade de técnicas de ML para identificar padrões e sequências em grandes volumes de eventos. A arquitetura proposta foca na análise e ML para processar dados de diversos dispositivos e instrumentos de TI. O objetivo do estudo apresentado por Chen, Wang e Yang (2020) é propor uma rede neural dinâmica para prever fluxos de dados de séries temporais em cenários de AIOps. Os modelos de ML discutidos incluem MWNN (Multi-Way Neural Network), WNN (Wavelet Neural Network) e LSTM. Os dados utilizados durante os testes incluem conjuntos de dados de CPUs (Central Processing Unit) com diferentes capacidades. Os resultados mostram uma comparação do consumo de recursos para MWNN, WNN e LSTM quando alcançam o mesmo desempenho. 2.1.4 Trabalhos Correlatos - ano de 2021 No estudo conduzido por Guodan, Hao e Tingting(2021), os autores propõem uma abordagem inovadora que combina múltiplos métodos integrados para prever a capacidade de recursos. Utilizando o modelo de aprendizado de máquina a LSTM,com base nos dados históricos o estudo demonstra como é possível fornecer previsões precisas sobre o uso de recursos de TI, como CPU, disco rígido e memória. Esta abordagem tem potencial para otimizar a gestão de recursos, garantindo que os sistemas permaneçam estáveis e confiáveis. Machine. . . (2021) introduz o conceito de Machine Reasoning (MR) e destaca seu papel vital na melhoria das AIOps para Redes Baseadas em Intenções. MR é uma subárea da IA que se concentra em capturar e utilizar o conhecimento humano através de linguagens semânticas. Esta abordagem complementa a aprendizagem de Máquina ao fornecer inferências precisas baseadas no conhecimento adquirido. O estudo apresenta cenários em que MR em AIOps pode ser utilizado para automatizar e aprimorar a identificação da causa raiz de problemas em redes de computadores. O artigo de Yang et al.(2021) apresenta o método AID (Aggregated Intensity of Dependency) como uma solução eficiente para prever a intensidade das dependências em sistemas de nuvem em larga escala. Os autores utilizam dados simulados e industriais para testar a eficácia do método proposto. Os resultados mostram que o AID é capaz de medir com precisão a intensidade das dependências, superando outras abordagens comparativas. 24 Stefano et al.(2021) discutem o design e a implementação de recursos para migrar dados de sistemas de monitoramento antigos para instâncias do Prometheus usando o framework Ananke. Além disso, o estudo propõe uma estratégia de dimensionamento automático, baseada na previsão de picos de tráfego, usando o modelo Facebook Prophet. A abordagem é voltada para monitorar e modelar aplicações nativas de nuvem, com foco em métricas de desempenho em tempo real e estratégias de otimização. 2.1.5 Trabalhos Correlatos - ano de 2022 Wang et al.(2022) introduzem o TSAGen, uma ferramenta inovadora de geração de séries temporais. Esta ferramenta permite aos pesquisadores gerar dados sintéticos, fornecendo uma fonte de dados confiável para avaliar o desempenho de algoritmos de detecção de anomalias. O TSAGen foi projetado para enfrentar desafios, como a geração de diversas anomalias, ajuste da gravidade das anomalias e controle das características dos KPIs gerados. No estudo de Li et al.(2022), os autores propõem uma rede neural profunda, a CDX-Net, para previsão de séries temporais multivariadas no contexto de AIOps. A arquitetura proposta do CDX-Net incorpora módulos avançados, como ASPP, SRM, CAM, GRU, transformador e AB, para aprimorar os procedimentos de extração e fusão de características. Zhang et al.(2022b) apresentam uma solução para o Desafio ICASSP-SPGC-2022 AIOps, focando na inferência precisa de combinações em root cause analysis (RCA). O documento detalha os desafios encontrados nos dados da competição e propõe uma estrutura robusta para resolver o problema, incluindo a introdução de TextCNN. O estudo de Fukuda et al.(2022) propõe uma abordagem para gerar relatórios de falhas legíveis por humanos em sistemas de TIC. A abordagem utiliza o modelo LSTM para séries temporais multivariadas e gera um relatório de falha em formato de texto. Os autores testam a eficácia e o desempenho do método proposto usando dados coletados de um sistema de microsserviços em um cluster Kubernetes (k8s). Moreschini et al.(2022) apresentam uma discussão profunda sobre a representação gráfica para o DevOps em aplicações baseadas em aprendizado de máquina , também conhecida como MLOps. Os autores exploram meticulosamente as fases do MLOps, desde o planejamento, onde são identificados o problema a ser resolvido e os dados disponíveis, até a seleção de abordagens de análise de dados e algoritmos adequados. A fase de codificação é destacada, onde o sistema e o código de ML são implementados e validados. A fase de validação é discutida em detalhes, enfatizando a avaliação do desempenho do modelo de ML com novos dados. O artigo também destaca a necessidade imperativa de um processo de MLOps integrado e delinea os desafios associados à adoção prática do MLOps. 25 Qian et al.(2022) propõem um framework de dimensionamento automático proativo inovador chamado RobustScaler, especialmente projetado para cenários de computação em nuvem. O estudo é direcionado para o desenvolvimento de um framework que não apenas gera decisões de mudança e elasticidade, mas também otimiza o equilíbrio entre custo e Qualidade de Serviço (QoS). O modelo proposto é robusto, capaz de lidar com ruídos, dados ausentes e anomalias. O algoritmo de Método dos Multiplicadores de Direção Alternada (ADMM) é usado para treinar o modelo, que captura tanto a periodicidade quanto a estocasticidade das chegadas de consultas. A arquitetura do framework é composta por componentes essenciais, como detecção de periodicidade, modelagem histórica de chegadas de consultas, previsão de chegada de consultas e plano de dimensionamento. Xiao, Cao e Wu (2022 )introduzem um framework inovador baseado em aprendizado federado, o EFL-WP, projetado especificamente para previsão de carga de trabalho em ambientes inter-nuvem. O framework visa colaborar na formação de modelos de ML para previsão de carga de trabalho, garantindo que informações sensíveis não sejam compartilhadas. Os autores sugerem o uso de modelos LSTM para prever métricas de desempenho, como utilização da CPU e memória. A arquitetura proposta é composta por um coordenador que agenda tarefas de treinamento e orquestra os treinadores, enquanto os treinadores usam seus dados para treinar modelos locais. Zhang et al.(2022a) apresentam o método "PUTraceAD"Positive-Unlabeled, uma abordagem inovadora para detecção de anomalias em tracing de microsserviços. A arquite- tura proposta é tripartida, envolvendo Embedding de Span, Construção de Grafo de Rastros e Treinamento do Modelo. Utilizando uma GNN (Graph Neural Network) e aprendizado PU, o método é capaz de detectar anomalias em tracing com precisão. O conjunto de dados usado, TrainTicket, é um sistema de referência de microsserviços, e os experimentos foram conduzidos em um cluster Kubernetes. Os resultados dos experimentos avaliam a eficácia e eficiência do PUTraceAD, bem como o impacto de diferentes configurações. Yang et al.(2022) discutem o Sistema de Gerenciamento de Dependências, ou Dependency Management System (DMS), uma solução abrangente para gerenciar depen- dências de serviços em sistemas em nuvem. O DMS é uma plataforma end-to-end que suporta todo o ciclo de vida para garantir a confiabilidade do serviço, desde a implantação inicial até a otimização arquitetural proativa e a mitigação reativa de falhas. Os dados usados nos testes do DMS abrangem uma variedade de fontes, incluindo informações de dependência coletadas de trancing distribuído, arquivos de configuração, consultas do orquestrador de serviços e relatórios de dependência de implantação. Song et al.(2022) abordam questões relacionadas à implementação da observabili- dade em sistemas de informações hospitalares (HIS). O artigo apresenta uma pesquisa literária detalhada e fornece um resumo abrangente de conceitos relacionados, incluindo definições de monitoramento e HIS, requisitos e soluções em cenários específicos. A ar- 26 quitetura proposta integra microsserviços e AIOps, com indicadores-chave (KPIs) como qualidade e escala de dados. O documento também oferece sugestões valiosas para os departamentos de TI dos hospitais sobre como abordar essas questões. Jin et al.(2022) realizaram uma análise detalhada de AIOps na gestão unificada de resiliência de dados em data lakehouses. O artigo propõe soluções inovadoras para prever violações do Recovery Point Objective (RPO) e fornecer sugestões valiosas aos SREs sobre como configurar recursos do sistema para evitar tais violações. Utilizando aprendizado supervisionado em conjunto com análise de séries temporais, o artigo propõe um modelo de ML que combina métodos de aprendizado online e offline e filtragem de solicitações previstas para garantir a estabilidade das solicitações futuras. 2.1.6 Trabalhos Correlatos - ano de 2023 Os autores Traini e Cortellessa(2023) apresentam uma análise detalhada sobre a implementação de baselines utilizando a linguagem de programação Python. Eles escolhem a regressão linear como o modelo de ML para sua análise. O artigo aborda profundamente as questões de pesquisa, o design experimental meticuloso, a aplicação na análise de desempenho e as distribuições de latência. Os autores também discutem o uso de cargas de trabalho que variam continuamente e fornecem insights sobre a configuração experimental, destacando a importância de uma abordagem sistemática para garantir resultados precisos e confiáveis. Sun et al.(2023) oferecem uma visão abrangente do desenvolvimento do sistema de detecção de outlier denominado OutSpot. Este sistema é especialmente projetado para datacenters de alto desempenho e alta criticidade, que são primordialmente responsáveis pelo fornecimento de streaming de vídeos. O principal objetivo do sistema é detectar outliers nos KPIs coletados desses datacenters. O modelo de ML adotado é uma combinação inovadora de Hierarchical Agglomerative Clustering (HAC) com Conditional Variational Autoencoder (CVAE). O HAC é utilizado para agrupar os KPIs com base em seus padrões distintos. Posteriormente, as informações de agrupamento de cada KPI são incorporadas ao método. Esta abordagem integrada permite que o OutSpot detecte outliers para KPIs em larga escala, mesmo quando esses KPIs apresentam padrões variados. A arquitetura proposta para o OutSpot é meticulosa, dividindo os conjuntos de dados coletados em conjuntos de treinamento e teste. O conjunto de treinamento é composto por dados coletados ao longo dos primeiros 7 dias, enquanto o conjunto de teste contém dados do último dia. Este último conjunto é rotulado cuidadosamente por operadores experientes utilizando uma ferramenta desenvolvida pelos próprios autores. O processo de rotulação dos outliers é rigoroso, envolvendo três operadores, e a decisão final é tomada apenas quando os rótulos fornecidos por eles divergem. 27 Tabela 1 – Características da análise sistemática da literatura Ano de Pu- blicação Autores Tópico Principal 2019 (NEDELKOSKI; CARDOSO; KAO, 2019) Detecção de anomalias usando Distributed Tracing e Deep Learning em AIOps 2020 (MORMUL; STACH, 2020) Monitoramento de ambiente de TI complexo com modelo de contexto 2020 (KOSTADINOV; ATANASOVA; PE- TROV, 2020) Redução de incidentes em infraestruturas de TI convergentes através de ML 2020 (CHEN; WANG; YANG, 2020) Previsão de fluxos de dados de séries tempo- rais em cenários de AIOps 2021 (GUODAN; HAO; TINGTING, 2021) Previsão da capacidade de recursos usando LSTM 2021 (MACHINE. . . , 2021) Melhoria das Operações de IA para Redes Baseadas em Intenções usando MR 2021 (YANG et al., 2021) Previsão da intensidade de dependências em sistemas em nuvem 2021 (STEFANO et al., 2021) Migração de dados de sistemas de monitora- mento antigos para instâncias do Prometheus 2022 (WANG et al., 2022) Geração de séries temporais para avaliação de algoritmos de detecção de anomalias 2022 (LI et al., 2022) Previsão de séries temporais multivariadas em AIOps 2022 (ZHANG et al., 2022b) Inferência precisa de combinações em RCA 2022 (FUKUDA et al., 2022) Geração de relatórios de falhas legíveis por humanos em sistemas de TIC 2022 (MORESCHINI et al., 2022) Representação gráfica para o DevOps12 em aplicações baseadas em aprendizado de má- quina (MLOps) 2022 (QIAN et al., 2022) Framework de dimensionamento automático proativo para computação em nuvem Continua na próxima página 12 DevOps é uma filosofia e prática de engenharia de software que visa unificar o desenvolvimento de software (Dev) e a operação de software (Ops). O principal objetivo de DevOps é encurtar o ciclo de vida do desenvolvimento de sistemas, proporcionando entrega contínua de alta qualidade, e, assim, melhorar a colaboração e a comunicação entre as equipes de desenvolvimento e operações. *DevOps* integra métodos ágeis, automação, integração contínua, entrega contínua e monitoramento contínuo do software em operação. 28 Ano de Pu- blicação Autores Tópico Principal 2022 (XIAO; CAO; WU, 2022) Previsão de carga de trabalho em ambientes de inter-nuvem usando aprendizado federado 2022 (ZHANG et al., 2022a) Detecção de anomalias em tracing de micros- serviços usando GNN e aprendizado PU 2022 (YANG et al., 2022) Gerenciamento de dependências de serviços em sistemas em nuvem 2022 (SONG et al., 2022) Implementação da observabilidade em siste- mas de informações hospitalares 2022 (JIN et al., 2022) Gestão unificada de resiliência de dados em data lakehouses 2023 (TRAINI; CORTEL- LESSA, 2023) Implementação de baselines usando Python e regressão linear 2023 (SUN et al., 2023) Detecção de outlier para datacenters com alto nível de desempenho e alta criticidade 2.2 Introdução à LSTM As Redes Neurais Recorrentes (RNNs) foram introduzidas na década de 1980 como uma extensão das redes neurais feedforward, projetadas para processar sequências temporais ao permitir conexões entre unidades que formam um ciclo, possibilitando que a informação persista ao longo do tempo (RUMELHART; HINTON; WILLIAMS, 1986). Contudo, as RNNs tradicionais enfrentam dificuldades em aprender dependências de longo prazo devido ao problema do gradiente evanescente, no qual os gradientes se tornam extremamente pequenos durante a retropropagação, comprometendo o aprendizado (HOCHREITER, 1998). Para superar essa limitação, foram desenvolvidas arquiteturas avançadas, como as LSTM, propostas por Hochreiter e Schmidhuber em 1997 (HOCHREITER; SCHMIDHU- BER, 1997). As LSTMs introduzem um mecanismo de memória por meio de um estado de célula que pode ser mantido ou modificado ao longo do tempo, permitindo a retenção de informações relevantes por períodos prolongados. Essa capacidade torna as LSTMs particularmente adequadas para tarefas que envolvem sequências extensas, como a previsão de séries temporais em AIOps. 2.2.1 Formulação Matemática da LSTM A arquitetura LSTM é composta por células que contêm três portas principais: esquecimento, entrada e saída, além de um estado de célula que atua como memória. Cada 29 porta utiliza funções de ativação sigmóide para regular o fluxo de informação. As equações que descrevem o funcionamento de uma célula LSTM são: • Porta de Esquecimento: ft = σ(Wf · [ht−1, xt] + bf ) Esta porta determina quais informações do estado da célula anterior (Ct−1) devem ser descartadas, produzindo valores entre 0 (esquecer completamente) e 1 (manter integralmente). • Porta de Entrada: it = σ(Wi · [ht−1, xt] + bi) C̃t = tanh(WC · [ht−1, xt] + bC) A porta de entrada decide quais novas informações serão incorporadas ao estado da célula, enquanto C̃t representa um candidato para atualização. • Estado da Célula: Ct = ft ⊙ Ct−1 + it ⊙ C̃t O estado da célula é atualizado combinando a informação retida do estado anterior com a nova informação selecionada. • Porta de Saída: ot = σ(Wo · [ht−1, xt] + bo) ht = ot ⊙ tanh(Ct) A porta de saída controla quais partes do estado da célula são usadas para gerar o estado oculto (ht). Nessas equações, σ é a função sigmóide, tanh é a tangente hiperbólica, W e b são matrizes de pesos e vetores de bias, xt é a entrada no tempo t, ht−1 é o estado oculto anterior, e ⊙ denota multiplicação elemento a elemento. A complexidade computacional por passo de tempo é O(u · (d + u)), onde u é o número de unidades e d é a dimensão da entrada, refletindo o crescimento quadrático dos parâmetros. 2.2.2 Vantagens da LSTM As LSTMs apresentam diversas vantagens que as tornam amplamente utilizadas em aplicações de séries temporais: 30 • Captura de Dependências de Longo Prazo: O estado da célula e as portas permitem que as LSTMs retenham informações por muitos passos de tempo, essencial para modelar padrões históricos complexos, como sazonalidades diárias ou semanais em dados de AIOps. • Robustez a Ruído e Não Linearidade: Estudos demonstram que LSTMs superam modelos estatísticos tradicionais, como ARIMA, em dados ruidosos e não lineares, sendo eficazes em cenários com flutuações abruptas (SIAMI-NAMINI; TAVAKOLI; NAMIN, 2018; LARA-BENíTEZ; CARRANZA-GARCíA; RIQUELME, 2021). • Gestão Eficiente de Memória: A porta de esquecimento possibilita a seleção adaptativa de informações relevantes, evitando a perda de dados críticos e facilitando a modelagem de padrões temporais sofisticados. 2.2.3 Limitações da LSTM Apesar de suas vantagens, as LSTMs possuem limitações significativas: • Sensibilidade a Hiperparâmetros: O desempenho depende de hiperparâmetros como número de unidades, taxa de aprendizado, tamanho do lote e regularização. A otimização manual ou métodos como Grid Search são computacionalmente custosos (GOODFELLOW; BENGIO; COURVILLE, 2016). • Complexidade Computacional: O número de parâmetros, dado por 4 · (u · (d + u) + u), cresce quadraticamente, tornando o treinamento intensivo em recursos, especialmente para grandes conjuntos de dados. • Risco de Sobreajuste: Modelos com muitas unidades ou janelas temporais extensas podem sobreajustar, particularmente sem regularização adequada. • Foco Unívariate: Muitas aplicações, como a descrita no anexo, concentram-se em previsões unívariadas, limitando a capacidade de capturar interações entre múltiplas variáveis. 2.2.4 Aplicações em Previsão de Séries Temporais As LSTMs são amplamente empregadas em previsão de séries temporais devido à sua habilidade em modelar dependências temporais complexas. Em AIOps, são usadas para prever consumo de recursos, como memória, CPU e rede, permitindo alocação proativa e redução de downtime. No estudo do anexo, LSTMs foram aplicadas a dois conjuntos de dados reais: Google Cluster Traces 2019 (30 dias de uso de memória, agregados a cada 30 minutos) e métricas do Prometheus (7 dias de uso de memória de um servidor Linux). 31 Ambos exibem sazonalidade diária, e os modelos foram treinados para prever o próximo passo temporal, minimizando o MAE. Além de AIOps, LSTMs são aplicadas em diversos domínios, incluindo: • Finanças: Previsão de preços de ações e taxas de câmbio (FISCHER; KRAUSS, 2018). • Saúde: Monitoramento de pacientes e previsão de doenças (LIPTON et al., 2015). • Clima: Previsão meteorológica e análise de padrões climáticos (SHI et al., 2015). • Energia: Previsão de demanda e preços de energia (LAGO; RIDDER; SCHUTTER, 2018). 2.2.5 Comparação com Outras Variantes de RNNs Além das LSTMs, as GRUs, introduzidas por Cho et al. (2014), são uma variante popular de RNNs. As GRUs possuem uma estrutura mais simples, com apenas duas portas (atualização e redefinição), reduzindo o número de parâmetros e acelerando o treinamento. Contudo, sua capacidade de capturar dependências de longo prazo pode ser inferior às LSTMs em cenários complexos (CHUNG et al., 2014). No contexto do estudo, a escolha das LSTMs justifica-se pela necessidade de modelar padrões sazonais e flutuações abruptas em dados de AIOps, onde dependências de longo prazo são críticas. 2.2.6 Avanços Recentes em LSTM para AIOps Pesquisas recentes ampliaram a aplicação de LSTMs em AIOps. Propuseram o modelo DA-LSTM-VAE, que integra LSTMs com Variational Autoencoders (VAEs) e um mecanismo de atenção em duas etapas para detecção de anomalias em KPIs, alcançando F1-scores de 0,90, 0,93 e 0,86 em um conjunto de dados do AIOps Challenge 2018 (ZHANG et al., 2023). Li et al. (2024) utilizaram PSO para otimizar LSTMs em detecção de intrusões de rede, obtendo resultados de ponta. As LSTMs são uma ferramenta poderosa para previsão de séries temporais em AIOps, destacando-se na captura de dependências de longo prazo e robustez a dados complexos. Contudo, sua complexidade e sensibilidade a hiperparâmetros requerem oti- mização avançada, como o MRFO, que demonstrou melhorias significativas. Este estudo valida a eficácia das LSTMs e introduz uma abordagem inovadora, abrindo caminhos para pesquisas futuras em previsão multivariada e meta-heurísticas híbridas. 32 2.3 Arquitetura Transformer e Mecanismo de Atenção A arquitetura Transformer foi introduzida por Vaswani et al. (2017) no artigo “Attention Is All You Need”, revolucionando o processamento de sequências ao abandonar completamente o uso de recorrência ou convolução. O problema principal abordado por essa proposta era a dificuldade das RNNs, mesmo em variantes como LSTM, em capturar dependências de longo alcance de forma eficiente. As RNNs processam tokens em sequência, o que impede paralelismo e dificulta o aprendizado de relacionamentos distantes devido a problemas de vanishing gradient. Os pesquisadores propuseram resolver essas limitações utilizando mecanismos de atenção self-attention em uma arquitetura encoder–decoder totalmente paralelizável. Com o Transformer, relações de longo alcance podem ser modeladas diretamente através de pesos de atenção, e todas as posições de uma sequência são processadas simultaneamente, agilizando o treinamento em comparação com arquiteturas sequenciais tradicionais. A eficácia dessa abordagem foi demonstrada inicialmente em tradução automática, superando significativamente o estado da arte da época (VASWANI et al., 2017). A ideia central é que a “atenção” entre elementos da sequência é suficiente para aprender estruturas complexas, dispensando mecanismos recorrentes – daí o título do artigo, “atenção é tudo que você precisa”. 2.3.1 Arquitetura Original – Encoder-Decoder O Transformer original consiste de dois blocos principais: um codificador e um decodificador, cada um empilhando múltiplas camadas idênticas. O codificador recebe uma sequência de entrada (por exemplo, palavras de uma sentença) e produz representações intermediárias para cada posição. Em seguida, o decodificador gera a sequência de saída (por exemplo, tradução) autoregressivamente, atendendo à informação codificada. Tanto as camadas do codificador quanto as do decodificador baseiam-se em dois submódulos centrais: (1) o módulo de atenção de múltiplas cabeças (multi-head self-attention) e (2) uma rede feed-forward posicionada após a atenção. Além disso, no decodificador cada camada inclui um terceiro submódulo de atenção encoder–decoder, que permite ao decodificador “olhar” para as saídas do codificador, vide Apêndice A. Crucialmente, cada submódulo é envolto por conexões residuais e seguido de uma normalização de camada (layer normalization) (VASWANI et al., 2017). Assim, a saída de cada subcamada é LayerNorm(x + subcamada(x)), facilitando a estabilização do treinamento. A seguir, detalhamos os componentes fundamentais do Transformer – o mecanismo de atenção, a codificação posicional e a normalização – junto às principais equações matemáticas que regem seu funcionamento. 33 2.3.2 Mecanismo de Atenção Multi-Cabeças No cerne do Transformer está o mecanismo de self-attention, que calcula a impor- tância de cada elemento da sequência em relação aos demais. Cada posição i na sequência de entrada é projetada em três vetores: consulta (qi), chave (ki) e valor (vi), obtidos por transformações lineares aprendidas. Agregando todas as posições, denotamos por Q, K e V as matrizes que contêm, respectivamente, as consultas, chaves e valores para a sequência inteira (cada uma de dimensão n×d, onde n é o comprimento da sequência e d a dimensão de embedding). A atenção por produto escalar escalonado (scaled dot-product attention) é então computada conforme a Equação 1: Attention(Q, K, V ); =; softmax! Q, K⊤ √ dk ; V , (1) onde dk é a dimensão dos vetores de chave (e consulta). A equação acima produz, para cada posição i, uma combinação ponderada dos valores vj de todas as posições j, em que o peso softmax ( qi·kj√ dk ) reflete quanto o elemento j é relevante para i. O fator de escalonamento 1/ √ dk foi introduzido para estabilizar os gradientes – sem ele, para valores grandes de dk, os produtos qi · kj poderiam ter magnitude alta, resultando em distribuições de softmax muito agudas e dificultando o aprendizado (VASWANI et al., 2017). Em resumo, a atenção calcula uma média ponderada dos valores V usando coeficientes baseados em similaridades entre consultas e chaves; isso permite que cada posição foque em outras posições relevantes da sequência, capturando relações sem considerar explicitamente a distância entre tokens. Uma inovação crucial do Transformer é o uso de atenção de múltiplas cabeças (multi-head attention). Em vez de calcular uma única distribuição de atenção com vetores Q, K, V de alta dimensão, o Transformer aprende h diferentes projeções (cabeças) menores. Para cada cabeça i ∈ {1, . . . , h}, definem-se matrizes de projeção W Q i , W K i e W V i de dimensões d× dk, d× dk e d× dv, respectivamente. Cada cabeça então computa headi = Attention(QW Q i , ; KW K i , ; V W V i ). As h atenções resultantes (cada uma de tamanho n×dv) são concatenadas e projetadas novamente por W O (dimensão hdv × d) para produzir a saída final do módulo de multi-head. Formalmente: MultiHead(Q, K, V ); =; Concat(head1, . . . , headh); W O , (2) onde headi = Attention(QW Q i , ; KW K i , ; V W V i ). Essa estrutura de múltiplas cabe- ças permite que o modelo atenda simultaneamente a diferentes subespaços de representação (VASWANI et al., 2017). Em outras palavras, cada cabeça pode se especializar em um tipo de relacionamento ou padrão na sequência (por exemplo, uma cabeça pode focar em relacionar uma determinada palavra com suas adjacentes enquanto outra captura 34 relações de longo alcance). Na arquitetura original, usaram-se h = 8 cabeças de atenção, com d = 512 e dk = dv = 64 em cada cabeça, de modo que 8 × 64 = 512. O resultado da atenção multi-cabeças é então passado adiante para uma rede feed-forward, conforme descrito a seguir, após ser combinado à entrada via conexão residual. 2.3.3 Rede Feed-Forward e Codificação Posicional Após o módulo de atenção, cada camada do Transformer inclui uma rede feed- forward posicionada que atua separadamente em cada posição da sequência. Essa rede é composta por duas camadas densas com uma função de ativação não linear (ReLU na versão original). Seja x o vetor de saída da atenção para uma posição; a rede feed-forward calcula FFN(x) = W2, max(0, , W1x + b1) + b2, onde W1, W2 são matrizes de pesos e b1, b2 os bias. Essa MLP position-wise expande e reconstrói a dimensionalidade (por exemplo, originalmente W1 expande de dmodel = 512 para 2048, e W2 reduz de volta para 512). A intuição é fornecer ao modelo uma transformação não linear poderosa em cada posição, após a atenção ter misturado informações globais da sequência. Assim, cada camada do codificador (ou decodificador) combina a auto-atenção multi-cabeças com uma transformação não linear local, permitindo modelar tanto dependências entre posições quanto padrões complexos em cada posição. Um desafio decorrente do uso de atenção pura é que o modelo não possui, intrinse- camente, noção de ordem sequencial – diferente de RNNs, que processam tokens em ordem temporal. Para contornar isso, Vaswani et al. (2017) introduziram a codificação posicional dos embeddings de entrada. Antes de alimentar a primeira camada do Transformer, são adicionados aos vetores de embedding dos tokens vetores que codificam a posição (índice) de cada token na sequência. Na versão original, utilizou-se uma codificação posicional determinística baseada em funções seno e cosseno de frequências diferentes (VASWANI et al., 2017). A formulação é dada por: PE(pos,,2i) = sin! ( pos 100002i/dmodel ) , PE(pos,,2i+1) = cos! ( pos 100002i/dmodel ) , (3) onde pos é a posição do token na sequência (começando em 0) e i indexa a dimensão do vetor de posição até dmodel−1. Essa definição produz componentes sinusoidais de diferentes períodos para cada dimensão do embedding posicional, de forma que cada posição no tempo tenha um vetor único e que preserve relações de distância: por exemplo, a diferença entre PEpos=10 e PEpos=20 será similar à diferença entre PEpos=30 e PEpos=40, uma vez que a relação de deslocamento de 10 posições é capturada pelos mesmos ângulos das senoides. Esse esquema permite ao modelo aprender, através da atenção, em que posição relativa outros tokens estão, pois as consultas e chaves incluem informação posicional somada aos embeddings das palavras. Alternativamente, trabalhos posteriores exploraram 35 codificações posicionais aprendidas (vetores de posição como parâmetros treináveis) ou até estratégias híbridas que combinem informações absolutas e relativas sobre posição (SHAW; USZKOREIT; VASWANI, 2018), mas o importante é que algum tipo de sinal de posição é necessário para que o Transformer distinga a ordem dos elementos na entrada. 2.3.4 Normalização de Camada e Estabilização do Treinamento Cada subcamada de atenção ou feed-forward no Transformer é seguida de uma operação de normalização de camada (Layer Normalization) antes de passar para a próxima etapa. A normalização de camada, proposta por Ba et al., impõe que os neurônios de uma dada camada tenham média zero e variância unitária para cada exemplo, melhorando a estabilidade do treinamento em redes profundas. Dado um vetor de ativação x = (x1, . . . , xd) de dimensão d (por exemplo, as ativações em uma posição após a atenção ou feed-forward), a normalização de camada produz um vetor y = (y1, . . . , yd), cujos componentes são: yj; =; xj − µ(x) σ(x) + ϵ , γj; +; βj , 1 ≤ j ≤ d , (4) onde µ(x) = 1 d ∑d j=1 xj é a média dos componentes de x, σ(x) = √ 1 d ∑d j=1(xj − µ(x))2 é o desvio padrão, e ϵ é um termo de estabilidade numérica. Os parâmetros γj e βj são vetores treináveis (mesma dimensão d) que permitem re-escalar e deslocar linearmente a saída normalizada. No Transformer, a normalização de camada é aplicada junto a conexões residuais, isto é, cada subcamada gera LayerNorm(x + subcamada(x)) como saída final (VASWANI et al., 2017). Esse esquema de residual add e norm ajuda a gradiente fluir pelas camadas e permite treinar pilhas profundas (na arquitetura original há 6 camadas no codificador e 6 no decodificador, totalizando 12 subcamadas atencionais). Em síntese, a normalização garante que distribuições de ativação permaneçam estáveis mesmo conforme a profundidade e o treinamento avançam, contribuindo para o sucesso do modelo. 2.3.5 Resumo da Arquitetura Combinando os componentes acima, o Transformer consegue transformar uma sequência de entrada em outra sequência de saída aprendendo padrões complexos de atenção. No codificador, cada camada processa todos os tokens em paralelo via multi- head self-attention (permitindo que cada token “veja” todos os outros) e então refina cada posição via a feed-forward position-wise. No decodificador, um mecanismo similar é usado, mas cada posição da saída só pode atender a posições anteriores (masking causal na self-attention do decodificador, para não “espiar” o futuro que ainda será previsto). Além disso, o decodificador realiza atenção extra sobre as saídas do codificador (atenção encoder–decoder), ligando as duas partes. Esse design eliminou a necessidade de processar sequências passo a passo: as dependências temporais passam a ser aprendidas pelos padrões 36 de atenção, e a computação pode ser totalmente paralela em cada camada. O resultado foi um salto de qualidade e eficiência em tradução automática e, subsequentemente, em diversas outras tarefas de sequência. Nos anos seguintes, a comunidade explorou extensivamente variações dessa arquitetura básica, adaptando o Transformer a novos domínios e objetivos, conforme discutido na próxima seção. 2.3.6 Evolução da Arquitetura Transformer e Aplicações em Séries Temporais Desde a sua introdução, a arquitetura Transformer tornou-se a espinha dorsal de inúmeros avanços em aprendizado profundo. Nesta seção, procedeu a discussão a evolução do Transformer em variantes notáveis – incluindo BERT, GPT e Vision Transformer – e explorou-se como a arquitetura foi adaptada para domínios além do texto, com ênfase particular em séries temporais. Por fim, conectou-se esses avanços ao contexto de AIOps, descrevendo exemplos práticos (como o Time Series Transformer da HuggingFace e o Granite Time Series da IBM) e explicando como o presente trabalho aproveita uma versão simplificada do Transformer para previsão de métricas de recursos computacionais. 2.3.7 Transformers em NLP: Modelos BERT e GPT No campo de Processamento de Linguagem Natural (PLN), a arquitetura Trans- former rapidamente se consolidou graças à sua capacidade de capturar relações sem ordem fixa e facilitar o pré-treinamento em larga escala. Dois marcos evolutivos foram os modelos BERT e GPT, que adaptaram o Transformer para objetivos de treinamento não supervisionados em grandes corpora de texto, alterando a forma de aprendizado das representações linguísticas. BERT (Bidirectional Encoder Representations from Transformers), proposto por Devlin et al.(2018), é um modelo baseado unicamente na parte codificadora do Transformer. O BERT utiliza múltiplas camadas encoder (por exemplo, 12 camadas no BERT-Base) para produzir representações contextuais de textos, mas treina essas camadas com uma estratégia de pré-treinamento bidirecional. Diferentemente de modelos autoregressivos, o BERT é treinado em uma tarefa de modelagem de linguagem mascarada (Masked Language Modeling): partes do texto de entrada (tipicamente 15% dos tokens) são mascaradas aleato- riamente, e o modelo aprende a prever os tokens originais a partir do contexto bidirecional (ou seja, considerando simultaneamente as palavras à esquerda e à direita da máscara). Adicionalmente, BERT foi treinado com uma tarefa de previsão de próxima sentença (Next Sentence Prediction) para ensinar relações entre sentenças. Esse esquema de treino força o codificador Transformer a capturar significados ricos de cada posição considerando todo o entorno, resultando em embeddings poderosos que podem ser posteriormente fine-tuned em diversas tarefas supervisionadas de NLP. O impacto do BERT foi profundo: ao disponibilizar um modelo pré-treinado com bilhões de palavras, Devlin et al. (2018D 37 mostraram que bastava ajustar levemente esse modelo em tarefas específicas (como análise de sentimentos, perguntas e respostas, reconhecimento de entidades, etc.) para atingir ou superar o estado da arte de então (DEVLIN et al., 2018). Em suma, o BERT demonstrou que o Transformer encoder, quando treinado de forma auto-supervisionada em larga escala, pode servir como modelo fundamental de linguagem, fornecendo representações universais bidirecionais. Por outro lado, os modelos GPT (Generative Pre-trained Transformer) seguiram uma estratégia complementar, focando na geração de texto via decodificadores Trans- former. O GPT original de Radford et al. (2018) e suas iterações subsequentes (GPT-2 (RADFORD et al., 2018) e GPT-3 (BROWN, 2020), entre outros) utilizam apenas a pilha de decodificadores do Transformer, treinada em um objetivo simples porém poderoso: modelagem de linguagem autoregressiva. Nessa configuração, dado um prefixo de texto, o modelo aprende a prever o próximo token, depois o seguinte e assim por diante, assimilando a distribuição estatística da língua a partir de enormes volumes de dados brutos. Diferen- temente do BERT, o GPT não tem acesso ao futuro da sequência durante a previsão de cada token – ele funciona unidirecionalmente, incorporando apenas o contexto à esquerda (passado) para gerar a continuação. Apesar de não usar contexto futuro, quando escalado em tamanho e dados, o GPT demonstrou capacidades surpreendentes de geração de texto fluido e contextual. O GPT-3, por exemplo, com 175 bilhões de parâmetros, mostrou pela primeira vez fortes habilidades de learning de poucas instruções (few-shot learning), conseguindo executar tarefas de linguagem diversas apenas lendo exemplos na própria entrada, sem ajuste de pesos (BROWN, 2020). Esse feito evidenciou o poder de escala- bilidade da arquitetura Transformer : modelos muito maiores treinados em quantidades massivas de texto revelaram comportamentos emergentes, resolvendo tarefas complexas não antecipadas explicitamente durante o treino. Em resumo, a família GPT evidenciou o potencial dos Transformers como modelos gerativos universais, capazes de produzir linguagem natural coerente e realizar tarefas mediante formulação apropriada na entrada (prompts). BERT e GPT, embora diferentes em enfoque (encoder bidirecional vs. decoder autoregressivo), juntos inauguraram a era dos modelos pré-treinados em NLP, dominando o estado da arte em quase todas as tarefas do campo a partir de 2018. 2.3.8 Transformers em Visão Computacional: Vision Transformer (ViT) Após conquistas em NLP, a arquitetura Transformer também foi adaptada para Visão Computacional. Tradicionalmente, redes neurais convolucionais (CNNs) eram a principal ferramenta para tarefas como classificação de imagens. Contudo, Dosovitskiy et al. (2020) propuseram o Vision Transformer (ViT), demonstrando que um Transformer puro pode alcançar desempenho de ponta em imagens ao ser treinado com dados suficientes. A ideia do ViT é representar uma imagem como uma sequência de patches (fragmentos) 38 análogos a “palavras” visuais. Especificamente, uma imagem é dividida em patches de tamanho fixo (por exemplo, 16× 16 pixels), cada patch é linearmente projetado a um vetor de dimensão d e enriquecido com um embedding posicional indicando sua localização na grade da imagem. Uma sequência de tais vetores (tipicamente precedida de um token de classificação especial, similar ao [CLS] do BERT) é então alimentada a uma arquitetura Transformer semelhante à do codificador original. O ViT processa os patches via camadas de multi-head self-attention, permitindo que o modelo relacione partes distantes da imagem livremente. Importante, como as imagens são tratadas como sequências de patches, o ViT também requer codificação posicional (no caso, aprendida) para indicar a posição de cada patch na estrutura 2D da imagem. Os resultados reportados por Dosovitskiy et al. (2020) mostraram que, quando pré-treinado em um volume muito grande de dados (por exemplo, no dataset JFT-300M ou ImageNet-21k) e posteriormente ajustado em tarefas de visão, o ViT atingiu acurá- cias comparáveis ou superiores às melhores CNNs, como EfficientNets, especialmente em resoluções altas. A conclusão foi que a auto-atenção é capaz de capturar características visuais relevantes distribuídas pela imagem, sem necessidade explícita de convoluções. Essa descoberta abriu caminho para uma série de variantes e aprimoramentos de Transformers para visão, incluindo modelos híbridos (convolução + atenção) e aplicações a detecção de objetos, segmentação, vídeo, entre outras. Em suma, o Vision Transformer provou que a arquitetura Transformer é multidomínio, podendo atuar em dados não sequenciais (como pixels dispostos em uma grade) desde que convertidos a uma representação sequen- cial apropriada. Esse avanço consolidou ainda mais os Transformers como uma família arquitetural unificadora para diferentes modalidades de dados. 2.3.9 Transformers para Séries Temporais e AIOps Outro domínio de grande interesse para aplicação de Transformers é o de séries temporais, que incluem dados provenientes de sensores, métricas de sistemas, finanças, etc. Tarefas como previsão de séries temporais e detecção de anomalias sempre foram desafiadoras, tradicionalmente abordadas por modelos estatísticos (ARIMA, Prophet) ou redes recorrentes e convolucionais especializadas. A natureza sequencial e a presença de padrões de longo prazo (como sazonalidades anuais, tendências) sugerem que a capacidade dos Transformers de modelar dependências arbitrariamente longas pode ser altamente benéfica para séries temporais. De fato, pesquisadores têm adaptado e estendido a ar- quitetura Transformer para melhor adequação a dados temporais, enfrentando desafios particulares desse domínio, como sequências muito mais longas que textos e a necessidade de incorporar informações de tempo contínuo. Adaptações Gerais: Aplicar Transformers diretamente em séries temporais exige alguns ajustes. Primeiramente, muitas vezes as entradas não são sequências de tokens 39 discretos, e sim sequências de valores contínuos (por exemplo, medições numéricas ao longo do tempo). Uma solução comum é considerar janelas de tempo fixas como “sequências” de entrada e predição. Assim, um Transformer de previsão recebe uma janela de histórico (por exemplo, valores dos últimos N instantes) e aprende a prever os próximos M valores futuros análogo a uma tarefa seq2seq, em que a sequência-fonte é o passado e a sequência-alvo é o futuro. Em segundo lugar, é crucial fornecer ao modelo algum sinal de temporalidade: além de usar codificações posicionais para a ordem dos pontos na janela, costuma-se adicionar features temporais explícitas, como indicadores de hora do dia, dia da semana, etc., para ajudar o modelo a capturar padrões sazonais conhecidos. Essas features atuam como uma forma de codificação posicional informada pelo conhecimento de calendário. Por exemplo, o Time Series Transformer implementado pela HuggingFace insere atributos como mês e dia diretamente como entradas adicionais ao Transformer, tratando-os como embeddings junto aos valores da série (RASUL et al., 2024). Outra consideração é que muitas aplicações de séries temporais demandam previsões probabilísticas (intervalos de confiança, distribuições) em vez de apenas um ponto previsto. Abordagens baseadas em Transformer têm incorporado cabeças de saída que produzem parâmetros de distribuições (como média e desvio de Gaussiana) ou quantis (RASUL et al., 2024), permitindo estimar incertezas – o que é valioso em cenários como planejamento de capacidade e detecção de anomalias. Desafios e Soluções para Longas Sequências: Um impedimento técnico dos Transfor- mers em séries temporais está no custo quadrático da atenção em relação ao comprimento da sequência. Séries podem conter centenas ou milhares de passos relevantes, tornando proibitivo aplicar self-attention direta em sequências muito longas. Para mitigar isso, várias variantes especializadas foram propostas. Por exemplo, o Informer (ZHOU et al., 2021) introduziu um mecanismo de atenção esparsa (probSparse attention) que seleciona apenas partes mais informativas do espectro de atenção, reduzindo drasticamente o custo para longas janelas de previsão. Já o Autoformer (WU et al., 2021) incorporou um decompositor de séries temporais dentro do modelo, separando componentes de tendência e sazonalidade e aplicando atenção de forma mais estruturada. Mais recentemente, o PatchTST (Patch Time Series Transformer) (NIE et al., 2023) trouxe a ideia de dividir séries temporais em patches (sub-séries) análoga ao ViT: o modelo extrai trechos consecutivos da série em cada variável como unidades básicas (patches) e processa cada variável de forma independente (channel-independent), antes de eventualmente combinar informações entre variáveis. Essa abordagem demonstrou ganhos notáveis em previsão de longo prazo, pois captura padrões locais em cada série através dos patches e evita a necessidade de atenção global sobre sequências excessivamente longas (NIE et al., 2023). Muitas dessas inovações atacam tam- bém a questão de correlação entre múltiplas séries (séries multivariadas): enquanto alguns modelos optam por ignorar correlações treinando um Transformer separado para cada variável (como no modo channel-independent do PatchTST), outros permitem misturar 40 canais (variáveis) através de camadas de atenção especializadas ou combinações tardias das representações. Exemplo – Time Series Transformer (HuggingFace): A biblioteca HuggingFace Transformers incorporou um modelo genérico chamado TimeSeriesTransformer (RASUL et al., 2024), que exemplifica a adaptação direta do Transformer para previsão de séries temporais. Trata-se de um modelo encoder–decoder padrão, semelhante ao Transformer de Vaswani, aplicado a janelas de séries. O codificador recebe os últimos N pontos de uma série (histórico), enquanto o decodificador gera os próximos M pontos futuros. Durante o treinamento, utiliza-se teacher forcing: os valores reais mais recentes são fornecidos passo a passo ao decodificador para predição do próximo, análogo ao que se faz em tradução. Para informar o modelo sobre a posição temporal de cada ponto, em vez de usar exclusivamente as senoides de posicional, o modelo da HuggingFace incorpora features temporais explícitas (como mencionado acima) concatenadas à entrada, por exemplo indicando o mês, dia ou hora correspondentes a cada valor (RASUL et al., 2024). Também é possível incluir variáveis exógenas (como indicadores de feriados, métricas correlatas, etc.) e identificadores estáticos (por exemplo, um ID de servidor no caso de múltiplas séries de diferentes máquinas) como parte da entrada ao Transformer. Assim, o TimeSeriesTransformer se configura como um modelo global treinado em múltiplas séries, capaz de aprender padrões compartilhados. Notavelmente, a implementação do HuggingFace suporta previsão probabilística, não produzindo diretamente um escalar para cada passo futuro, mas sim parâmetros de uma distribuição (por exemplo, média e escala de uma distribuição Student-t) da qual se pode amostrar predições (RASUL et al., 2024). Isso o alinha com práticas modernas de previsão incerta, ao contrário de apenas previsão pontual. Em termos de estrutura, porém, esse modelo permanece próximo ao Transformer original, comprovando a flexibilidade da arquitetura: sem modificar fundamentalmente o mecanismo de atenção, ele pode ser aplicado a dados temporais contanto que estruturemos apropriadamente as entradas e saídas. Exemplo – Granite Time Series (IBM): Além de implementações genéricas, surgiram modelos Transformer especializados para séries temporais com foco em AIOps. Um exemplo de destaque é a família Granite Time Series, desenvolvida pela IBM Research e disponibilizada como modelos abertos e pré-treinados (RESEARCH, 2023). Os modelos Granite TS representam uma abordagem de modelos fundamentais (foundation models) para séries temporais: são modelos pré-treinados em larga escala, capazes de serem refinados para diversos cenários de previsão. Em particular, a versão conhecida como Granite Time Series Tiny Time Mixer (TTM) contém apenas cerca de 1 a 3 milhões de parâmetros, mas já vem pré-treinada para prever séries multivariadas, permitindo uso imediato ou fine-tuning eficiente. A arquitetura do Granite TTM combina ideias de patches e mixing de canais: ele suporta tanto o modo channel-independent (onde cada métrica é processada separadamente, capturando padrões individuais) quanto um modo de mistura de canais no 41 decodificador (decoder channel-mixing), em que durante o ajuste fino o modelo aprende a captar correlações entre diferentes séries (por exemplo, entre métricas de CPU e memória de um servidor) (RESEARCH, 2023). Essa capacidade de alternar entre tratar cada série isoladamente e combinar informações de múltiplas séries é valiosa em AIOps, pois algumas métricas podem ter comportamentos independentes enquanto outras apresentam inter-relações fortes. Outra característica importante dos Granite models é a incorporação de metadados temporais e contextuais como parte do prompt de entrada. Como descrito na documentação (RESEARCH, 2023), em vez de entradas textuais livres, os prompts para modelos de séries temporais incluem informações estruturais sobre os dados (por exemplo, frequência de coleta, quais colunas são targets ou exógenas, identificação do sistema) juntamente com a janela de valores históricos. Isso permite que o modelo pré-treinado aproveite conhecimento geral sobre padrões de determinadas frequências ou tipos de métricas. Os modelos Granite foram treinados em um conjunto amplo de séries temporais e disponibilizados sob licença open source, e relatórios indicam que eles alcançam desempenho de ponta em benchmarks de previsão com uma pegada computacional muito menor do que redes profundas tradicionais (RESEARCH, 2023). Em resumo, o Granite Time Series exemplifica a convergência de Transformers com as necessidades de AIOps: oferece modelos enxutos, eficientes em CPU, mas capazes de previsão acurada de longo prazo, prontos para serem integrados em pipelines de monitoramento de TI. 2.3.10 Transformers e AIOps As adaptações acima não apenas avançam o estado da arte acadêmico, mas têm aplicação prática direta em AIOps. Em ambientes de operações de TI, prever o compor- tamento de métricas como utilização de CPU, memória, tráfego de rede, etc., é crucial para detecção proativa de anomalias, prevenção de incidentes e otimização de recursos. Modelos baseados em Transformer podem aprender padrões complexos dessas métricas – por exemplo, capturar ciclos diários de uso, picos semanais ou correlações entre serviços – melhor do que modelos lineares tradicionais. Além disso, a habilidade de considerar longos históricos permite antecipar eventos raros ou tendências graduais. Já há relatos de uso de Transformers para anomaly detection em métricas de data centers (XU et al., 2022; TULI; CASALE; JENNINGS, 2022), confirmando sua adequação ao domínio de AIOps. Os exemplos do Time Series Transformer e do Granite TS mostram duas abordagens complementares: uma abordagem genérica de uso amplo e outra especializada e otimizada, respectivamente, ambas alinhadas ao objetivo de melhorar a confiabilidade e eficiência de operações de TI por meio de previsão inteligente. 42 2.3.11 Aplicação no Trabalho Atual: Previsão de Métricas com Transformer Simplificado Os avanços discutidos acima servem de fundamento para a proposta do presente trabalho. Nesta dissertação, foi empregada uma versão simplificada da arquitetura Trans- former para abordar o problema real de previsão de métricas de recursos computacionais coletadas via Prometheus (uma ferramenta de monitoramento que registra séries temporais de métricas de infraestrutura). Em vez de utilizar modelos de grande porte ou altamente complexos, optou-se por um design enxuto inspirado no Transformer original, adequado à escala dos dados disponíveis e às necessidades de AIOps da organização em questão. Concretamente, o modelo desenvolvido mantém os componentes-chave do Trans- former – em especial o mecanismo de atenção self-attention – porém com complexidade reduzida. Foram utilizadas menos camadas (profundidade menor) e menos cabeças de atenção por camada, diminuindo o número de parâmetros. Essa simplificação visa facilitar o treinamento com volumes limitados de dados de métricas e viabilizar a implantação em cenários onde recursos de processamento são restritos. Além disso, certas adaptações específicas ao domínio foram incorporadas. Por exemplo, como as métricas do Prometheus possuem periodicidades conhecidas (padrões diários e semanais de uso de CPU, memória, etc.), o modelo integra codificações temporais customizadas e features de calendário (simi- lares às usadas no Time Series Transformer da HuggingFace). Isso reforça a capacidade do modelo de capturar sazonalidades típicas de cargas de trabalho de TI. Adicionalmente, devido ao foco em previsão de curto a médio prazo para detecção de anomalias, privilegiou- se janelas de entrada relativamente curtas e um horizonte de predição compatível com a detecção proativa de incidentes (por exemplo, prever a próxima hora com granularidade de minutos). A aplicação do Transformer simplificado mostrou-se eficaz em modelar as séries de métricas. Mesmo com menos camadas, o mecanismo de auto-atenção conseguiu aprender relações relevantes entre pontos no histórico de cada métrica por exemplo, identificando que a alta utilização de CPU em determinados horários está correlacionada com padrões de trabalho humanos, ou que certos picos de memória precedem aumentos de uso de swap. O modelo aprendeu também a diferença de comportamento entre diferentes hosts ou serviços (quando métricas de múltiplas fontes foram modeladas conjuntamente), graças à inclusão de identificadores estáticos no embedding de entrada. Em suma, os princípios delineados pelos Transformers de última geração foram aplicados em menor escala para solucionar um problema de mundo real em AIOps. Esta escolha metodológica foi guiada pela necessidade de balancear precisão preditiva e simplicidade: ao aproveitar a expressividade do mecanismo de atenção para capturar dependências temporais, mas limitando a capacidade do modelo para evitar sobreajuste e reduzir custo computacional, foi possível desenvolver um preditor de métricas que se integra facilmente ao ecossistema Prometheus. Os resultados, discutidos 43 em capítulos posteriores, indicam que mesmo uma versão simplificada do Transformer supera modelos tradicionais de previsão em diversos cenários de métricas de recursos, corroborando a relevância da arquitetura Transformer – e de suas variantes – como ferramenta fundamental em AIOps. Por fim, vale ressaltar que a implementação desenvolvida dialoga com os trabalhos recentes citados: embora não alcance a sofisticação de um Granite Time Series pré-treinado ou de modelos especializados como Informer/Autoformer, ela demonstra na prática a flexibilidade da arquitetura Transformer em ser adaptada a diferentes contextos. A simpli- ficação orientada pelo domínio reforça a ideia de que compreendendo-se os componentes essenciais (atenção, posicionamento temporal, etc.), pode-se moldar o Transformer às restrições e objetivos de cada aplicação. Este trabalho, portanto, insere-se nessa linha evolutiva, aplicando conceitos da literatura de Transformers de forma inovadora a um problema específico de previsão de séries temporais em operações de TI. 2.4 Algoritmo MRFO O algoritmo MRFO é um método de otimização meta-heurístico bio-inspirado que imita os comportamentos de forrageamento de arraias manta em busca de alimento (ZHAO; WANG; ZHANG, 2020). Sua principal motivação teórica é equilibrar exploração global e exploração local do espaço de busca por meio de diferentes estratégias inspiradas em padrões de movimentação das arraias. Especificamente, o MRFO emprega três fases distintas de busca – chain foraging, cyclone foraging e somersault foraging – que atuam de forma complementar para evitar convergência prematura em ótimos locais (ZHAO; WANG; ZHANG, 2020). Em cada iteração, cada agente (solução candidata) pode executar aleatoriamente uma dessas estratégias, promovendo diversidade e intensificação adaptativas na busca pela solução ótima global (ZHU et al., 2023). A seguir, é descrito em detalhe cada fase juntamente com suas equações características e fundamentos teóricos: • Chain Foraging: as arraias formam uma cadeia para capturar plâncton cooperati- vamente, seguindo o líder. No algoritmo, essa cooperação é modelada atualizando-se a posição de cada agente com influência tanto do melhor agente global quanto do agente vizinho anterior na cadeia. A atualização é dada por: X t+1 i = X t i + α, Rk ( X t best −X t i ) + β, Rk ( X t i−1 −X t i ) , (5) onde X t i é a posição do i-ésimo agente na iteração t, X t best é a melhor solução encontrada até t, e X t i−1 representa a posição do agente precedente. O termo Rk = diag(rk,1, . . . , rk,D) é uma matriz diagonal de números aleatórios uniformes rk,d ∼ U(0, 1) em cada dimensão d, introduzindo aleatoriedade element-wise. Os parâmetros α e β são coeficientes de peso (tipicamente α = 1.5 e β = 1.0 (ZHAO; WANG; 44 ZHANG, 2020)) que controlam a contribuição relativa do melhor global e do vizinho na movimentação. Essa fase promove uma exploração orientada pela melhor solução, ao mesmo tempo em que encoraja cooperação local entre agentes adjacentes, evitando que todos os agentes se movam estritamente em direção ao ótimo global de forma sincronizada. • Cyclone Foraging: as arraias nadam em um movimento espiralado semelhante a um ciclone enquanto convergem em direção à presa. No MRFO, essa estratégia é modelada fazendo os agentes espiralarem em torno da melhor posição atual, conforme: X t+1 i = X t best + γt Rθ ( X t best −X t i ) , (6) onde γt = 2 ( 1− t Tmax ) é um fator que decresce linearmente com as iterações (sendo Tmax o número máximo de iterações) e Rθ é uma matriz de rotação aleatória que impõe um movimento helicoidal em torno de X t best (ZHAO; WANG; ZHANG, 2020). Intuitivamente, γt controla o passo de espiral: no início (t pequeno), γt ≈ 2, permitindo movimentos mais amplos (exploração); no final da otimização, γt → 0, de modo que os agentes se aproximam delicadamente do ótimo (exploração local refinada). Essa fase foca em intensificar a busca nas imediações do melhor indivíduo corrente, aprimorando a exploração local de forma análoga ao refinamento em métodos de otimização tradicionais. • Somersault Foraging: próximo a fontes abundantes de alimento, arraias manta dão cambalhotas (somersaults) para se reposicionar eficientemente ao redor da fonte. No MRFO, essa manobra é traduzida em um salto aleatório em torno da melhor solução global, com o objetivo de escapar de ótimos locais e diversificar a busca. A atualização é descrita por: X t+1 i = X t best + ϕ ( X t best −X t i ) , (7) em que ϕ ∼ U(−1, 1) é um coeficiente aleatório escalar no intervalo [−1, 1]. Essa equação reposiciona o agente i ao redor de X t best em uma direção aleatória, po- tencialmente encontrando novas regiões promissoras de busca. A somersault atua como um mecanismo exploratório intensivo, introduzindo saltos não direcionados que aumentam a diversidade populacional e reduzem a chance de aprisionamento prematuro em mínimos locais (ZHAO; WANG; ZHANG, 2020). O algoritmo completo do MRFO está descrito no Pseudocódigo 1. Inicialmente, uma população de N soluções é gerada aleatoriamente no espaço de busca Ω (considerado contínuo de dimensão D) e avaliada segundo a função objetivo f(·). Em cada iteração t, cada agente i seleciona aleatoriamente uma das três estratégias de forrageamento (por exemplo, com probabilidades pré-definidas de 40% para chain, 40% para cyclone e 20% 45 para somersault, conforme adotado neste trabalho) e atualiza sua posição usando a equação correspondente. Após o movimento, aplica-se uma correção de limites para garantir que X t+1 i ∈ Ω (e.g., truncamento ou reflection caso a nova posição exceda os limites do domínio). Em seguida, calcula-se f(X t+1 i ) e, se o valor for melhor que o da melhor solução conhecida X t best, atualiza-se Xbest. Ao final de cada iteração, pode-se adotar um critério de parada adicional: por exemplo, parar antecipadamente se a melhoria do f(Xbest) de uma iteração para a próxima for insignificante (abaixo de um limiar ϵ, como 10−4). Sob condições adequadas de decaimento de passo (como o de γt na Eq. 6), pode-se demonstrar que a sequência estocástica gerada pelo MRFO satisfaz condições de convergência quase certa para o ótimo global (ZHAO; WANG; ZHANG, 2020). Ademais, a combinação das fases cyclone e somersault garante uma probabilidade crescente de escapar de ótimos locais ao longo das iterações (ZHAO; WANG; ZHANG, 2020), reforçando a exploração global mesmo nas etapas finais da busca. Algoritmo 1: Pseudocódigo do algoritmo Manta Ray Foraging Optimization Entrada: Tamanho da população N ; número máximo de iterações Tmax; coeficientes α, β, γ0 Saída: Melhor solução encontrada Xbest 1 Inicializar população {X0 i }N i=1 com X0 i ∼ U(Ω) e avaliar f(X0 i ); 2 Xbest ← arg mini f(X0 i ) ▷ *melhor solução inicial 3 Para t← 1 até Tmax fazer 4 Para i← 1 até N fazer 5 Selecionar aleatoriamente a fase de forrageamento; 6 ▷ *[r]chain (40%), cyclone (40%) ou somersault (20%) 7 Atualizar posição X t+1 i pela equação correspondente; 8 ▷ *[r]Eq. 5, 6 ou 7 9 Projetar X t+1 i em Ω ▷ *[r]restrições de domínio 10 Avaliar f ( X t+1 i ) ; 11 Se f ( X t+1 i ) < f(Xbest) então 12 Xbest ← X t+1 i ▷ *[r]atualiza melhor global 13 Se ∣∣∣ f(X t best)− f ( X t−1 best )∣∣∣ < ϵ então 14 Break ▷ *[r]critério de convergência (melhoria desprezível) 15 devolver Xbest Em suma, o MRFO distingue-se por incorporar explicitamente mecanismos com- plementares de busca: enquanto chain e cyclone foraging guiam os agentes em direção às regiões promissoras identificadas (exploração direcionada e intensificação local), o somer- sault foraging ocasionalmente dispersa os agentes ao redor do melhor ponto conhecido, introduzindo variabilidade adicional que ajuda a escapar de armadilhas de ótimo local. Esse equilíbrio dinâmico entre exploração e explotação confere ao MRFO vantagens sobre meta-heurísticas clássicas. Estudos comparativos reportam que o MRFO tende a alcançar 46 soluções de qualidade superior e com convergência mais rápida do que algoritmos como Particle Swarm Optimization (PSO) e Algoritmos Genéticos em diversos problemas de otimização contínua (ZHU et al., 2023; ALTURKI et al., 2020). 3 Metodologia Este capítulo detalha, com profundidade, o protocolo experimental desenvolvido nesta dissertação. Além de garantir transparência e reprodutibilidade, buscou-se justificar cada escolha de desenho da coleta dos dados à avaliação estatística sob a ótica de boas práticas em aprendizado de máquina aplicado a AIOps. 3.1 Conjuntos de Dados 3.1.1 Google Cluster Traces (2019) O Google Cluster Traces 2019 (GCT-19) disponibiliza métricas de consumo de CPU e memória de milhares de tarefas em datacenters do Google ao longo de 30 dias contínuos (REISS; WILKES; HELLERSTEIN, 2021). O presente estudo foca na métrica avg_cpu_usage, amostrada a cada (1) minuto. Comparado a benchmarks tradicionais (Yahoo Webscope, NAB), o GCT exibe alto volume (~43 000 amostras/host) e variabilidade intra-equipe, desafiando preditores univariados (CORTEZ; SILVA; ROSALEM, 2023). 3.1.2 Prometheus Metrics O segundo dataset deriva de métricas coletadas via Prometheus em um servidor Linux (Intel Xeon E5-2699 v4, 128 GB RAM) que hospeda contêineres Red Hat OpenShift. Os kpi monitorados incluem: (i) uso de memória em MB, (ii) carga média de CPU e (iii) latência de rede. Para uniformidade com o GCT, foi empregado a métrica de memory-usage em MB e período de coleta de 1 min. O Prometheus traz ~10 000 amostras e exibe forte sazonalidade diária, típico de workloads monolíticos (BARHAM, 2022). Tabela 2 – Estatísticas descritivas iniciais. Dataset n Média σ Mín Máx GCT-19 CPU (%) 43 200 0.245 0.061 0.012 0.397 Prom Mem (MB) 10 080 812 87 621 1 012 3.1.3 Pipeline de Pré-processamento O preparo das séries segue um fluxo determinístico de seis fases, cada qual encade- ada de modo a minimizar data leakage e a preservar padrões sazonais relevantes. 48 1. Aquisição de Séries Brutas. Métricas coletadas a cada 1 min—avg_cpu_usage no Google Cluster Traces 2019 e memory_usage_MB via Prometheus são ingeridas tal como armazenadas, mantendo picos e ruído instrumental. 2. Sanitização de Outliers. Amostras anômalas são detectadas por um critério híbrido ( Z-score |z| > 3, percentis adaptativos P0.5–P99.5 e IQR×1.5 ) (HEWAMALAGE; BERG- MEIR; BANDARA, 2021). Valores marcados por qualquer teste são imputados por interpolação cúbica (pandas.Series.interpolate(method='cubic')), preservando suavidade da primeira derivada. O procedimento elimina apenas 0.4 %–0.6 % dos pontos. 3. Reamostragem e Agregação. Para reduzir ruído de curto prazo sem perder tendências operacionais, cada série é reamostrada em 1 min, 5 min e 30 min e agregada pela média (LAPTEV et al., 2015). Picos sub-minuto, que não alteram decisões de capacity planning, são assim suavizados. 4. Escalonamento Min–Max. Cada sequência é normalizada para [0, 1], x′ t = (xt − xmin)/(xmax − xmin), estabilizando gradientes iniciais e evitando saturação de portas sigmóides em LSTM/Transformer (BOROVYKH; BOHTE; OOSTERLEE, 2017). A inversão da escala é aplicada apenas ao calcular métricas em teste. 5. Construção de Janelas Deslizantes. Históricos normalizados geram pares (x(n) t , xt+1) via janela deslizante com n∈{24, 48, 72, 96} passos—equivalente a 12–48 h em 30 min. O resultado é um tensor batch× n× 1 pronto para treino (WU et al., 2021). 6. Particionamento Temporal 60/20/20 %. A divisão cronológica impede vazamento de informação futura; validação alimenta early-stopping e o ajuste hiper-paramétrico via MRFO, enquanto o teste é consultado uma única vez. Decisões de limpeza, reamostragem e divisão, tomadas em conjunto, equilibram robustez estatística (remoção de outliers), eficiência computacional (granularidades múltiplas) e fidelidade operacional (manutenção da sazonalidade), fornecendo uma base confiável para os modelos preditivos descritos a seguir. 3.2 Formulação Matemática do Problema Considere uma sequência temporal univariada xt ∈ R. Foi definido uma janela de entrada x(n) t = [ xt−n+1, . . . , xt ] ∈ Rn, com n ∈ {24, 48, 72, 96} correspondendo a 12–48 h nos cenários 30 min. O objetivo é aprender um mapeamento fθ : Rn −→ R, x̂t+1 = fθ ( x(n) t ) 49 que minimize uma função de perda L (RMSE ou MAE) nos dados de validação cruzada. Optou-se por predição one-step-ahead para comparação justa com trabalhos relaciona- dos (SEN et al., 2019), porém mostramos, nos Resultados, extensão para horizontes h ≤ 12 passos. 3.3 Modelo LSTM 3.3.1 Arquitetura A rede desenvolvida nos experimentos é composta por duas camadas LSTM com u unidades e dropout p, seguidas de camada densa linear. O modo stateful foi desativado a fim de permitir embaralhamento de lotes e acelerar a convergência. 3.3.2 Complexidade O custo assintótico por epoch é O ( M (4u2 + un) ) , onde M é o número de janelas e n o comprimento da sequência. 3.3.3 Hiper-parâmetros Para cada hiper-parâmetro da LSTM, é apresentado a seguir: (i) definição operaci- onal, (ii) impacto qualitativo sobre a capacidade de modelagem, regularização ou custo computacional e (iii) intervalo efetivamente explorado pelo . A Tabela 3 resume os limites; a discussão textual subsequente aprofunda o papel de cada variável. Tabela 3 – Limites de busca dos hiper-parâmetros da LSTM. Hiper-parâmetro Min Max Tipo u (lstm_units) 32 256 int p (dropout) 0.10 0.50 real η (learning rate) 10−4 10−2 log b (batch size) 32 256 cat nsteps 24 96 int E (epochs) 50 200 int Unidades LSTM (u). Quantidade de células de memória por camada. Valores maiores aumentam a capacidade de capturar padrões complexos e dependências de longo prazo, porém elevam quadraticamente o custo O(u2) e podem induzir overfitting em séries de pequena variância. Dropout (p). Probabilidade de desativar ativação durante o treinamento. Taxas mais altas (≥ 0.3) forçam a rede a aprender representações redundantes, reduzindo overfitting, mas podem retardar a convergência e sub-aprender dependências longas. 50 Taxa de aprendizado (η). Passo do gradiente no otimizador RMSprop.: • Valores altos (1× 10−2) aceleram a descida, mas podem divergir. • Valores baixos (1× 10−4) estabilizam treinamento, exigindo mais épocas para atingir o platô. Tamanho do lote (b). Número de janelas processadas antes da atualização dos pesos. Lotes pequenos (32) introduzem ruído benéfico ao gradiente (melhor generalização) e consomem menos memória; lotes grandes (256) suavizam a curva de erro, porém podem convergir para mínimos rasos. Comprimento da janela (nsteps). Quantidade de passos históricos usados como entrada. Janelas longas (96 passos @ 30 minutos) capturam até quatro ciclos diários completos, mas ampliam a dimensionalidade de entrada e demandam mais unidades ou camadas. Épocas (E). Iterações completas sobre o conjunto de treino. Mais épocas refinam os pesos até saturação — útil quando p é alto —, mas o ganho marginal tende a zero; sobreajuste surge se o early stop não for aplicado. Em síntese, o equilibra a busca nesses seis eixos para maximizar a performance (RMSE mínima) enquanto controla custo de treino. 3.4 Modelo Transformer para Séries Temporais 3.4.1 Definição Foi adotado um encoder-only com L = 2 camadas, dmodel = 128, h = 4 cabeças, FFN interno dff = 4dmodel, dropout 0.1 e positional encoding senoidal. Todos os hiperparâmetros foram ajustados via MRFO, conforme o protocolo descrito nos capítulos a seguir. 3.4.2 Atenção Escalonada Para entrada X ∈ Rn×dmodel , a atenção multi-cabeça é MHA(Q, K, V) = [ H1∥ . . . ∥Hh ] WO, com Hi = softmax (QiK⊤ i√ dk ) Vi (LUONG; PHAM; MANNING, 2015). O custo é O(h n2 dk), porém n ≤ 96 mantém a latência de inferência abaixo de 2 ms/janela. 3.4.3 Prevenção de Overfitting (a) Label smoothing ε = 0.1; 51 (b) ℓ2 regularização λ = 10−5; (c) Cosine LR schedule (LOSHCHILOV; HUTTER, 2017). 3.4.4 Hiper-parâmetros Assim como na LSTM (§3.3.3), o explora um espaço de busca multidimensional a fim de minimizar o RMSE de validação. A Tabela 4 lista somente nome, faixa e tipo, enquanto os parágrafos seguintes discutem a influência qualitativa de