UNIVERSIDADE ESTADUAL PAULISTA
"JÚLIO DE MESQUITA FILHO"

Câmpus Bauru

Weslley Rosalem

Previsão de séries temporais com Transformers e
LSTM otimizadas por meta-heurísticas: uma

abordagem AIOps para previsão de consumo de
recursos computacionais.

Bauru
2025


Weslley Rosalem

Previsão de séries temporais com Transformers e LSTM
otimizadas por meta-heurísticas: uma abordagem AIOps
para previsão de consumo de recursos computacionais.

Dissertação apresentada como parte dos
requisitos para obtenção do título de Mestre
em Ciência da Computação, junto ao Programa
de Pós-Graduação em Ciência da Computação,
do Instituto de Biociências, Letras e Ciências
Exatas da Universidade Estadual Paulista “Júlio
de Mesquita Filho", Câmpus de Bauru.

Orientador: Prof. Dr. Kelton Augusto
Pontara da Costa

UNESP

Bauru
2025


R788p
Rosalem, Weslley

    Previsão de séries temporais com Transformers e LSTM otimizadas

por meta-heurísticas: uma abordagem AIOps para previsão de

consumo de recursos computacionais. / Weslley Rosalem. -- Bauru,

2025

    112 p.

    Dissertação (mestrado) - Universidade Estadual Paulista (UNESP),

Faculdade de Ciências, Bauru

    Orientador: Kelton Augusto Pontara da Costa

    1. Deep Learning. 2. Séries Temporais. 3. LSTM. 4. Transformer.

5. AIOps.. I. Título.

Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a).


Resumo
Com a crescente transformação digital, a gestão de ambientes de Tecnologia da Informação
(TI) tornou-se um desafio cada vez mais complexo e dinâmico. A Inteligência Artificial para
Operações de TI (AIOps) surge como uma solução promissora, integrando aprendizado de
máquina e big data para automatizar tarefas críticas, como a detecção de anomalias, a pre-
visão de capacidade e a identificação de causas raízes. Este estudo propõe uma abordagem
comparativa entre as arquiteturas Long Short-Term Memory (LSTM) e Transformer para
a previsão de consumo de recursos computacionais, utilizando dados de séries temporais
provenientes de dois conjuntos distintos: Google Cluster Traces 2019 e métricas do Pro-
metheus. A pesquisa realiza uma revisão sistemática da literatura, com foco em trabalhos
publicados entre 2019 e 2023, e introduz o algoritmo de otimização meta-heurística Manta
Ray Foraging Optimization (MRFO) para ajuste de hiperparâmetros das redes neurais. A
metodologia contempla o pré-processamento dos dados, a configuração experimental e a
utilização de métricas como MAE, RMSE, MAPE e SMAPE. O estudo visa contribuir para
a eficiência das operações de TI, oferecendo subsídios para a gestão proativa de recursos e
a mitigação de falhas em ambientes de nuvem.

Palavras-chave: Deep Learning; Séries Temporais; LSTM; Transformer; MRFO; AIOps.


Abstract
With the ongoing digital transformation, the management of Information Technology (IT)
environments has become an increasingly complex and dynamic challenge. Artificial Intelli-
gence for IT Operations (AIOps) has emerged as a promising solution, integrating machine
learning and big data to automate critical tasks such as anomaly detection, capacity fore-
casting, and root cause analysis. This study proposes a comparative approach between Long
Short-Term Memory (LSTM) and Transformer architectures for predicting computational
resource consumption, using time series data from two distinct datasets:Google Cluster
Traces 2019 and Prometheus metrics. The research includes a systematic literature review
focused on studies published between 2019 and 2023, and introduces the metaheuristic
optimization algorithm Manta Ray Foraging Optimization (MRFO) for neural network
hyperparameter tuning. The methodology encompasses data preprocessing, experimental
setup, and the use of evaluation metrics such as MAE, RMSE, MAPE, and SMAPE. This
study aims to contribute to the efficiency of IT operations, providing insights for proactive
resource management and failure mitigation in cloud-based environments.

Keywords: Deep Learning; Time Series; LSTM; Transformer; MRFO; AIOps.


Lista de ilustrações

Figura 1 – Procedimento adotado para realização da Revisão Sistemática da Lite-
ratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Figura 2 – Distribuição dos artigos por ano de publicação . . . . . . . . . . . . . . 20
Figura 3 – Detalhamento do resultado após os processos de filtragem dos artigos . 20
Figura 4 – Procedimento adotado para realização da Revisão Sistemática da Lite-

ratura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 5 – Predições do uso de memória no Google Cluster . . . . . . . . . . . . . 56
Figura 6 – Predições Prometheus - 30 minutos . . . . . . . . . . . . . . . . . . . . 57
Figura 7 – Curva de convergência do MRFO durante a otimização da LSTM no

cenário Prometheus (granularidade de 15 min). . . . . . . . . . . . . . 58


Lista de tabelas

Tabela 1 – Características da análise sistemática da literatura . . . . . . . . . . . 27
Tabela 2 – Estatísticas descritivas iniciais. . . . . . . . . . . . . . . . . . . . . . . 47
Tabela 3 – Limites de busca dos hiper-parâmetros da LSTM. . . . . . . . . . . . . 49
Tabela 4 – Limites de busca dos hiper-parâmetros do Transformer. . . . . . . . . . 51
Tabela 5 – Desempenho médio (média ± desvio-padrão) do modelo LSTM no

Google Cluster Traces. . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Tabela 6 – Desempenho médio (média ± desvio-padrão) do modelo Transformer

no Google Cluster Traces. . . . . . . . . . . . . . . . . . . . . . . . . . 55
Tabela 7 – Desempenho médio (média ± desvio-padrão) do modelo LSTM no

Prometheus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Tabela 8 – Desempenho médio (média ± desvio-padrão) do modelo Transformer

no Prometheus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Tabela 9 – Hiperparâmetros ótimos (MRFO) para a LSTM. . . . . . . . . . . . . 57
Tabela 10 – Hiperparâmetros ótimos (MRFO) para o Transformer. . . . . . . . . 58
Tabela 11 – Resultados do algoritmo MRFO otimizando a LSTM (janela de 15 min)

para métricas coletadas via Prometheus. . . . . . . . . . . . . . . . . . 109


Lista de abreviaturas e siglas

AI - Artificial Intelligence

AIOPs - Artificial Intelligence for IT Operations

ARIMA - AutoRegressive Integrated Moving Average

Autoformer - Auto-regressive Transformer for Time Series

BERT - Bidirectional Encoder Representations from Transformers

CAM - Class Activation Mapping

CNN - Convolutional Neural Network

CPU - Central Processing Unit

CVAE - Conditional Variational Autoencoder

DevOps - Development Operations

DL - Deep Learning

FFN - Feed-Forward Network

GPT - Generative Pre-trained Transformer

GRU - Gated Recurrent Unit

HAC - Hierarchical Agglomerative Clustering

HIS - Hospital Information Systems

IT - Information Technology

K8s - Kubernetes

KPI - Key Performance Indicator

LSTM - Long Short-Term Memory

MAE - Mean Absolute Error

MAPE - Mean Absolute Percentage Error

ML - Machine Learning


MLOPs - Machine Learning Operations

MRFO - Manta Ray Foraging Optimization

NLP - Natural Language Processing

NNET - Neural Network

PSO - Particle Swarm Optimization

PU - Positive-Unlabeled

RMSE - Root Mean Squared Error

RMSprop - Root Mean Square Propagation

RNN - Recurrent Neural Network

SGD - Stochastic Gradient Descent

SMAPE - Symmetric Mean Absolute Percentage Error

TF - Transformer

TI - Tecnologias da Informação

TIC - Tecnologias da Informação e Comunicação

TSTF - Time Series Transformer

TTM - Tiny Time Mixer

ViT - Vision Transformer


Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Desafio operacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 AIOps como paradigma. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Limitações dos trabalhos existentes. . . . . . . . . . . . . . . . . . . . 14
1.4 Motivação adicional: observabilidade em Prometheus. . . . . . . . . 14

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 18
2.1 Revisão Sistemática da Literatura . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Técnicas para Revisão Sistemática da Literatura . . . . . . . . . . . . . . . 18
2.1.2 Trabalhos Correlatos - ano de 2019 . . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Trabalhos Correlatos - ano de 2020 . . . . . . . . . . . . . . . . . . . . . 22
2.1.4 Trabalhos Correlatos - ano de 2021 . . . . . . . . . . . . . . . . . . . . . 23
2.1.5 Trabalhos Correlatos - ano de 2022 . . . . . . . . . . . . . . . . . . . . . 24
2.1.6 Trabalhos Correlatos - ano de 2023 . . . . . . . . . . . . . . . . . . . . . 26
2.2 Introdução à LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Formulação Matemática da LSTM . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Vantagens da LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Limitações da LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.4 Aplicações em Previsão de Séries Temporais . . . . . . . . . . . . . . . . . 30
2.2.5 Comparação com Outras Variantes de RNNs . . . . . . . . . . . . . . . . 31
2.2.6 Avanços Recentes em LSTM para AIOps . . . . . . . . . . . . . . . . . . . 31
2.3 Arquitetura Transformer e Mecanismo de Atenção . . . . . . . . . . 32
2.3.1 Arquitetura Original – Encoder-Decoder . . . . . . . . . . . . . . . . . . . 32
2.3.2 Mecanismo de Atenção Multi-Cabeças . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Rede Feed-Forward e Codificação Posicional . . . . . . . . . . . . . . . . . 34
2.3.4 Normalização de Camada e Estabilização do Treinamento . . . . . . . . . . 35
2.3.5 Resumo da Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.6 Evolução da Arquitetura Transformer e Aplicações em Séries Temporais . . 36
2.3.7 Transformers em NLP: Modelos BERT e GPT . . . . . . . . . . . . . . . 36
2.3.8 Transformers em Visão Computacional: Vision Transformer (ViT) . . . . . 37
2.3.9 Transformers para Séries Temporais e AIOps . . . . . . . . . . . . . . . . 38
2.3.10 Transformers e AIOps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.11 Aplicação no Trabalho Atual: Previsão de Métricas com Transformer Simpli-

ficado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Algoritmo MRFO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Google Cluster Traces (2019) . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.2 Prometheus Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.3 Pipeline de Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Formulação Matemática do Problema . . . . . . . . . . . . . . . . . . 48
3.3 Modelo LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Hiper-parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Modelo Transformer para Séries Temporais . . . . . . . . . . . . . . 50
3.4.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.2 Atenção Escalonada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.3 Prevenção de Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.4 Hiper-parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 Meta-Otimização via MRFO . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.2 Configuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.6 Ambiente Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.6.1 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.6.2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.7 Métricas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7.1 Definições formais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7.2 Interpretação prática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.7.3 Comparação estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Desempenho nos Dados do Google Cluster Traces . . . . . . . . . . 55
4.2 Desempenho nos Dados do Prometheus . . . . . . . . . . . . . . . . 56
4.3 Hiperparâmetros Ótimos Encontrados (MRFO) . . . . . . . . . . . . 57

5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1 Contribuições Científicas e Práticas . . . . . . . . . . . . . . . . . . . 59
5.2 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61


APÊNDICES 66

APÊNDICE A – TRANSFORMER-PSEUDO-CODIGO.PY . . . . . 67

APÊNDICE B – LSTM-TRAINED.PY . . . . . . . . . . . . . . . . 70

APÊNDICE C – TRANSFORMER-TRAINED.PY . . . . . . . . . . 85

APÊNDICE D – IMPLEMENTAÇÃO DO MODELO . . . . . . . . 99
D.1 model.py . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
D.2 Tabela de execuções . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109


1 INTRODUÇÃO

A quarta revolução industrial consolidou-se sobre a premissa de que dados e,
por conseguinte, infraestruturas de Tecnologia da Informação (TI) figuram como novos
ativos estratégicos. Setores críticos, tais como saúde, finanças, telecomunicações, segurança
pública e logística, passaram a ancorar seus modelos de negócio em plataformas digitais que
demandam alta disponibilidade, resiliência, flexibilidade e elasticidade. Para satisfazer tais
requisitos, arquiteturas monolíticas cederam lugar a ecossistemas distribuídos, baseados
em virtualização, contêineres, microsserviços e computação em múltiplas nuvens (PAHL,
2015). Embora essa evolução otimize escalabilidade e time-to-market, ela introduz uma
combinatória de componentes heterogêneos servidores físicos, máquinas virtuais, redes
definidas por software, bancos de dados multimodais, service meshes cuja interdependência
eleva a complexidade operacional a níveis sem precedentes.

1.1 Desafio operacional1

A heterogeneidade estrutural, aliada à explosão de métricas geradas em tempo
real (ordem de milhões de data points por minuto em grandes nuvens públicas), torna
onerosa a detecção proativa de anomalias, a identificação de causa-raiz e a previ-
são de capacidade. Métodos tradicionais, baseados em limiares estáticos ou regressão
linear, falham em capturar padrões não-lineares e dependências de longo alcance. Como
consequência, equipes operacionais permanecem reféns de abordagens majoritariamente
reativas, o que compromete Service-Level Agreements (SLAs) e eleva custos de downtime
não planejado.

1.2 AIOps como paradigma.
Nesse cenário, desponta o AIOps (Artificial Intelligence for IT Operations) dis-

ciplina que combina big data2 a técnicas de aprendizado de máquina avançado para
automatizar processos operacionais (SILL, 2019). O pilar analítico da AIOps é a mo-
delagem de Key Performance Indicators (KPIs) como séries temporais, permitindo a
antecipação de tendências de consumo de recursos e a detecção de padrões anômalos.
1 As métricas analisadas em (COHEN et al., 2004) apontam que mais de 70 % dos incidentes críticos em

datacenters derivam de falhas de configuração ou correlação ineficiente de alertas.
2 Big data é caracterizado pelos “5 Vs”: volume, velocidade, variedade, veracidade e valor. A literatura

recente adiciona variabilidade e visualização como dimensões complementares.


14

Modelos de deep learning (DL), em particular Long Short-Term Memory (LSTM) e, mais
recentemente, a arquitetura Transformer destacam-se pelo poder de representação para
relacionamentos temporais complexos (VASWANI et al., 2017).

1.3 Limitações dos trabalhos existentes.
A literatura indica dois eixos predominantes de pesquisa:

(i) LSTM/GRU (Gated Recurrent Unit) sintonizados via grid search ou random search,
métodos exaustivos ou estocásticos que apresentam baixa escalabilidade mediante o
aumento da dimensionalidade hiperparamétrica;

(ii) Transformers aplicados a séries temporais, porém mediante tuning manual, heurísticas
simplistas ou pesquisa bayesiana clássica, o que não explora plenamente superfícies
de perda complexas.

Ainda carece de: (a) uma comparação sistemática entre LSTM, ou modelos de aprendi-
zado profundo para series temporais, e Transformers, sob conjunto de dados e métricas
idênticos, em contexto de AIOps; e (b) uma investigação sobre meta-heurísticas modernas
notadamente o Manta Ray Foraging Optimization (MRFO) (ZHAO; WANG; ZHANG,
2020) para otimizar hiperparâmetros em tais modelos.

1.4 Motivação adicional: observabilidade em Prometheus.
Ferramentas nativas-na-nuvem, como o Prometheus, tornaram-se padrão de fato

para coleta de métricas de sistemas distribuídos. Sua linguagem de consulta (PromQL) e
a natureza pull-based favorecem instrumentação granular, mas geram fluxos de dados de
alta cardinalidade. Integrar modelos DL especialmente Transformers a esse repositório de
séries temporais abre caminho para pipelines preditivos online, elevando a automação do
ciclo “monitorar-analisar-agir”.

Objetivo geral
Avaliar o impacto do uso do algoritmo de otimização MRFO na melhoria do

desempenho preditivo de modelos LSTM e Transformer aplicados à previsão do consumo
de recursos computacionais, com base em séries temporais extraídas de ambientes AIOps
e monitoradas por meio do Prometheus.


15

Objetivos específicos

a) Construir um benchmark unificado com os conjuntos Google Cluster Traces 2019 e
métricas do Prometheus, reamostrados nas granularidades de 1, 5 e 30 minutos.

b) Implementar pipelines de LSTM e Transformer com parametrização flexível (unida-
des, camadas, dropout, janela de entrada).

c) Empregar o MRFO para minimizar o Mean Absolute Percentage Error (MAPE) em
validação, comparando-o a Grid Search, Random Search e PSO (Particle Swarm
Optimization).

d) Quantificar, na fase de teste, ganhos de RMSE (Root Mean Squared Error), MAE
(Mean Absolute Error) , MAPE e Simetric Mean Absolut Percentage Error (SMAPE)
trazidos pelo MRFO nas diferentes granularidades.

e) Discutir implicações práticas para orquestração de recursos e detecção de anomalias
em plataformas baseadas no Prometheus.

Contribuições

• Proposição de um pipeline de otimização automática integrado MRFO a modelos
sequenciais de última geração.

• Primeiro estudo, até onde se sabe, a comparar LSTM e Transformer sob condições
experimentais idênticas em dados reais de AIOps.

• Evidência empírica de que o MRFO reduz o MAPE em até 13,6 %, além de ganhos
consistentes em RMSE e SMAPE.

• Divulgação pública de código-fonte e artefatos experimentais visando à reprodutibili-
dade.3

Metodologia em síntese
Dois datasets reais, reprocessados em três granularidades, servem de base aos

experimentos. Os modelos recebem janelas deslizantes de tamanho n ∈ {24, 48, 72, 96} e
predizem o próximo passo. O MRFO opera com população de 20 pessoas, 500 iterações,
alternando entre estratégias chain, cyclone e somersault. O erro em validação (MAPE)
orienta a busca e as métricas finais são computadas em teste.
3 Repositório GitHub: <https://github.com/weslleyrosalem/dissertacao/tree/main/Experiments>

https://github.com/weslleyrosalem/dissertacao/tree/main/Experiments


16

Resultados em perspectiva
Resultados preliminares indicam que o Transformer supera o LSTM em escalas

de 30 minutos, enquanto o LSTM mantém leve vantagem em 1 minuto. O MRFO reduz o
MAE médio em até 6,8 % (Google Cluster Traces) e 5,4 % (Prometheus), evidenciando sua
superioridade sobre métodos de busca convencionais.

Estrutura da dissertação

• Capítulo 1 — Introdução
Delimita o problema, explicita a lacuna científica, apresenta os objetivos, destaca as
contribuições e antecipa a metodologia.

• Capítulo 2 — Fundamentação Teórica
Reúne conceitos nucleares e trabalhos relacionados, organizados em quatro subseções:

1. Revisão Sistemática da Literatura (Subsec. 2.1): protocolo, filtros e síntese
de 21 artigos relevantes;

2. Long Short-Term Memory (Subsec. 2.2): formulação matemática, vantagens,
limitações e aplicações em AIOps;

3. Arquitetura Transformer (Subsec. 2.3): descreve o mecanismo de atenção,
evoluções (BERT, GPT, ViT) e adaptações para séries temporais;

4. Algoritmo MRFO (Subsec. 2.4): fundamentos bio-inspirados e equações de
atualização.

• Capítulo 3 — Metodologia
Detalha o pipeline experimental:

1. Conjuntos de Dados e Pré-processamento (3.1);

2. Formulação do Problema e Janelas de Entrada (3.2);

3. Arquiteturas LSTM e Transformer (3.3);

4. Otimização de Hiperparâmetros via MRFO (3.4).

• Capítulo 4 — Resultados
Apresenta métricas (RMSE, MAE, MAPE, SMAPE), curvas de previsão, tabelas
comparativas e análise do ganho obtido com o MRFO.

• Capítulo 5 — Conclusão
Resume achados, discute limitações (custo computacional, univariância, etc.) e propõe
extensões — previsão multivariada, sparse-attention e meta-heurísticas híbridas.


17

• Referências
Listagem normatizada (IEEE/ABNT) dos trabalhos citados.

• Apêndices
Códigos-fonte em Python: pseudocódigo do Transformer, arquitetura detalhada e
scripts de treino (Apêndices A–C).

Essa organização reflete fielmente a estrutura atualmente compilada e facilita ao leitor
acompanhar o fluxo: da fundamentação teórica ao método, dos resultados quantitativos às
implicações práticas.


2 Fundamentação Teórica

Este capítulo aborda os conceitos e teorias fundamentais que embasam este estudo.
A compreensão desses conceitos é essencial para entender as técnicas e metodologias
adotadas ao longo deste trabalho. Inicialmente, é discutida a evolução da Inteligência
Artificial (IA). Em seguida, é focado no subcampo da IA denominado AIOps, que integra
IA e análise de dados visando aprimorar as operações de TI. A familiaridade com IA e
AIOps é vital para perceber como essas tecnologias podem ser aplicadas em ambientes de
TI, potencializando a detecção de anomalias e a análise preditiva de séries temporais.

2.1 Revisão Sistemática da Literatura
A Revisão Sistemática da Literatura é uma abordagem metodológica que busca

identificar, avaliar e interpretar todas as pesquisas relevantes sobre um tema específico.
Distingue-se por sua metodologia rigorosa e bem definida, que pode ser replicada e auditada,
conferindo maior confiabilidade ao processo utilizado (TRANFIELD; DENYER; SMART,
2003).

Essa metodologia é empregada para coletar e sintetizar evidências empíricas que
atendam a critérios de inclusão preestabelecidos (KITCHENHAM; CHARTERS, 2007).
O processo envolve a definição de questões de pesquisa pertinentes, a seleção e avaliação
qualitativa dos estudos, a extração de dados, a síntese e apresentação da documentação
dos achados.

2.1.1 Técnicas para Revisão Sistemática da Literatura

A Revisão Sistemática é fundamental na pesquisa acadêmica, pois oferece uma
visão holística do conhecimento existente, destacando lacunas que podem ser objeto de
futuras investigações (PETTICREW; ROBERTS, 2006). Além disso, evita a duplicação
de esforços, evidenciando pesquisas prévias sobre o tema.

A elaboração da revisão sistemática inicia-se com a definição de um protocolo
rigoroso de pesquisa. Esse protocolo estabelece os critérios de inclusão e exclusão, as bases
de dados a serem consultadas e as estratégias de busca a serem adotadas (BIOLCHINI et
al., 2005). A Figura 1 apresenta uma ilustração detalhada sobre procedimento adotado
neste estudo:


19

Figura 1 – Procedimento adotado para realização da Revisão Sistemática da Literatura.

Fonte: Elaborado pelo autor

As etapas apresentadas na Figura 1 são detalhadas a seguir:

1. As queries4 são strings5 que estabelecem critérios para a seleção de artigos. Nesta
pesquisa, o foco foi em artigos, cujo título ou keywords6 incluíssem a palavra AIOPs.
Além disso, restringiu-se o período de publicação entre 2018 e o primeiro semestre
de 2023.

2. Dada a reconhecida relevância em Ciência da Computação, especialmente em Redes
de Computadores, monitoramento e observabilidade, duas bases de pesquisa científica
foram selecionadas: IEEExplore7 e ACM Digital Library8.

3. A execução das queries nas bases mencionadas resultou em 80 artigos. A distribuição
dos artigos por ano de publicação é ilustrada na Figura 2.

4 Queries são instruções ou expressões usadas para recuperar informações de um banco de dados. Elas
são frequentemente escritas em uma linguagem de consulta de banco de dados como SQL.

5 Strings são sequências de caracteres usadas para representar texto em programação e computação.
Elas são fundamentais para o processamento de texto, pesquisa e muitas outras aplicações.

6 Keywords são palavras ou frases que resumem o conteúdo principal de um texto, documento ou base
de dados. Elas são frequentemente usadas em buscas para encontrar informações relevantes.

7 <https://ieeexplore.ieee.org/>
8 <https://dl.acm.org/>

https://ieeexplore.ieee.org/
https://dl.acm.org/


20

Figura 2 – Distribuição dos artigos por ano de publicação

Fonte: Elaborado pelo autor.

4. Durante a filtragem, foram removidos artigos duplicados ou inacessíveis, totalizando
22 duplicados e 2 inacessíveis. Dos 56 artigos remanescentes, 35 não se alinhavam
diretamente ao escopo desta dissertação. Portanto, após a filtragem, 21 artigos foram
reconhecidos como estreitamente relacionados ao tema proposto. A Figura 3 ilustra
este processo.

Figura 3 – Detalhamento do resultado após os processos de filtragem dos artigos

Fonte: Elaborado pelo autor.

5. A última etapa envolveu a extração das informações mais relevantes dos artigos
selecionados. Para identificar tendências, foram consideradas as seguintes categorias
de análise:


21

• Tipo de modelo: técnicas de Aprendizado de máquina (Machine Learning,ML)
empregadas ou propostas;

• Dataset9: bases de dados utilizadas nos testes;

• Arquitetura: arquiteturas propostas;

• Feature selection10;

• Features11 selecionadas;

• Resultados: conclusões alcançadas pelos autores, como RMSE e MAE;

• Metodologia: recursos utilizados na criação do modelo de identificação de
anomalias e predição, incluindo linguagens e softwares.

Os artigos selecionados foram sintetizados, destacando-se os elementos mais perti-
nentes ao contexto desta pesquisa. A organização dos estudos foi realizada conforme os
seguintes critérios:

• Não foram encontrados trabalhos correlatos no ano de 2018. Esta afirmação indica
que, após uma busca sistemática na literatura utilizando palavras-chave e critérios
específicos, não foram identificados estudos ou publicações relacionadas ao tema da
dissertação no ano de 2018;

• Trabalhos correlatos de 2019 na Subseção 2.1.2;

• Trabalhos correlatos de 2020 na Subseção 2.1.3;

• Trabalhos correlatos de 2021 na Subseção 2.1.4;

• Trabalhos correlatos de 2022 na Subseção 2.1.5;

• Trabalhos correlatos de 2023 na Subseção 2.1.6;

A Figura 4 ilustra o processo completo da Revisão Sistemática da Literatura, desde
a definição das queries até a extração das informações cruciais:
9 Um dataset é uma coleção de dados, geralmente apresentada em formato tabular, que serve como

entrada para algoritmos de ML e análise estatística.
10 Feature Selection é o processo de selecionar um subconjunto de características relevantes para uso em

modelagem. A seleção de características eficaz pode melhorar o desempenho do modelo e reduzir a
complexidade computacional.

11 Features são variáveis individuais que atuam como entradas em modelos de ML. Cada feature representa
uma dimensão específica de dados que o algoritmo pode usar para aprender.


22

Figura 4 – Procedimento adotado para realização da Revisão Sistemática da Literatura.

Fonte: Elaborado pelo autor

2.1.2 Trabalhos Correlatos - ano de 2019

No artigo de Nedelkoski, Cardoso e Kao (2019), os autores exploram a aplicação
de AIOps para detectar anomalias com base em registros de distributed tracing. Esses
registros fornecem informações detalhadas sobre a disponibilidade e o tempo de resposta
dos serviços. A abordagem proposta concentra-se na detecção de anomalias no tempo de
resposta, utilizando aprendizado não supervisionado. Os autores empregam técnicas de
modelagem de dados com aprendizado profundo e avaliam a precisão e o desempenho
da proposta em ambientes de teste e produção. A combinação de GRUs e autoencoders
variacionais é destacada como uma técnica promissora para a modelagem de séries temporais
complexas.

2.1.3 Trabalhos Correlatos - ano de 2020

O estudo de Mormul e Stach (2020) aborda o desafio de monitorar ambientes de TI
complexos, englobando nuvens privadas e públicas, ambientes de IoT (Internet of Things),
aplicativos e contêineres. Eles destacam a necessidade de um modelo de contexto em
AIOps para gerenciar grandes volumes de dados armazenados em diferentes formatos. O


23

framework proposto é estruturado em cinco camadas: aquisição, gerenciamento, análise,
apresentação de dados e respostas automatizadas. O Monitoring Resource Model (MRM)
é um componente central desse framework. Para a análise de dados, é proposto um modelo
de Aprendizado de máquina baseado em redes neurais, especificamente o LSTM.

Kostadinov, Atanasova e Petrov (2020) discutem a importância do ML, especial-
mente no contexto de AIOps, para descobrir relacionamentos entre objetos e processos
em infraestruturas de TI convergentes. O estudo enfatiza a necessidade de técnicas de
ML para identificar padrões e sequências em grandes volumes de eventos. A arquitetura
proposta foca na análise e ML para processar dados de diversos dispositivos e instrumentos
de TI.

O objetivo do estudo apresentado por Chen, Wang e Yang (2020) é propor uma
rede neural dinâmica para prever fluxos de dados de séries temporais em cenários de
AIOps. Os modelos de ML discutidos incluem MWNN (Multi-Way Neural Network), WNN
(Wavelet Neural Network) e LSTM. Os dados utilizados durante os testes incluem conjuntos
de dados de CPUs (Central Processing Unit) com diferentes capacidades. Os resultados
mostram uma comparação do consumo de recursos para MWNN, WNN e LSTM quando
alcançam o mesmo desempenho.

2.1.4 Trabalhos Correlatos - ano de 2021

No estudo conduzido por Guodan, Hao e Tingting(2021), os autores propõem uma
abordagem inovadora que combina múltiplos métodos integrados para prever a capacidade
de recursos. Utilizando o modelo de aprendizado de máquina a LSTM,com base nos dados
históricos o estudo demonstra como é possível fornecer previsões precisas sobre o uso de
recursos de TI, como CPU, disco rígido e memória. Esta abordagem tem potencial para
otimizar a gestão de recursos, garantindo que os sistemas permaneçam estáveis e confiáveis.

Machine. . . (2021) introduz o conceito de Machine Reasoning (MR) e destaca
seu papel vital na melhoria das AIOps para Redes Baseadas em Intenções. MR é uma
subárea da IA que se concentra em capturar e utilizar o conhecimento humano através
de linguagens semânticas. Esta abordagem complementa a aprendizagem de Máquina ao
fornecer inferências precisas baseadas no conhecimento adquirido. O estudo apresenta
cenários em que MR em AIOps pode ser utilizado para automatizar e aprimorar a
identificação da causa raiz de problemas em redes de computadores.

O artigo de Yang et al.(2021) apresenta o método AID (Aggregated Intensity of
Dependency) como uma solução eficiente para prever a intensidade das dependências em
sistemas de nuvem em larga escala. Os autores utilizam dados simulados e industriais para
testar a eficácia do método proposto. Os resultados mostram que o AID é capaz de medir
com precisão a intensidade das dependências, superando outras abordagens comparativas.


24

Stefano et al.(2021) discutem o design e a implementação de recursos para migrar
dados de sistemas de monitoramento antigos para instâncias do Prometheus usando o
framework Ananke. Além disso, o estudo propõe uma estratégia de dimensionamento
automático, baseada na previsão de picos de tráfego, usando o modelo Facebook Prophet.
A abordagem é voltada para monitorar e modelar aplicações nativas de nuvem, com foco
em métricas de desempenho em tempo real e estratégias de otimização.

2.1.5 Trabalhos Correlatos - ano de 2022

Wang et al.(2022) introduzem o TSAGen, uma ferramenta inovadora de geração
de séries temporais. Esta ferramenta permite aos pesquisadores gerar dados sintéticos,
fornecendo uma fonte de dados confiável para avaliar o desempenho de algoritmos de
detecção de anomalias. O TSAGen foi projetado para enfrentar desafios, como a geração
de diversas anomalias, ajuste da gravidade das anomalias e controle das características
dos KPIs gerados.

No estudo de Li et al.(2022), os autores propõem uma rede neural profunda, a
CDX-Net, para previsão de séries temporais multivariadas no contexto de AIOps. A
arquitetura proposta do CDX-Net incorpora módulos avançados, como ASPP, SRM, CAM,
GRU, transformador e AB, para aprimorar os procedimentos de extração e fusão de
características.

Zhang et al.(2022b) apresentam uma solução para o Desafio ICASSP-SPGC-2022
AIOps, focando na inferência precisa de combinações em root cause analysis (RCA).
O documento detalha os desafios encontrados nos dados da competição e propõe uma
estrutura robusta para resolver o problema, incluindo a introdução de TextCNN.

O estudo de Fukuda et al.(2022) propõe uma abordagem para gerar relatórios de
falhas legíveis por humanos em sistemas de TIC. A abordagem utiliza o modelo LSTM
para séries temporais multivariadas e gera um relatório de falha em formato de texto. Os
autores testam a eficácia e o desempenho do método proposto usando dados coletados de
um sistema de microsserviços em um cluster Kubernetes (k8s).

Moreschini et al.(2022) apresentam uma discussão profunda sobre a representação
gráfica para o DevOps em aplicações baseadas em aprendizado de máquina , também
conhecida como MLOps. Os autores exploram meticulosamente as fases do MLOps, desde o
planejamento, onde são identificados o problema a ser resolvido e os dados disponíveis, até
a seleção de abordagens de análise de dados e algoritmos adequados. A fase de codificação
é destacada, onde o sistema e o código de ML são implementados e validados. A fase de
validação é discutida em detalhes, enfatizando a avaliação do desempenho do modelo de
ML com novos dados. O artigo também destaca a necessidade imperativa de um processo
de MLOps integrado e delinea os desafios associados à adoção prática do MLOps.


25

Qian et al.(2022) propõem um framework de dimensionamento automático proativo
inovador chamado RobustScaler, especialmente projetado para cenários de computação em
nuvem. O estudo é direcionado para o desenvolvimento de um framework que não apenas
gera decisões de mudança e elasticidade, mas também otimiza o equilíbrio entre custo e
Qualidade de Serviço (QoS). O modelo proposto é robusto, capaz de lidar com ruídos, dados
ausentes e anomalias. O algoritmo de Método dos Multiplicadores de Direção Alternada
(ADMM) é usado para treinar o modelo, que captura tanto a periodicidade quanto a
estocasticidade das chegadas de consultas. A arquitetura do framework é composta por
componentes essenciais, como detecção de periodicidade, modelagem histórica de chegadas
de consultas, previsão de chegada de consultas e plano de dimensionamento.

Xiao, Cao e Wu (2022 )introduzem um framework inovador baseado em aprendizado
federado, o EFL-WP, projetado especificamente para previsão de carga de trabalho em
ambientes inter-nuvem. O framework visa colaborar na formação de modelos de ML
para previsão de carga de trabalho, garantindo que informações sensíveis não sejam
compartilhadas. Os autores sugerem o uso de modelos LSTM para prever métricas de
desempenho, como utilização da CPU e memória. A arquitetura proposta é composta por
um coordenador que agenda tarefas de treinamento e orquestra os treinadores, enquanto
os treinadores usam seus dados para treinar modelos locais.

Zhang et al.(2022a) apresentam o método "PUTraceAD"Positive-Unlabeled, uma
abordagem inovadora para detecção de anomalias em tracing de microsserviços. A arquite-
tura proposta é tripartida, envolvendo Embedding de Span, Construção de Grafo de Rastros
e Treinamento do Modelo. Utilizando uma GNN (Graph Neural Network) e aprendizado
PU, o método é capaz de detectar anomalias em tracing com precisão. O conjunto de
dados usado, TrainTicket, é um sistema de referência de microsserviços, e os experimentos
foram conduzidos em um cluster Kubernetes. Os resultados dos experimentos avaliam a
eficácia e eficiência do PUTraceAD, bem como o impacto de diferentes configurações.

Yang et al.(2022) discutem o Sistema de Gerenciamento de Dependências, ou
Dependency Management System (DMS), uma solução abrangente para gerenciar depen-
dências de serviços em sistemas em nuvem. O DMS é uma plataforma end-to-end que
suporta todo o ciclo de vida para garantir a confiabilidade do serviço, desde a implantação
inicial até a otimização arquitetural proativa e a mitigação reativa de falhas. Os dados
usados nos testes do DMS abrangem uma variedade de fontes, incluindo informações de
dependência coletadas de trancing distribuído, arquivos de configuração, consultas do
orquestrador de serviços e relatórios de dependência de implantação.

Song et al.(2022) abordam questões relacionadas à implementação da observabili-
dade em sistemas de informações hospitalares (HIS). O artigo apresenta uma pesquisa
literária detalhada e fornece um resumo abrangente de conceitos relacionados, incluindo
definições de monitoramento e HIS, requisitos e soluções em cenários específicos. A ar-


26

quitetura proposta integra microsserviços e AIOps, com indicadores-chave (KPIs) como
qualidade e escala de dados. O documento também oferece sugestões valiosas para os
departamentos de TI dos hospitais sobre como abordar essas questões.

Jin et al.(2022) realizaram uma análise detalhada de AIOps na gestão unificada de
resiliência de dados em data lakehouses. O artigo propõe soluções inovadoras para prever
violações do Recovery Point Objective (RPO) e fornecer sugestões valiosas aos SREs sobre
como configurar recursos do sistema para evitar tais violações. Utilizando aprendizado
supervisionado em conjunto com análise de séries temporais, o artigo propõe um modelo
de ML que combina métodos de aprendizado online e offline e filtragem de solicitações
previstas para garantir a estabilidade das solicitações futuras.

2.1.6 Trabalhos Correlatos - ano de 2023

Os autores Traini e Cortellessa(2023) apresentam uma análise detalhada sobre a
implementação de baselines utilizando a linguagem de programação Python. Eles escolhem
a regressão linear como o modelo de ML para sua análise. O artigo aborda profundamente
as questões de pesquisa, o design experimental meticuloso, a aplicação na análise de
desempenho e as distribuições de latência. Os autores também discutem o uso de cargas de
trabalho que variam continuamente e fornecem insights sobre a configuração experimental,
destacando a importância de uma abordagem sistemática para garantir resultados precisos
e confiáveis.

Sun et al.(2023) oferecem uma visão abrangente do desenvolvimento do sistema
de detecção de outlier denominado OutSpot. Este sistema é especialmente projetado para
datacenters de alto desempenho e alta criticidade, que são primordialmente responsáveis
pelo fornecimento de streaming de vídeos. O principal objetivo do sistema é detectar
outliers nos KPIs coletados desses datacenters. O modelo de ML adotado é uma combinação
inovadora de Hierarchical Agglomerative Clustering (HAC) com Conditional Variational
Autoencoder (CVAE). O HAC é utilizado para agrupar os KPIs com base em seus padrões
distintos. Posteriormente, as informações de agrupamento de cada KPI são incorporadas
ao método. Esta abordagem integrada permite que o OutSpot detecte outliers para KPIs
em larga escala, mesmo quando esses KPIs apresentam padrões variados. A arquitetura
proposta para o OutSpot é meticulosa, dividindo os conjuntos de dados coletados em
conjuntos de treinamento e teste. O conjunto de treinamento é composto por dados
coletados ao longo dos primeiros 7 dias, enquanto o conjunto de teste contém dados do
último dia. Este último conjunto é rotulado cuidadosamente por operadores experientes
utilizando uma ferramenta desenvolvida pelos próprios autores. O processo de rotulação
dos outliers é rigoroso, envolvendo três operadores, e a decisão final é tomada apenas
quando os rótulos fornecidos por eles divergem.


27

Tabela 1 – Características da análise sistemática da literatura

Ano de Pu-
blicação

Autores Tópico Principal

2019 (NEDELKOSKI;
CARDOSO; KAO,
2019)

Detecção de anomalias usando Distributed
Tracing e Deep Learning em AIOps

2020 (MORMUL; STACH,
2020)

Monitoramento de ambiente de TI complexo
com modelo de contexto

2020 (KOSTADINOV;
ATANASOVA; PE-
TROV, 2020)

Redução de incidentes em infraestruturas de
TI convergentes através de ML

2020 (CHEN; WANG;
YANG, 2020)

Previsão de fluxos de dados de séries tempo-
rais em cenários de AIOps

2021 (GUODAN; HAO;
TINGTING, 2021)

Previsão da capacidade de recursos usando
LSTM

2021 (MACHINE. . . , 2021) Melhoria das Operações de IA para Redes
Baseadas em Intenções usando MR

2021 (YANG et al., 2021) Previsão da intensidade de dependências em
sistemas em nuvem

2021 (STEFANO et al.,
2021)

Migração de dados de sistemas de monitora-
mento antigos para instâncias do Prometheus

2022 (WANG et al., 2022) Geração de séries temporais para avaliação
de algoritmos de detecção de anomalias

2022 (LI et al., 2022) Previsão de séries temporais multivariadas
em AIOps

2022 (ZHANG et al., 2022b) Inferência precisa de combinações em RCA
2022 (FUKUDA et al.,

2022)
Geração de relatórios de falhas legíveis por
humanos em sistemas de TIC

2022 (MORESCHINI et al.,
2022)

Representação gráfica para o DevOps12 em
aplicações baseadas em aprendizado de má-
quina (MLOps)

2022 (QIAN et al., 2022) Framework de dimensionamento automático
proativo para computação em nuvem

Continua na próxima página

12 DevOps é uma filosofia e prática de engenharia de software que visa unificar o desenvolvimento de
software (Dev) e a operação de software (Ops). O principal objetivo de DevOps é encurtar o ciclo de
vida do desenvolvimento de sistemas, proporcionando entrega contínua de alta qualidade, e, assim,
melhorar a colaboração e a comunicação entre as equipes de desenvolvimento e operações. *DevOps*
integra métodos ágeis, automação, integração contínua, entrega contínua e monitoramento contínuo do
software em operação.


28

Ano de Pu-
blicação

Autores Tópico Principal

2022 (XIAO; CAO; WU,
2022)

Previsão de carga de trabalho em ambientes
de inter-nuvem usando aprendizado federado

2022 (ZHANG et al., 2022a) Detecção de anomalias em tracing de micros-
serviços usando GNN e aprendizado PU

2022 (YANG et al., 2022) Gerenciamento de dependências de serviços
em sistemas em nuvem

2022 (SONG et al., 2022) Implementação da observabilidade em siste-
mas de informações hospitalares

2022 (JIN et al., 2022) Gestão unificada de resiliência de dados em
data lakehouses

2023 (TRAINI; CORTEL-
LESSA, 2023)

Implementação de baselines usando Python e
regressão linear

2023 (SUN et al., 2023) Detecção de outlier para datacenters com alto
nível de desempenho e alta criticidade

2.2 Introdução à LSTM
As Redes Neurais Recorrentes (RNNs) foram introduzidas na década de 1980 como

uma extensão das redes neurais feedforward, projetadas para processar sequências temporais
ao permitir conexões entre unidades que formam um ciclo, possibilitando que a informação
persista ao longo do tempo (RUMELHART; HINTON; WILLIAMS, 1986). Contudo, as
RNNs tradicionais enfrentam dificuldades em aprender dependências de longo prazo devido
ao problema do gradiente evanescente, no qual os gradientes se tornam extremamente
pequenos durante a retropropagação, comprometendo o aprendizado (HOCHREITER,
1998).

Para superar essa limitação, foram desenvolvidas arquiteturas avançadas, como as
LSTM, propostas por Hochreiter e Schmidhuber em 1997 (HOCHREITER; SCHMIDHU-
BER, 1997). As LSTMs introduzem um mecanismo de memória por meio de um estado
de célula que pode ser mantido ou modificado ao longo do tempo, permitindo a retenção
de informações relevantes por períodos prolongados. Essa capacidade torna as LSTMs
particularmente adequadas para tarefas que envolvem sequências extensas, como a previsão
de séries temporais em AIOps.

2.2.1 Formulação Matemática da LSTM

A arquitetura LSTM é composta por células que contêm três portas principais:
esquecimento, entrada e saída, além de um estado de célula que atua como memória. Cada


29

porta utiliza funções de ativação sigmóide para regular o fluxo de informação. As equações
que descrevem o funcionamento de uma célula LSTM são:

• Porta de Esquecimento:

ft = σ(Wf · [ht−1, xt] + bf )

Esta porta determina quais informações do estado da célula anterior (Ct−1) devem
ser descartadas, produzindo valores entre 0 (esquecer completamente) e 1 (manter
integralmente).

• Porta de Entrada:
it = σ(Wi · [ht−1, xt] + bi)

C̃t = tanh(WC · [ht−1, xt] + bC)

A porta de entrada decide quais novas informações serão incorporadas ao estado da
célula, enquanto C̃t representa um candidato para atualização.

• Estado da Célula:
Ct = ft ⊙ Ct−1 + it ⊙ C̃t

O estado da célula é atualizado combinando a informação retida do estado anterior
com a nova informação selecionada.

• Porta de Saída:
ot = σ(Wo · [ht−1, xt] + bo)

ht = ot ⊙ tanh(Ct)

A porta de saída controla quais partes do estado da célula são usadas para gerar o
estado oculto (ht).

Nessas equações, σ é a função sigmóide, tanh é a tangente hiperbólica, W e b são
matrizes de pesos e vetores de bias, xt é a entrada no tempo t, ht−1 é o estado oculto
anterior, e ⊙ denota multiplicação elemento a elemento. A complexidade computacional
por passo de tempo é O(u · (d + u)), onde u é o número de unidades e d é a dimensão da
entrada, refletindo o crescimento quadrático dos parâmetros.

2.2.2 Vantagens da LSTM

As LSTMs apresentam diversas vantagens que as tornam amplamente utilizadas
em aplicações de séries temporais:


30

• Captura de Dependências de Longo Prazo: O estado da célula e as portas
permitem que as LSTMs retenham informações por muitos passos de tempo, essencial
para modelar padrões históricos complexos, como sazonalidades diárias ou semanais
em dados de AIOps.

• Robustez a Ruído e Não Linearidade: Estudos demonstram que LSTMs superam
modelos estatísticos tradicionais, como ARIMA, em dados ruidosos e não lineares,
sendo eficazes em cenários com flutuações abruptas (SIAMI-NAMINI; TAVAKOLI;
NAMIN, 2018; LARA-BENíTEZ; CARRANZA-GARCíA; RIQUELME, 2021).

• Gestão Eficiente de Memória: A porta de esquecimento possibilita a seleção
adaptativa de informações relevantes, evitando a perda de dados críticos e facilitando
a modelagem de padrões temporais sofisticados.

2.2.3 Limitações da LSTM

Apesar de suas vantagens, as LSTMs possuem limitações significativas:

• Sensibilidade a Hiperparâmetros: O desempenho depende de hiperparâmetros
como número de unidades, taxa de aprendizado, tamanho do lote e regularização. A
otimização manual ou métodos como Grid Search são computacionalmente custosos
(GOODFELLOW; BENGIO; COURVILLE, 2016).

• Complexidade Computacional: O número de parâmetros, dado por 4 · (u · (d +
u) + u), cresce quadraticamente, tornando o treinamento intensivo em recursos,
especialmente para grandes conjuntos de dados.

• Risco de Sobreajuste: Modelos com muitas unidades ou janelas temporais extensas
podem sobreajustar, particularmente sem regularização adequada.

• Foco Unívariate: Muitas aplicações, como a descrita no anexo, concentram-se em
previsões unívariadas, limitando a capacidade de capturar interações entre múltiplas
variáveis.

2.2.4 Aplicações em Previsão de Séries Temporais

As LSTMs são amplamente empregadas em previsão de séries temporais devido à
sua habilidade em modelar dependências temporais complexas. Em AIOps, são usadas para
prever consumo de recursos, como memória, CPU e rede, permitindo alocação proativa e
redução de downtime. No estudo do anexo, LSTMs foram aplicadas a dois conjuntos de
dados reais: Google Cluster Traces 2019 (30 dias de uso de memória, agregados a cada
30 minutos) e métricas do Prometheus (7 dias de uso de memória de um servidor Linux).


31

Ambos exibem sazonalidade diária, e os modelos foram treinados para prever o próximo
passo temporal, minimizando o MAE.

Além de AIOps, LSTMs são aplicadas em diversos domínios, incluindo:

• Finanças: Previsão de preços de ações e taxas de câmbio (FISCHER; KRAUSS,
2018).

• Saúde: Monitoramento de pacientes e previsão de doenças (LIPTON et al., 2015).

• Clima: Previsão meteorológica e análise de padrões climáticos (SHI et al., 2015).

• Energia: Previsão de demanda e preços de energia (LAGO; RIDDER; SCHUTTER,
2018).

2.2.5 Comparação com Outras Variantes de RNNs

Além das LSTMs, as GRUs, introduzidas por Cho et al. (2014), são uma variante
popular de RNNs. As GRUs possuem uma estrutura mais simples, com apenas duas portas
(atualização e redefinição), reduzindo o número de parâmetros e acelerando o treinamento.
Contudo, sua capacidade de capturar dependências de longo prazo pode ser inferior às
LSTMs em cenários complexos (CHUNG et al., 2014).

No contexto do estudo, a escolha das LSTMs justifica-se pela necessidade de
modelar padrões sazonais e flutuações abruptas em dados de AIOps, onde dependências
de longo prazo são críticas.

2.2.6 Avanços Recentes em LSTM para AIOps

Pesquisas recentes ampliaram a aplicação de LSTMs em AIOps. Propuseram o
modelo DA-LSTM-VAE, que integra LSTMs com Variational Autoencoders (VAEs) e um
mecanismo de atenção em duas etapas para detecção de anomalias em KPIs, alcançando
F1-scores de 0,90, 0,93 e 0,86 em um conjunto de dados do AIOps Challenge 2018 (ZHANG
et al., 2023). Li et al. (2024) utilizaram PSO para otimizar LSTMs em detecção de intrusões
de rede, obtendo resultados de ponta.

As LSTMs são uma ferramenta poderosa para previsão de séries temporais em
AIOps, destacando-se na captura de dependências de longo prazo e robustez a dados
complexos. Contudo, sua complexidade e sensibilidade a hiperparâmetros requerem oti-
mização avançada, como o MRFO, que demonstrou melhorias significativas. Este estudo
valida a eficácia das LSTMs e introduz uma abordagem inovadora, abrindo caminhos para
pesquisas futuras em previsão multivariada e meta-heurísticas híbridas.


32

2.3 Arquitetura Transformer e Mecanismo de Atenção
A arquitetura Transformer foi introduzida por Vaswani et al. (2017) no artigo

“Attention Is All You Need”, revolucionando o processamento de sequências ao abandonar
completamente o uso de recorrência ou convolução. O problema principal abordado
por essa proposta era a dificuldade das RNNs, mesmo em variantes como LSTM, em
capturar dependências de longo alcance de forma eficiente. As RNNs processam tokens
em sequência, o que impede paralelismo e dificulta o aprendizado de relacionamentos
distantes devido a problemas de vanishing gradient. Os pesquisadores propuseram resolver
essas limitações utilizando mecanismos de atenção self-attention em uma arquitetura
encoder–decoder totalmente paralelizável. Com o Transformer, relações de longo alcance
podem ser modeladas diretamente através de pesos de atenção, e todas as posições de
uma sequência são processadas simultaneamente, agilizando o treinamento em comparação
com arquiteturas sequenciais tradicionais. A eficácia dessa abordagem foi demonstrada
inicialmente em tradução automática, superando significativamente o estado da arte
da época (VASWANI et al., 2017). A ideia central é que a “atenção” entre elementos
da sequência é suficiente para aprender estruturas complexas, dispensando mecanismos
recorrentes – daí o título do artigo, “atenção é tudo que você precisa”.

2.3.1 Arquitetura Original – Encoder-Decoder

O Transformer original consiste de dois blocos principais: um codificador e um
decodificador, cada um empilhando múltiplas camadas idênticas. O codificador recebe uma
sequência de entrada (por exemplo, palavras de uma sentença) e produz representações
intermediárias para cada posição. Em seguida, o decodificador gera a sequência de saída
(por exemplo, tradução) autoregressivamente, atendendo à informação codificada. Tanto
as camadas do codificador quanto as do decodificador baseiam-se em dois submódulos
centrais: (1) o módulo de atenção de múltiplas cabeças (multi-head self-attention) e
(2) uma rede feed-forward posicionada após a atenção. Além disso, no decodificador
cada camada inclui um terceiro submódulo de atenção encoder–decoder, que permite
ao decodificador “olhar” para as saídas do codificador, vide Apêndice A. Crucialmente,
cada submódulo é envolto por conexões residuais e seguido de uma normalização de
camada (layer normalization) (VASWANI et al., 2017). Assim, a saída de cada subcamada
é LayerNorm(x + subcamada(x)), facilitando a estabilização do treinamento. A seguir,
detalhamos os componentes fundamentais do Transformer – o mecanismo de atenção, a
codificação posicional e a normalização – junto às principais equações matemáticas que
regem seu funcionamento.


33

2.3.2 Mecanismo de Atenção Multi-Cabeças

No cerne do Transformer está o mecanismo de self-attention, que calcula a impor-
tância de cada elemento da sequência em relação aos demais. Cada posição i na sequência
de entrada é projetada em três vetores: consulta (qi), chave (ki) e valor (vi), obtidos por
transformações lineares aprendidas. Agregando todas as posições, denotamos por Q, K e
V as matrizes que contêm, respectivamente, as consultas, chaves e valores para a sequência
inteira (cada uma de dimensão n×d, onde n é o comprimento da sequência e d a dimensão
de embedding). A atenção por produto escalar escalonado (scaled dot-product attention) é
então computada conforme a Equação 1:

Attention(Q, K, V ); =; softmax!
Q, K⊤
√

dk

; V , (1)

onde dk é a dimensão dos vetores de chave (e consulta). A equação acima produz,
para cada posição i, uma combinação ponderada dos valores vj de todas as posições j,
em que o peso softmax

(
qi·kj√

dk

)
reflete quanto o elemento j é relevante para i. O fator de

escalonamento 1/
√

dk foi introduzido para estabilizar os gradientes – sem ele, para valores
grandes de dk, os produtos qi · kj poderiam ter magnitude alta, resultando em distribuições
de softmax muito agudas e dificultando o aprendizado (VASWANI et al., 2017). Em resumo,
a atenção calcula uma média ponderada dos valores V usando coeficientes baseados em
similaridades entre consultas e chaves; isso permite que cada posição foque em outras
posições relevantes da sequência, capturando relações sem considerar explicitamente a
distância entre tokens.

Uma inovação crucial do Transformer é o uso de atenção de múltiplas cabeças
(multi-head attention). Em vez de calcular uma única distribuição de atenção com vetores
Q, K, V de alta dimensão, o Transformer aprende h diferentes projeções (cabeças) menores.
Para cada cabeça i ∈ {1, . . . , h}, definem-se matrizes de projeção W Q

i , W K
i e W V

i de
dimensões d× dk, d× dk e d× dv, respectivamente. Cada cabeça então computa headi =
Attention(QW Q

i , ; KW K
i , ; V W V

i ). As h atenções resultantes (cada uma de tamanho n×dv)
são concatenadas e projetadas novamente por W O (dimensão hdv × d) para produzir a
saída final do módulo de multi-head. Formalmente:

MultiHead(Q, K, V ); =; Concat(head1, . . . , headh); W O , (2)

onde headi = Attention(QW Q
i , ; KW K

i , ; V W V
i ). Essa estrutura de múltiplas cabe-

ças permite que o modelo atenda simultaneamente a diferentes subespaços de representação
(VASWANI et al., 2017). Em outras palavras, cada cabeça pode se especializar em um
tipo de relacionamento ou padrão na sequência (por exemplo, uma cabeça pode focar
em relacionar uma determinada palavra com suas adjacentes enquanto outra captura


34

relações de longo alcance). Na arquitetura original, usaram-se h = 8 cabeças de atenção,
com d = 512 e dk = dv = 64 em cada cabeça, de modo que 8 × 64 = 512. O resultado
da atenção multi-cabeças é então passado adiante para uma rede feed-forward, conforme
descrito a seguir, após ser combinado à entrada via conexão residual.

2.3.3 Rede Feed-Forward e Codificação Posicional

Após o módulo de atenção, cada camada do Transformer inclui uma rede feed-
forward posicionada que atua separadamente em cada posição da sequência. Essa rede
é composta por duas camadas densas com uma função de ativação não linear (ReLU na
versão original). Seja x o vetor de saída da atenção para uma posição; a rede feed-forward
calcula FFN(x) = W2, max(0, , W1x + b1) + b2, onde W1, W2 são matrizes de pesos e
b1, b2 os bias. Essa MLP position-wise expande e reconstrói a dimensionalidade (por
exemplo, originalmente W1 expande de dmodel = 512 para 2048, e W2 reduz de volta para
512). A intuição é fornecer ao modelo uma transformação não linear poderosa em cada
posição, após a atenção ter misturado informações globais da sequência. Assim, cada
camada do codificador (ou decodificador) combina a auto-atenção multi-cabeças com uma
transformação não linear local, permitindo modelar tanto dependências entre posições
quanto padrões complexos em cada posição.

Um desafio decorrente do uso de atenção pura é que o modelo não possui, intrinse-
camente, noção de ordem sequencial – diferente de RNNs, que processam tokens em ordem
temporal. Para contornar isso, Vaswani et al. (2017) introduziram a codificação posicional
dos embeddings de entrada. Antes de alimentar a primeira camada do Transformer, são
adicionados aos vetores de embedding dos tokens vetores que codificam a posição (índice)
de cada token na sequência. Na versão original, utilizou-se uma codificação posicional
determinística baseada em funções seno e cosseno de frequências diferentes (VASWANI et
al., 2017). A formulação é dada por:

PE(pos,,2i) = sin!
(

pos

100002i/dmodel

)
, PE(pos,,2i+1) = cos!

(
pos

100002i/dmodel

)
, (3)

onde pos é a posição do token na sequência (começando em 0) e i indexa a
dimensão do vetor de posição até dmodel−1. Essa definição produz componentes sinusoidais
de diferentes períodos para cada dimensão do embedding posicional, de forma que cada
posição no tempo tenha um vetor único e que preserve relações de distância: por exemplo,
a diferença entre PEpos=10 e PEpos=20 será similar à diferença entre PEpos=30 e PEpos=40,
uma vez que a relação de deslocamento de 10 posições é capturada pelos mesmos ângulos
das senoides. Esse esquema permite ao modelo aprender, através da atenção, em que posição
relativa outros tokens estão, pois as consultas e chaves incluem informação posicional
somada aos embeddings das palavras. Alternativamente, trabalhos posteriores exploraram


35

codificações posicionais aprendidas (vetores de posição como parâmetros treináveis) ou até
estratégias híbridas que combinem informações absolutas e relativas sobre posição (SHAW;
USZKOREIT; VASWANI, 2018), mas o importante é que algum tipo de sinal de posição é
necessário para que o Transformer distinga a ordem dos elementos na entrada.

2.3.4 Normalização de Camada e Estabilização do Treinamento

Cada subcamada de atenção ou feed-forward no Transformer é seguida de uma
operação de normalização de camada (Layer Normalization) antes de passar para a próxima
etapa. A normalização de camada, proposta por Ba et al., impõe que os neurônios de uma
dada camada tenham média zero e variância unitária para cada exemplo, melhorando a
estabilidade do treinamento em redes profundas. Dado um vetor de ativação x = (x1, . . . , xd)
de dimensão d (por exemplo, as ativações em uma posição após a atenção ou feed-forward),
a normalização de camada produz um vetor y = (y1, . . . , yd), cujos componentes são:

yj; =; xj − µ(x)
σ(x) + ϵ

, γj; +; βj , 1 ≤ j ≤ d , (4)

onde µ(x) = 1
d

∑d
j=1 xj é a média dos componentes de x, σ(x) =

√
1
d

∑d
j=1(xj − µ(x))2

é o desvio padrão, e ϵ é um termo de estabilidade numérica. Os parâmetros γj e βj são
vetores treináveis (mesma dimensão d) que permitem re-escalar e deslocar linearmente a
saída normalizada. No Transformer, a normalização de camada é aplicada junto a conexões
residuais, isto é, cada subcamada gera LayerNorm(x + subcamada(x)) como saída final
(VASWANI et al., 2017). Esse esquema de residual add e norm ajuda a gradiente fluir
pelas camadas e permite treinar pilhas profundas (na arquitetura original há 6 camadas
no codificador e 6 no decodificador, totalizando 12 subcamadas atencionais). Em síntese, a
normalização garante que distribuições de ativação permaneçam estáveis mesmo conforme
a profundidade e o treinamento avançam, contribuindo para o sucesso do modelo.

2.3.5 Resumo da Arquitetura

Combinando os componentes acima, o Transformer consegue transformar uma
sequência de entrada em outra sequência de saída aprendendo padrões complexos de
atenção. No codificador, cada camada processa todos os tokens em paralelo via multi-
head self-attention (permitindo que cada token “veja” todos os outros) e então refina
cada posição via a feed-forward position-wise. No decodificador, um mecanismo similar é
usado, mas cada posição da saída só pode atender a posições anteriores (masking causal
na self-attention do decodificador, para não “espiar” o futuro que ainda será previsto).
Além disso, o decodificador realiza atenção extra sobre as saídas do codificador (atenção
encoder–decoder), ligando as duas partes. Esse design eliminou a necessidade de processar
sequências passo a passo: as dependências temporais passam a ser aprendidas pelos padrões


36

de atenção, e a computação pode ser totalmente paralela em cada camada. O resultado foi
um salto de qualidade e eficiência em tradução automática e, subsequentemente, em diversas
outras tarefas de sequência. Nos anos seguintes, a comunidade explorou extensivamente
variações dessa arquitetura básica, adaptando o Transformer a novos domínios e objetivos,
conforme discutido na próxima seção.

2.3.6 Evolução da Arquitetura Transformer e Aplicações em Séries Temporais

Desde a sua introdução, a arquitetura Transformer tornou-se a espinha dorsal de
inúmeros avanços em aprendizado profundo. Nesta seção, procedeu a discussão a evolução
do Transformer em variantes notáveis – incluindo BERT, GPT e Vision Transformer –
e explorou-se como a arquitetura foi adaptada para domínios além do texto, com ênfase
particular em séries temporais. Por fim, conectou-se esses avanços ao contexto de AIOps,
descrevendo exemplos práticos (como o Time Series Transformer da HuggingFace e o
Granite Time Series da IBM) e explicando como o presente trabalho aproveita uma versão
simplificada do Transformer para previsão de métricas de recursos computacionais.

2.3.7 Transformers em NLP: Modelos BERT e GPT

No campo de Processamento de Linguagem Natural (PLN), a arquitetura Trans-
former rapidamente se consolidou graças à sua capacidade de capturar relações sem
ordem fixa e facilitar o pré-treinamento em larga escala. Dois marcos evolutivos foram
os modelos BERT e GPT, que adaptaram o Transformer para objetivos de treinamento
não supervisionados em grandes corpora de texto, alterando a forma de aprendizado das
representações linguísticas.

BERT (Bidirectional Encoder Representations from Transformers), proposto por
Devlin et al.(2018), é um modelo baseado unicamente na parte codificadora do Transformer.
O BERT utiliza múltiplas camadas encoder (por exemplo, 12 camadas no BERT-Base)
para produzir representações contextuais de textos, mas treina essas camadas com uma
estratégia de pré-treinamento bidirecional. Diferentemente de modelos autoregressivos, o
BERT é treinado em uma tarefa de modelagem de linguagem mascarada (Masked Language
Modeling): partes do texto de entrada (tipicamente 15% dos tokens) são mascaradas aleato-
riamente, e o modelo aprende a prever os tokens originais a partir do contexto bidirecional
(ou seja, considerando simultaneamente as palavras à esquerda e à direita da máscara).
Adicionalmente, BERT foi treinado com uma tarefa de previsão de próxima sentença
(Next Sentence Prediction) para ensinar relações entre sentenças. Esse esquema de treino
força o codificador Transformer a capturar significados ricos de cada posição considerando
todo o entorno, resultando em embeddings poderosos que podem ser posteriormente
fine-tuned em diversas tarefas supervisionadas de NLP. O impacto do BERT foi profundo:
ao disponibilizar um modelo pré-treinado com bilhões de palavras, Devlin et al. (2018D


37

mostraram que bastava ajustar levemente esse modelo em tarefas específicas (como análise
de sentimentos, perguntas e respostas, reconhecimento de entidades, etc.) para atingir ou
superar o estado da arte de então (DEVLIN et al., 2018). Em suma, o BERT demonstrou
que o Transformer encoder, quando treinado de forma auto-supervisionada em larga escala,
pode servir como modelo fundamental de linguagem, fornecendo representações universais
bidirecionais.

Por outro lado, os modelos GPT (Generative Pre-trained Transformer) seguiram
uma estratégia complementar, focando na geração de texto via decodificadores Trans-
former. O GPT original de Radford et al. (2018) e suas iterações subsequentes (GPT-2
(RADFORD et al., 2018) e GPT-3 (BROWN, 2020), entre outros) utilizam apenas a pilha
de decodificadores do Transformer, treinada em um objetivo simples porém poderoso:
modelagem de linguagem autoregressiva. Nessa configuração, dado um prefixo de texto, o
modelo aprende a prever o próximo token, depois o seguinte e assim por diante, assimilando
a distribuição estatística da língua a partir de enormes volumes de dados brutos. Diferen-
temente do BERT, o GPT não tem acesso ao futuro da sequência durante a previsão de
cada token – ele funciona unidirecionalmente, incorporando apenas o contexto à esquerda
(passado) para gerar a continuação. Apesar de não usar contexto futuro, quando escalado
em tamanho e dados, o GPT demonstrou capacidades surpreendentes de geração de texto
fluido e contextual. O GPT-3, por exemplo, com 175 bilhões de parâmetros, mostrou
pela primeira vez fortes habilidades de learning de poucas instruções (few-shot learning),
conseguindo executar tarefas de linguagem diversas apenas lendo exemplos na própria
entrada, sem ajuste de pesos (BROWN, 2020). Esse feito evidenciou o poder de escala-
bilidade da arquitetura Transformer : modelos muito maiores treinados em quantidades
massivas de texto revelaram comportamentos emergentes, resolvendo tarefas complexas
não antecipadas explicitamente durante o treino. Em resumo, a família GPT evidenciou
o potencial dos Transformers como modelos gerativos universais, capazes de produzir
linguagem natural coerente e realizar tarefas mediante formulação apropriada na entrada
(prompts). BERT e GPT, embora diferentes em enfoque (encoder bidirecional vs. decoder
autoregressivo), juntos inauguraram a era dos modelos pré-treinados em NLP, dominando
o estado da arte em quase todas as tarefas do campo a partir de 2018.

2.3.8 Transformers em Visão Computacional: Vision Transformer (ViT)

Após conquistas em NLP, a arquitetura Transformer também foi adaptada para
Visão Computacional. Tradicionalmente, redes neurais convolucionais (CNNs) eram a
principal ferramenta para tarefas como classificação de imagens. Contudo, Dosovitskiy et
al. (2020) propuseram o Vision Transformer (ViT), demonstrando que um Transformer
puro pode alcançar desempenho de ponta em imagens ao ser treinado com dados suficientes.
A ideia do ViT é representar uma imagem como uma sequência de patches (fragmentos)


38

análogos a “palavras” visuais. Especificamente, uma imagem é dividida em patches de
tamanho fixo (por exemplo, 16× 16 pixels), cada patch é linearmente projetado a um vetor
de dimensão d e enriquecido com um embedding posicional indicando sua localização na
grade da imagem. Uma sequência de tais vetores (tipicamente precedida de um token de
classificação especial, similar ao [CLS] do BERT) é então alimentada a uma arquitetura
Transformer semelhante à do codificador original. O ViT processa os patches via camadas
de multi-head self-attention, permitindo que o modelo relacione partes distantes da imagem
livremente. Importante, como as imagens são tratadas como sequências de patches, o ViT
também requer codificação posicional (no caso, aprendida) para indicar a posição de cada
patch na estrutura 2D da imagem.

Os resultados reportados por Dosovitskiy et al. (2020) mostraram que, quando
pré-treinado em um volume muito grande de dados (por exemplo, no dataset JFT-300M
ou ImageNet-21k) e posteriormente ajustado em tarefas de visão, o ViT atingiu acurá-
cias comparáveis ou superiores às melhores CNNs, como EfficientNets, especialmente em
resoluções altas. A conclusão foi que a auto-atenção é capaz de capturar características
visuais relevantes distribuídas pela imagem, sem necessidade explícita de convoluções. Essa
descoberta abriu caminho para uma série de variantes e aprimoramentos de Transformers
para visão, incluindo modelos híbridos (convolução + atenção) e aplicações a detecção
de objetos, segmentação, vídeo, entre outras. Em suma, o Vision Transformer provou
que a arquitetura Transformer é multidomínio, podendo atuar em dados não sequenciais
(como pixels dispostos em uma grade) desde que convertidos a uma representação sequen-
cial apropriada. Esse avanço consolidou ainda mais os Transformers como uma família
arquitetural unificadora para diferentes modalidades de dados.

2.3.9 Transformers para Séries Temporais e AIOps

Outro domínio de grande interesse para aplicação de Transformers é o de séries
temporais, que incluem dados provenientes de sensores, métricas de sistemas, finanças,
etc. Tarefas como previsão de séries temporais e detecção de anomalias sempre foram
desafiadoras, tradicionalmente abordadas por modelos estatísticos (ARIMA, Prophet) ou
redes recorrentes e convolucionais especializadas. A natureza sequencial e a presença de
padrões de longo prazo (como sazonalidades anuais, tendências) sugerem que a capacidade
dos Transformers de modelar dependências arbitrariamente longas pode ser altamente
benéfica para séries temporais. De fato, pesquisadores têm adaptado e estendido a ar-
quitetura Transformer para melhor adequação a dados temporais, enfrentando desafios
particulares desse domínio, como sequências muito mais longas que textos e a necessidade
de incorporar informações de tempo contínuo.

Adaptações Gerais: Aplicar Transformers diretamente em séries temporais exige
alguns ajustes. Primeiramente, muitas vezes as entradas não são sequências de tokens


39

discretos, e sim sequências de valores contínuos (por exemplo, medições numéricas ao longo
do tempo). Uma solução comum é considerar janelas de tempo fixas como “sequências” de
entrada e predição. Assim, um Transformer de previsão recebe uma janela de histórico (por
exemplo, valores dos últimos N instantes) e aprende a prever os próximos M valores futuros
análogo a uma tarefa seq2seq, em que a sequência-fonte é o passado e a sequência-alvo é
o futuro. Em segundo lugar, é crucial fornecer ao modelo algum sinal de temporalidade:
além de usar codificações posicionais para a ordem dos pontos na janela, costuma-se
adicionar features temporais explícitas, como indicadores de hora do dia, dia da semana,
etc., para ajudar o modelo a capturar padrões sazonais conhecidos. Essas features atuam
como uma forma de codificação posicional informada pelo conhecimento de calendário.
Por exemplo, o Time Series Transformer implementado pela HuggingFace insere atributos
como mês e dia diretamente como entradas adicionais ao Transformer, tratando-os como
embeddings junto aos valores da série (RASUL et al., 2024). Outra consideração é que
muitas aplicações de séries temporais demandam previsões probabilísticas (intervalos de
confiança, distribuições) em vez de apenas um ponto previsto. Abordagens baseadas em
Transformer têm incorporado cabeças de saída que produzem parâmetros de distribuições
(como média e desvio de Gaussiana) ou quantis (RASUL et al., 2024), permitindo estimar
incertezas – o que é valioso em cenários como planejamento de capacidade e detecção de
anomalias.

Desafios e Soluções para Longas Sequências: Um impedimento técnico dos Transfor-
mers em séries temporais está no custo quadrático da atenção em relação ao comprimento
da sequência. Séries podem conter centenas ou milhares de passos relevantes, tornando
proibitivo aplicar self-attention direta em sequências muito longas. Para mitigar isso, várias
variantes especializadas foram propostas. Por exemplo, o Informer (ZHOU et al., 2021)
introduziu um mecanismo de atenção esparsa (probSparse attention) que seleciona apenas
partes mais informativas do espectro de atenção, reduzindo drasticamente o custo para
longas janelas de previsão. Já o Autoformer (WU et al., 2021) incorporou um decompositor
de séries temporais dentro do modelo, separando componentes de tendência e sazonalidade
e aplicando atenção de forma mais estruturada. Mais recentemente, o PatchTST (Patch
Time Series Transformer) (NIE et al., 2023) trouxe a ideia de dividir séries temporais em
patches (sub-séries) análoga ao ViT: o modelo extrai trechos consecutivos da série em cada
variável como unidades básicas (patches) e processa cada variável de forma independente
(channel-independent), antes de eventualmente combinar informações entre variáveis. Essa
abordagem demonstrou ganhos notáveis em previsão de longo prazo, pois captura padrões
locais em cada série através dos patches e evita a necessidade de atenção global sobre
sequências excessivamente longas (NIE et al., 2023). Muitas dessas inovações atacam tam-
bém a questão de correlação entre múltiplas séries (séries multivariadas): enquanto alguns
modelos optam por ignorar correlações treinando um Transformer separado para cada
variável (como no modo channel-independent do PatchTST), outros permitem misturar


40

canais (variáveis) através de camadas de atenção especializadas ou combinações tardias
das representações.

Exemplo – Time Series Transformer (HuggingFace): A biblioteca HuggingFace
Transformers incorporou um modelo genérico chamado TimeSeriesTransformer (RASUL
et al., 2024), que exemplifica a adaptação direta do Transformer para previsão de séries
temporais. Trata-se de um modelo encoder–decoder padrão, semelhante ao Transformer
de Vaswani, aplicado a janelas de séries. O codificador recebe os últimos N pontos de uma
série (histórico), enquanto o decodificador gera os próximos M pontos futuros. Durante o
treinamento, utiliza-se teacher forcing: os valores reais mais recentes são fornecidos passo a
passo ao decodificador para predição do próximo, análogo ao que se faz em tradução. Para
informar o modelo sobre a posição temporal de cada ponto, em vez de usar exclusivamente
as senoides de posicional, o modelo da HuggingFace incorpora features temporais explícitas
(como mencionado acima) concatenadas à entrada, por exemplo indicando o mês, dia ou
hora correspondentes a cada valor (RASUL et al., 2024). Também é possível incluir variáveis
exógenas (como indicadores de feriados, métricas correlatas, etc.) e identificadores estáticos
(por exemplo, um ID de servidor no caso de múltiplas séries de diferentes máquinas) como
parte da entrada ao Transformer. Assim, o TimeSeriesTransformer se configura como um
modelo global treinado em múltiplas séries, capaz de aprender padrões compartilhados.
Notavelmente, a implementação do HuggingFace suporta previsão probabilística, não
produzindo diretamente um escalar para cada passo futuro, mas sim parâmetros de uma
distribuição (por exemplo, média e escala de uma distribuição Student-t) da qual se
pode amostrar predições (RASUL et al., 2024). Isso o alinha com práticas modernas de
previsão incerta, ao contrário de apenas previsão pontual. Em termos de estrutura, porém,
esse modelo permanece próximo ao Transformer original, comprovando a flexibilidade
da arquitetura: sem modificar fundamentalmente o mecanismo de atenção, ele pode ser
aplicado a dados temporais contanto que estruturemos apropriadamente as entradas e
saídas.

Exemplo – Granite Time Series (IBM): Além de implementações genéricas, surgiram
modelos Transformer especializados para séries temporais com foco em AIOps. Um
exemplo de destaque é a família Granite Time Series, desenvolvida pela IBM Research e
disponibilizada como modelos abertos e pré-treinados (RESEARCH, 2023). Os modelos
Granite TS representam uma abordagem de modelos fundamentais (foundation models)
para séries temporais: são modelos pré-treinados em larga escala, capazes de serem refinados
para diversos cenários de previsão. Em particular, a versão conhecida como Granite Time
Series Tiny Time Mixer (TTM) contém apenas cerca de 1 a 3 milhões de parâmetros,
mas já vem pré-treinada para prever séries multivariadas, permitindo uso imediato ou
fine-tuning eficiente. A arquitetura do Granite TTM combina ideias de patches e mixing
de canais: ele suporta tanto o modo channel-independent (onde cada métrica é processada
separadamente, capturando padrões individuais) quanto um modo de mistura de canais no


41

decodificador (decoder channel-mixing), em que durante o ajuste fino o modelo aprende a
captar correlações entre diferentes séries (por exemplo, entre métricas de CPU e memória
de um servidor) (RESEARCH, 2023). Essa capacidade de alternar entre tratar cada
série isoladamente e combinar informações de múltiplas séries é valiosa em AIOps, pois
algumas métricas podem ter comportamentos independentes enquanto outras apresentam
inter-relações fortes.

Outra característica importante dos Granite models é a incorporação de metadados
temporais e contextuais como parte do prompt de entrada. Como descrito na documentação
(RESEARCH, 2023), em vez de entradas textuais livres, os prompts para modelos de séries
temporais incluem informações estruturais sobre os dados (por exemplo, frequência de
coleta, quais colunas são targets ou exógenas, identificação do sistema) juntamente com a
janela de valores históricos. Isso permite que o modelo pré-treinado aproveite conhecimento
geral sobre padrões de determinadas frequências ou tipos de métricas. Os modelos Granite
foram treinados em um conjunto amplo de séries temporais e disponibilizados sob licença
open source, e relatórios indicam que eles alcançam desempenho de ponta em benchmarks de
previsão com uma pegada computacional muito menor do que redes profundas tradicionais
(RESEARCH, 2023). Em resumo, o Granite Time Series exemplifica a convergência de
Transformers com as necessidades de AIOps: oferece modelos enxutos, eficientes em CPU,
mas capazes de previsão acurada de longo prazo, prontos para serem integrados em
pipelines de monitoramento de TI.

2.3.10 Transformers e AIOps

As adaptações acima não apenas avançam o estado da arte acadêmico, mas têm
aplicação prática direta em AIOps. Em ambientes de operações de TI, prever o compor-
tamento de métricas como utilização de CPU, memória, tráfego de rede, etc., é crucial
para detecção proativa de anomalias, prevenção de incidentes e otimização de recursos.
Modelos baseados em Transformer podem aprender padrões complexos dessas métricas –
por exemplo, capturar ciclos diários de uso, picos semanais ou correlações entre serviços –
melhor do que modelos lineares tradicionais. Além disso, a habilidade de considerar longos
históricos permite antecipar eventos raros ou tendências graduais. Já há relatos de uso
de Transformers para anomaly detection em métricas de data centers (XU et al., 2022;
TULI; CASALE; JENNINGS, 2022), confirmando sua adequação ao domínio de AIOps.
Os exemplos do Time Series Transformer e do Granite TS mostram duas abordagens
complementares: uma abordagem genérica de uso amplo e outra especializada e otimizada,
respectivamente, ambas alinhadas ao objetivo de melhorar a confiabilidade e eficiência de
operações de TI por meio de previsão inteligente.


42

2.3.11 Aplicação no Trabalho Atual: Previsão de Métricas com Transformer
Simplificado

Os avanços discutidos acima servem de fundamento para a proposta do presente
trabalho. Nesta dissertação, foi empregada uma versão simplificada da arquitetura Trans-
former para abordar o problema real de previsão de métricas de recursos computacionais
coletadas via Prometheus (uma ferramenta de monitoramento que registra séries temporais
de métricas de infraestrutura). Em vez de utilizar modelos de grande porte ou altamente
complexos, optou-se por um design enxuto inspirado no Transformer original, adequado à
escala dos dados disponíveis e às necessidades de AIOps da organização em questão.

Concretamente, o modelo desenvolvido mantém os componentes-chave do Trans-
former – em especial o mecanismo de atenção self-attention – porém com complexidade
reduzida. Foram utilizadas menos camadas (profundidade menor) e menos cabeças de
atenção por camada, diminuindo o número de parâmetros. Essa simplificação visa facilitar
o treinamento com volumes limitados de dados de métricas e viabilizar a implantação
em cenários onde recursos de processamento são restritos. Além disso, certas adaptações
específicas ao domínio foram incorporadas. Por exemplo, como as métricas do Prometheus
possuem periodicidades conhecidas (padrões diários e semanais de uso de CPU, memória,
etc.), o modelo integra codificações temporais customizadas e features de calendário (simi-
lares às usadas no Time Series Transformer da HuggingFace). Isso reforça a capacidade
do modelo de capturar sazonalidades típicas de cargas de trabalho de TI. Adicionalmente,
devido ao foco em previsão de curto a médio prazo para detecção de anomalias, privilegiou-
se janelas de entrada relativamente curtas e um horizonte de predição compatível com a
detecção proativa de incidentes (por exemplo, prever a próxima hora com granularidade
de minutos).

A aplicação do Transformer simplificado mostrou-se eficaz em modelar as séries de
métricas. Mesmo com menos camadas, o mecanismo de auto-atenção conseguiu aprender
relações relevantes entre pontos no histórico de cada métrica por exemplo, identificando
que a alta utilização de CPU em determinados horários está correlacionada com padrões de
trabalho humanos, ou que certos picos de memória precedem aumentos de uso de swap. O
modelo aprendeu também a diferença de comportamento entre diferentes hosts ou serviços
(quando métricas de múltiplas fontes foram modeladas conjuntamente), graças à inclusão
de identificadores estáticos no embedding de entrada. Em suma, os princípios delineados
pelos Transformers de última geração foram aplicados em menor escala para solucionar um
problema de mundo real em AIOps. Esta escolha metodológica foi guiada pela necessidade
de balancear precisão preditiva e simplicidade: ao aproveitar a expressividade do mecanismo
de atenção para capturar dependências temporais, mas limitando a capacidade do modelo
para evitar sobreajuste e reduzir custo computacional, foi possível desenvolver um preditor
de métricas que se integra facilmente ao ecossistema Prometheus. Os resultados, discutidos


43

em capítulos posteriores, indicam que mesmo uma versão simplificada do Transformer
supera modelos tradicionais de previsão em diversos cenários de métricas de recursos,
corroborando a relevância da arquitetura Transformer – e de suas variantes – como
ferramenta fundamental em AIOps.

Por fim, vale ressaltar que a implementação desenvolvida dialoga com os trabalhos
recentes citados: embora não alcance a sofisticação de um Granite Time Series pré-treinado
ou de modelos especializados como Informer/Autoformer, ela demonstra na prática a
flexibilidade da arquitetura Transformer em ser adaptada a diferentes contextos. A simpli-
ficação orientada pelo domínio reforça a ideia de que compreendendo-se os componentes
essenciais (atenção, posicionamento temporal, etc.), pode-se moldar o Transformer às
restrições e objetivos de cada aplicação. Este trabalho, portanto, insere-se nessa linha
evolutiva, aplicando conceitos da literatura de Transformers de forma inovadora a um
problema específico de previsão de séries temporais em operações de TI.

2.4 Algoritmo MRFO
O algoritmo MRFO é um método de otimização meta-heurístico bio-inspirado

que imita os comportamentos de forrageamento de arraias manta em busca de alimento
(ZHAO; WANG; ZHANG, 2020). Sua principal motivação teórica é equilibrar exploração
global e exploração local do espaço de busca por meio de diferentes estratégias inspiradas
em padrões de movimentação das arraias. Especificamente, o MRFO emprega três fases
distintas de busca – chain foraging, cyclone foraging e somersault foraging – que atuam
de forma complementar para evitar convergência prematura em ótimos locais (ZHAO;
WANG; ZHANG, 2020). Em cada iteração, cada agente (solução candidata) pode executar
aleatoriamente uma dessas estratégias, promovendo diversidade e intensificação adaptativas
na busca pela solução ótima global (ZHU et al., 2023). A seguir, é descrito em detalhe
cada fase juntamente com suas equações características e fundamentos teóricos:

• Chain Foraging: as arraias formam uma cadeia para capturar plâncton cooperati-
vamente, seguindo o líder. No algoritmo, essa cooperação é modelada atualizando-se
a posição de cada agente com influência tanto do melhor agente global quanto do
agente vizinho anterior na cadeia. A atualização é dada por:

X t+1
i = X t

i + α, Rk

(
X t

best −X t
i

)
+ β, Rk

(
X t

i−1 −X t
i

)
, (5)

onde X t
i é a posição do i-ésimo agente na iteração t, X t

best é a melhor solução
encontrada até t, e X t

i−1 representa a posição do agente precedente. O termo Rk =
diag(rk,1, . . . , rk,D) é uma matriz diagonal de números aleatórios uniformes rk,d ∼
U(0, 1) em cada dimensão d, introduzindo aleatoriedade element-wise. Os parâmetros
α e β são coeficientes de peso (tipicamente α = 1.5 e β = 1.0 (ZHAO; WANG;


44

ZHANG, 2020)) que controlam a contribuição relativa do melhor global e do vizinho
na movimentação. Essa fase promove uma exploração orientada pela melhor solução,
ao mesmo tempo em que encoraja cooperação local entre agentes adjacentes, evitando
que todos os agentes se movam estritamente em direção ao ótimo global de forma
sincronizada.

• Cyclone Foraging: as arraias nadam em um movimento espiralado semelhante a
um ciclone enquanto convergem em direção à presa. No MRFO, essa estratégia é
modelada fazendo os agentes espiralarem em torno da melhor posição atual, conforme:

X t+1
i = X t

best + γt Rθ

(
X t

best −X t
i

)
, (6)

onde γt = 2
(
1− t

Tmax

)
é um fator que decresce linearmente com as iterações (sendo

Tmax o número máximo de iterações) e Rθ é uma matriz de rotação aleatória que
impõe um movimento helicoidal em torno de X t

best (ZHAO; WANG; ZHANG, 2020).
Intuitivamente, γt controla o passo de espiral: no início (t pequeno), γt ≈ 2, permitindo
movimentos mais amplos (exploração); no final da otimização, γt → 0, de modo
que os agentes se aproximam delicadamente do ótimo (exploração local refinada).
Essa fase foca em intensificar a busca nas imediações do melhor indivíduo corrente,
aprimorando a exploração local de forma análoga ao refinamento em métodos de
otimização tradicionais.

• Somersault Foraging: próximo a fontes abundantes de alimento, arraias manta
dão cambalhotas (somersaults) para se reposicionar eficientemente ao redor da fonte.
No MRFO, essa manobra é traduzida em um salto aleatório em torno da melhor
solução global, com o objetivo de escapar de ótimos locais e diversificar a busca. A
atualização é descrita por:

X t+1
i = X t

best + ϕ
(
X t

best −X t
i

)
, (7)

em que ϕ ∼ U(−1, 1) é um coeficiente aleatório escalar no intervalo [−1, 1]. Essa
equação reposiciona o agente i ao redor de X t

best em uma direção aleatória, po-
tencialmente encontrando novas regiões promissoras de busca. A somersault atua
como um mecanismo exploratório intensivo, introduzindo saltos não direcionados
que aumentam a diversidade populacional e reduzem a chance de aprisionamento
prematuro em mínimos locais (ZHAO; WANG; ZHANG, 2020).

O algoritmo completo do MRFO está descrito no Pseudocódigo 1. Inicialmente, uma
população de N soluções é gerada aleatoriamente no espaço de busca Ω (considerado
contínuo de dimensão D) e avaliada segundo a função objetivo f(·). Em cada iteração t,
cada agente i seleciona aleatoriamente uma das três estratégias de forrageamento (por
exemplo, com probabilidades pré-definidas de 40% para chain, 40% para cyclone e 20%


45

para somersault, conforme adotado neste trabalho) e atualiza sua posição usando a equação
correspondente. Após o movimento, aplica-se uma correção de limites para garantir que
X t+1

i ∈ Ω (e.g., truncamento ou reflection caso a nova posição exceda os limites do
domínio). Em seguida, calcula-se f(X t+1

i ) e, se o valor for melhor que o da melhor solução
conhecida X t

best, atualiza-se Xbest. Ao final de cada iteração, pode-se adotar um critério
de parada adicional: por exemplo, parar antecipadamente se a melhoria do f(Xbest) de
uma iteração para a próxima for insignificante (abaixo de um limiar ϵ, como 10−4). Sob
condições adequadas de decaimento de passo (como o de γt na Eq. 6), pode-se demonstrar
que a sequência estocástica gerada pelo MRFO satisfaz condições de convergência quase
certa para o ótimo global (ZHAO; WANG; ZHANG, 2020). Ademais, a combinação das
fases cyclone e somersault garante uma probabilidade crescente de escapar de ótimos locais
ao longo das iterações (ZHAO; WANG; ZHANG, 2020), reforçando a exploração global
mesmo nas etapas finais da busca.

Algoritmo 1: Pseudocódigo do algoritmo Manta Ray Foraging Optimization
Entrada: Tamanho da população N ; número máximo de iterações Tmax;

coeficientes α, β, γ0
Saída: Melhor solução encontrada Xbest

1 Inicializar população {X0
i }N

i=1 com X0
i ∼ U(Ω) e avaliar f(X0

i );
2 Xbest ← arg mini f(X0

i ) ▷ *melhor solução inicial
3 Para t← 1 até Tmax fazer
4 Para i← 1 até N fazer
5 Selecionar aleatoriamente a fase de forrageamento;
6 ▷ *[r]chain (40%), cyclone (40%) ou somersault (20%)
7 Atualizar posição X t+1

i pela equação correspondente;
8 ▷ *[r]Eq. 5, 6 ou 7
9 Projetar X t+1

i em Ω ▷ *[r]restrições de domínio
10 Avaliar f

(
X t+1

i

)
;

11 Se f
(
X t+1

i

)
< f(Xbest) então

12 Xbest ← X t+1
i ▷ *[r]atualiza melhor global

13 Se
∣∣∣ f(X t

best)− f
(
X t−1

best

)∣∣∣ < ϵ então
14 Break ▷ *[r]critério de convergência (melhoria desprezível)

15 devolver Xbest

Em suma, o MRFO distingue-se por incorporar explicitamente mecanismos com-
plementares de busca: enquanto chain e cyclone foraging guiam os agentes em direção às
regiões promissoras identificadas (exploração direcionada e intensificação local), o somer-
sault foraging ocasionalmente dispersa os agentes ao redor do melhor ponto conhecido,
introduzindo variabilidade adicional que ajuda a escapar de armadilhas de ótimo local.
Esse equilíbrio dinâmico entre exploração e explotação confere ao MRFO vantagens sobre
meta-heurísticas clássicas. Estudos comparativos reportam que o MRFO tende a alcançar


46

soluções de qualidade superior e com convergência mais rápida do que algoritmos como
Particle Swarm Optimization (PSO) e Algoritmos Genéticos em diversos problemas de
otimização contínua (ZHU et al., 2023; ALTURKI et al., 2020).


3 Metodologia

Este capítulo detalha, com profundidade, o protocolo experimental desenvolvido
nesta dissertação. Além de garantir transparência e reprodutibilidade, buscou-se justificar
cada escolha de desenho da coleta dos dados à avaliação estatística sob a ótica de boas
práticas em aprendizado de máquina aplicado a AIOps.

3.1 Conjuntos de Dados

3.1.1 Google Cluster Traces (2019)

O Google Cluster Traces 2019 (GCT-19) disponibiliza métricas de consumo de
CPU e memória de milhares de tarefas em datacenters do Google ao longo de 30 dias
contínuos (REISS; WILKES; HELLERSTEIN, 2021). O presente estudo foca na métrica
avg_cpu_usage, amostrada a cada (1) minuto. Comparado a benchmarks tradicionais
(Yahoo Webscope, NAB), o GCT exibe alto volume (~43 000 amostras/host) e variabilidade
intra-equipe, desafiando preditores univariados (CORTEZ; SILVA; ROSALEM, 2023).

3.1.2 Prometheus Metrics

O segundo dataset deriva de métricas coletadas via Prometheus em um servidor
Linux (Intel Xeon E5-2699 v4, 128 GB RAM) que hospeda contêineres Red Hat OpenShift.
Os kpi monitorados incluem: (i) uso de memória em MB, (ii) carga média de CPU e (iii)
latência de rede. Para uniformidade com o GCT, foi empregado a métrica de memory-usage
em MB e período de coleta de 1 min. O Prometheus traz ~10 000 amostras e exibe forte
sazonalidade diária, típico de workloads monolíticos (BARHAM, 2022).

Tabela 2 – Estatísticas descritivas iniciais.

Dataset n Média σ Mín Máx
GCT-19 CPU (%) 43 200 0.245 0.061 0.012 0.397
Prom Mem (MB) 10 080 812 87 621 1 012

3.1.3 Pipeline de Pré-processamento

O preparo das séries segue um fluxo determinístico de seis fases, cada qual encade-
ada de modo a minimizar data leakage e a preservar padrões sazonais relevantes.


48

1. Aquisição de Séries Brutas. Métricas coletadas a cada 1 min—avg_cpu_usage no
Google Cluster Traces 2019 e memory_usage_MB via Prometheus são ingeridas tal como
armazenadas, mantendo picos e ruído instrumental.

2. Sanitização de Outliers. Amostras anômalas são detectadas por um critério híbrido
( Z-score |z| > 3, percentis adaptativos P0.5–P99.5 e IQR×1.5 ) (HEWAMALAGE; BERG-
MEIR; BANDARA, 2021). Valores marcados por qualquer teste são imputados por
interpolação cúbica (pandas.Series.interpolate(method='cubic')), preservando
suavidade da primeira derivada. O procedimento elimina apenas 0.4 %–0.6 % dos pontos.

3. Reamostragem e Agregação. Para reduzir ruído de curto prazo sem perder tendências
operacionais, cada série é reamostrada em 1 min, 5 min e 30 min e agregada pela média
(LAPTEV et al., 2015). Picos sub-minuto, que não alteram decisões de capacity planning,
são assim suavizados.

4. Escalonamento Min–Max. Cada sequência é normalizada para [0, 1], x′
t = (xt −

xmin)/(xmax − xmin), estabilizando gradientes iniciais e evitando saturação de portas
sigmóides em LSTM/Transformer (BOROVYKH; BOHTE; OOSTERLEE, 2017). A
inversão da escala é aplicada apenas ao calcular métricas em teste.

5. Construção de Janelas Deslizantes. Históricos normalizados geram pares (x(n)
t , xt+1)

via janela deslizante com n∈{24, 48, 72, 96} passos—equivalente a 12–48 h em 30 min.
O resultado é um tensor batch× n× 1 pronto para treino (WU et al., 2021).

6. Particionamento Temporal 60/20/20 %. A divisão cronológica impede vazamento
de informação futura; validação alimenta early-stopping e o ajuste hiper-paramétrico
via MRFO, enquanto o teste é consultado uma única vez.

Decisões de limpeza, reamostragem e divisão, tomadas em conjunto, equilibram
robustez estatística (remoção de outliers), eficiência computacional (granularidades
múltiplas) e fidelidade operacional (manutenção da sazonalidade), fornecendo uma base
confiável para os modelos preditivos descritos a seguir.

3.2 Formulação Matemática do Problema
Considere uma sequência temporal univariada xt ∈ R. Foi definido uma janela de

entrada
x(n)

t =
[
xt−n+1, . . . , xt

]
∈ Rn,

com n ∈ {24, 48, 72, 96} correspondendo a 12–48 h nos cenários 30 min. O objetivo é
aprender um mapeamento

fθ : Rn −→ R, x̂t+1 = fθ

(
x(n)

t

)


49

que minimize uma função de perda L (RMSE ou MAE) nos dados de validação cruzada.
Optou-se por predição one-step-ahead para comparação justa com trabalhos relaciona-
dos (SEN et al., 2019), porém mostramos, nos Resultados, extensão para horizontes h ≤ 12
passos.

3.3 Modelo LSTM

3.3.1 Arquitetura

A rede desenvolvida nos experimentos é composta por duas camadas LSTM com u

unidades e dropout p, seguidas de camada densa linear. O modo stateful foi desativado a
fim de permitir embaralhamento de lotes e acelerar a convergência.

3.3.2 Complexidade

O custo assintótico por epoch é O
(
M (4u2 + un)

)
, onde M é o número de janelas e

n o comprimento da sequência.

3.3.3 Hiper-parâmetros

Para cada hiper-parâmetro da LSTM, é apresentado a seguir: (i) definição operaci-
onal, (ii) impacto qualitativo sobre a capacidade de modelagem, regularização ou custo
computacional e (iii) intervalo efetivamente explorado pelo . A Tabela 3 resume os limites;
a discussão textual subsequente aprofunda o papel de cada variável.

Tabela 3 – Limites de busca dos hiper-parâmetros da LSTM.

Hiper-parâmetro Min Max Tipo

u (lstm_units) 32 256 int
p (dropout) 0.10 0.50 real
η (learning rate) 10−4 10−2 log
b (batch size) 32 256 cat
nsteps 24 96 int
E (epochs) 50 200 int

Unidades LSTM (u). Quantidade de células de memória por camada. Valores maiores
aumentam a capacidade de capturar padrões complexos e dependências de longo prazo,
porém elevam quadraticamente o custo O(u2) e podem induzir overfitting em séries de
pequena variância.

Dropout (p). Probabilidade de desativar ativação durante o treinamento. Taxas mais
altas (≥ 0.3) forçam a rede a aprender representações redundantes, reduzindo overfitting,
mas podem retardar a convergência e sub-aprender dependências longas.


50

Taxa de aprendizado (η). Passo do gradiente no otimizador RMSprop.:

• Valores altos (1× 10−2) aceleram a descida, mas podem divergir.

• Valores baixos (1× 10−4) estabilizam treinamento, exigindo mais épocas para atingir
o platô.

Tamanho do lote (b). Número de janelas processadas antes da atualização dos pesos.
Lotes pequenos (32) introduzem ruído benéfico ao gradiente (melhor generalização) e
consomem menos memória; lotes grandes (256) suavizam a curva de erro, porém podem
convergir para mínimos rasos.

Comprimento da janela (nsteps). Quantidade de passos históricos usados como entrada.
Janelas longas (96 passos @ 30 minutos) capturam até quatro ciclos diários completos, mas
ampliam a dimensionalidade de entrada e demandam mais unidades ou camadas.

Épocas (E). Iterações completas sobre o conjunto de treino. Mais épocas refinam os pesos
até saturação — útil quando p é alto —, mas o ganho marginal tende a zero; sobreajuste
surge se o early stop não for aplicado.

Em síntese, o equilibra a busca nesses seis eixos para maximizar a performance
(RMSE mínima) enquanto controla custo de treino.

3.4 Modelo Transformer para Séries Temporais

3.4.1 Definição

Foi adotado um encoder-only com L = 2 camadas, dmodel = 128, h = 4 cabeças, FFN
interno dff = 4dmodel, dropout 0.1 e positional encoding senoidal. Todos os hiperparâmetros
foram ajustados via MRFO, conforme o protocolo descrito nos capítulos a seguir.

3.4.2 Atenção Escalonada

Para entrada X ∈ Rn×dmodel , a atenção multi-cabeça é

MHA(Q, K, V) =
[
H1∥ . . . ∥Hh

]
WO,

com Hi = softmax
(QiK⊤

i√
dk

)
Vi (LUONG; PHAM; MANNING, 2015). O custo é O(h n2 dk),

porém n ≤ 96 mantém a latência de inferência abaixo de 2 ms/janela.

3.4.3 Prevenção de Overfitting

(a) Label smoothing ε = 0.1;


51

(b) ℓ2 regularização λ = 10−5;

(c) Cosine LR schedule (LOSHCHILOV; HUTTER, 2017).

3.4.4 Hiper-parâmetros

Assim como na LSTM (§3.3.3), o explora um espaço de busca multidimensional
a fim de minimizar o RMSE de validação. A Tabela 4 lista somente nome, faixa e tipo,
enquanto os parágrafos seguintes discutem a influência qualitativa de