UNIVERSIDADE ESTADUAL PAULISTA – UNESP 

Instituto de Ciência e Tecnologia - Câmpus de Sorocaba 

 
NAIRON AUGUSTO MONARI GONÇALVES 

 
COMPARAÇÃO DO USO DE DESCRITORES PARA A PREVISÃO DA 

PRODUÇÃO FOTOVOLTAICA A PARTIR DE SÉRIES HISTÓRICAS E LSTM 

 
Sorocaba 

2024  


NAIRON AUGUSTO MONARI GONÇALVES 

 
COMPARAÇÃO DO USO DE DESCRITORES PARA A PREVISÃO DA 

PRODUÇÃO FOTOVOLTAICA A PARTIR DE SÉRIES HISTÓRICAS E LSTM 

 
Dissertação apresentada à Universidade 
Estadual Paulista (UNESP), Instituto de 
Ciência e Tecnologia, Câmpus de 
Sorocaba, para obtenção do título de 
Mestre em Engenharia Elétrica. 
 
Área de Concentração: Automação 
 
Orientador: Prof. Dr. Antonio Cesar 
Germano Martins 
 

Sorocaba 

2024  


Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a). 

 
G635c 

Gonçalves, Nairon Augusto Monari 

Comparação do uso de descritores para a previsão da produção 

fotovoltaica a partir de séries históricas e LSTM / Nairon Augusto 

Monari Gonçalves. -- Sorocaba, 2024 

82 p. : il., tabs., fotos 

Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), 

Instituto de Ciência e Tecnologia, Sorocaba 

Orientador: Antonio Cesar Germano Martins 

 
1. Inteligência artificial. 2. Energia solar. 3. Aprendizado do 

computador. I. Título. 


IMPACTO POTENCIAL DESTA PESQUISA 

 
Esta pesquisa apresenta um impacto relevante em diversas esferas. Cientificamente, 

avança o uso de redes neurais LSTM (Long Short-Term Memory) na previsão de 

produção de energia fotovoltaica, contribuindo para o conhecimento técnico em 

modelagem preditiva. A inovação está em sua abordagem eficiente, que dispensa 

descritores meteorológicos, reduzindo custos e promovendo a escalabilidade. O 

estudo incentiva o uso de energia renovável, promovendo conscientização sobre 

tecnologias sustentáveis e influenciando positivamente o comportamento energético. 

Pode ser aplicado por empresas e gestores de energia, enquanto nacional e 

internacionalmente, oferecendo soluções replicáveis que fortalecem a transição 

energética. Ao promover o desenvolvimento sustentável, otimizando a integração de 

energias limpas, a pesquisa contribui para reduzir a dependência de fontes poluentes. 

Além disso, oferece uma base educacional sólida, sendo aplicável no ensino de 

inteligência artificial e sustentabilidade. 

 
POTENTIAL IMPACT OF THIS RESEARCH 

 
This research has a significant impact in several areas. Scientifically, it advances the 

use of LSTM (Long Short-Term Memory) neural networks in predicting photovoltaic 

energy production, contributing to technical knowledge in predictive modeling. The 

innovation lies in its efficient approach, which eliminates the need for meteorological 

descriptors, reducing costs and promoting scalability. The study encourages the use 

of renewable energy, raising awareness about sustainable technologies and positively 

influencing energy behavior. Energy companies and managers can apply it, while 

nationally and internationally, it offers replicable solutions that strengthen the energy 

transition. By promoting sustainable development and optimizing the integration of 

clean energy, the research helps reduce dependence on polluting sources. Moreover, 

it provides a solid educational foundation, being applicable in the teaching of artificial 

intelligence and sustainability. 

 
Dedico este trabalho à minha esposa e a 

meus filhos, por todo amor, carinho e apoio 

que recebi em todos os momentos e a 

todos que contribuíram direta ou 

indiretamente para a realização deste 

trabalho. 

  
AGRADECIMENTOS 

 
Agradeço, 

...ao Instituto de Ciência e Tecnologia de Sorocaba por oferecer 

infraestrutura de pesquisa, acesso a bibliotecas, laboratórios bem equipados, e por 

promover um ambiente colaborativo que estimula a aprendizagem e o crescimento 

acadêmico. 

...ao meu orientador Prof. Dr. Antonio Cesar Germano Martins pela sua 

orientação dedicada ao longo deste trabalho de mestrado. Agradeço por compartilhar 

seu conhecimento e por acreditar no meu potencial. 

...a minha esposa Franciele pela compreensão, paciência, encorajamento 

e apoio emocional. Seu sacrifício não passou despercebido, e sou imensamente grato 

por ter você ao meu lado, compartilhando cada passo desta jornada. 

...aos meus filhos Isabella e Guilherme, que durante este período de 

estudos intensos, foram uma fonte constante de alegria e motivação para mim. Mesmo 

nos momentos em que precisei me ausentar por causa dos estudos, vocês 

demonstraram compreensão e amor. Vocês são minha maior bênção e inspiração. 

...aos professores, funcionários e colegas do Instituto de Ciência e 

Tecnologia de Sorocaba, bem como a todos que, de forma direta ou indireta, 

contribuíram para a realização deste trabalho. 

...aos alunos intercambistas Nicolas Fourmaux, do CESI École 

d'ingénieurs, campus de Arras, Pas-de-Calais, Hauts-de-France, França, e Navidu 

Lokupathirage e Xinkang Chen, do ESIEA – École d'Ingénieur·e·s d'un numérique 

utile, Ivry-sur-Seine, Île-de-France, Val-de-Marne, França, cuja colaboração foi 

essencial para a realização dos experimentos. A troca de conhecimentos e 

experiências foi enriquecedora. 

...aos membros da banca examinadora Profa. Dra. Esther Luna Colombini 

e Prof. Dr. Helmo Kelis Morales Paredes, pela disponibilidade em participar deste 

momento importante. Agradeço o tempo dedicado à leitura e avaliação deste trabalho, 

e pela oportunidade de discutir o tema com profissionais de tão elevado conhecimento 

e experiência. 

 
“A inteligência não é a capacidade de 

armazenar informações, mas de saber 

onde encontrá-las”. 

(Albert Einstein). 


RESUMO 

 
Este trabalho apresenta um estudo baseado em redes neurais recorrentes do tipo 

LSTM (Long Short-Term Memory) para prever a produção de energia de um conjunto 

de painéis fotovoltaicos, com um horizonte temporal de seis horas e quarenta minutos 

(quatrocentos minutos). Esse estudo utiliza dados históricos de três anos, quatro 

meses e dezessete dias, que incluem medições meteorológicas e de produção de 

energia fotovoltaica. O objetivo é realizar uma análise comparativa entre um modelo 

treinado exclusivamente com dados de produção de energia e oito modelos que 

incorporam descritores meteorológicos no treinamento. Os resultados indicam que o 

modelo treinado apenas com a produção de energia fotovoltaica obtém desempenho 

equivalente ao de modelos que incluem descritores meteorológicos. Este estudo 

demonstra a eficácia da abordagem LSTM e sugere que, para o problema específico 

de previsão da produção de energia fotovoltaica, os descritores meteorológicos não 

proporcionam uma melhoria significativa no desempenho do modelo. 

 
Palavras-chave: inteligência artificial; painéis solares; fontes de energias renováveis 

 
ABSTRACT 

 
This work presents a study based on LSTM (Long Short-Term Memory) recurrent 

neural networks to forecast the energy production of a set of photovoltaic panels, with 

a time horizon of six hours and forty minutes (four hundred minutes). This study uses 

historical data spanning three years, four months, and seventeen days, including 

meteorological measurements and photovoltaic energy production data. The objective 

is to conduct a comparative analysis between a model trained solely with energy 

production data and eight models that incorporate meteorological descriptors into the 

training process. The results indicate that the model trained exclusively with energy 

production data performs comparably to models that include meteorological 

descriptors, thus demonstrating the effectiveness of the LSTM approach and suggests 

that, for the specific problem of forecasting photovoltaic energy production, 

meteorological descriptors do not provide a significant improvement in model 

performance. 

 
Keywords: artificial intelligence; solar panels; renewable energy sources. 

 
LISTA DE FIGURAS 

 
Figura 1 – ODS estabelecidos pela ONU ................................................................. 18 

Figura 2 – Origem dos artigos selecionados ............................................................ 21 

Figura 3 – Evolução das abordagens ....................................................................... 29 

Figura 4 – Diferença entre a RNA e RNN ................................................................. 30 

Figura 5 – Componentes de estado: estado da célula e estado oculto ..................... 32 

Figura 6 – Estado da célula ...................................................................................... 33 

Figura 7 – Estado oculto .......................................................................................... 34 

Figura 8 – Etapas de cálculo na LSTM .................................................................... 36 

Figura 9 – Primeira etapa do cálculo ........................................................................ 37 

Figura 10 – Segunda etapa do cálculo ..................................................................... 39 

Figura 11 – Terceira etapa do cálculo ...................................................................... 40 

Figura 12 – Planta do complexo DKASC .................................................................. 53 

Figura 13 – Foto do conjunto ................................................................................... 54 

Figura 14 – Potência fotovoltaica ao longo dos anos ............................................... 61 

Figura 15 – Energia fotovoltaica agrupada por ano .................................................. 64 

Figura 16 – Coeficiente de correlação entre os descritores no conjunto de dados ... 68 

Figura 17 – Perdas no treinamento do modelo somente com a energia fotovoltaica 70 

Figura 18 – Gráfico de dispersão no conjunto ao fim do treinamento ....................... 72 

Figura 19 – Previsão x real no conjunto de treinamento ........................................... 72 

Figura 20 – Gráfico de dispersão no conjunto de validação ..................................... 73 

Figura 21 – Previsão x real no conjunto de validação .............................................. 74 

Figura 22 – Gráfico de dispersão no conjunto de teste ............................................ 75 

Figura 23 – Previsão x real no conjunto de teste...................................................... 75 


LISTA DE TABELAS 

 
Tabela 1 – Geração de energia fotovoltaica ............................................... 16 

Tabela 2 – Triagem dos artigos encontrados .............................................. 21 

Tabela 3 – Configurações do conjunto ....................................................... 55 

Tabela 4 – Estatísticas de cada ano do conjunto de dados ........................ 60 

Tabela 5 – Conjuntos de dados resultantes ................................................ 61 

Tabela 6 – Valores indisponíveis entre 2013 e 2016 .................................. 62 

Tabela 7 – Características do conjunto de dados ....................................... 64 

Tabela 8 – Colunas do conjunto de dados.................................................. 65 

Tabela 9 – Divisão dos dados entre treinamento, validação e teste ........... 65 

Tabela 10 – Resumo da melhor configuração de hiperparâmetros ............. 66 

Tabela 11 – Arquitetura LSTM definida no projeto ...................................... 67 

Tabela 12 – Valores das métricas de erro no conjunto de treinamento ...... 71 

Tabela 13 – Valores das métricas de erro no conjunto de validação .......... 73 

Tabela 14 – Valores das métricas de erro no conjunto de teste ................. 74 

Tabela 15 – Valores das métricas de erro no modelo ................................. 76 

Tabela 16 – Valores das métricas variando os descritores ......................... 77 

 
LISTA DE ABREVIATURAS E SIGLAS 

 
LSTM  Long Short-Term Memory 

CAGR  Taxa de Crescimento Anual Composta 

ODS  Objetivos de Desenvolvimento Sustentável 

ONU  Organização das Nações Unidas 

CO₂  Dióxido de Carbono 

NWP  Numerical Weather Prediction 

ARMA Autoregressive Moving Average 

ARIMA Autoregressive Integrated Moving Average 

RNA  Rede Neural Artificial 

SVM  Support Vector Machine 

DL  Aprendizagem Profunda 

KNN  K-Nearest Neighbors 

MSE  Mean Squared Error 

RMSE  Root Mean Squared Error 

MAE  Mean Absolute Error 

MAPE  Mean Absolute Percentage Error 

NMAE  Normalized Mean Absolute Error 

NREL  National Renewable Energy Laboratory 

DKASC Desert Knowledge Australia Solar Centre 

CSV  Comma-Separated Values 

GPU  Graphics Processing Unit 

TPU  Tensor Processing Unit 

GRU  Gate Recurrent Unit 

 
LISTA DE SÍMBOLOS 

 
TWh  Terawatt-hora 

CC  Corrente Contínua 

CA  Corrente Alternada 

A  Ampere 

mm  Milímetros 

kW  Quilowatt 

kWh  Quilowatt-hora 

W  Watt 

m²  Metro quadrado 

m/s  Metro por Segundo 

ºC  Graus Celsius 

W/m²  Watts por metro quadrado 

º  Graus 

 
SUMÁRIO 

 
1 INTRODUÇÃO ..................................................................................... 16 

2 REVISÃO BIBLIOGRÁFICA ................................................................ 20 

2.1 ARTIGOS CORRELACIONADOS ........................................................ 20 

3 FUNDAMENTAÇÃO TEÓRICA............................................................ 22 

3.1 O SISTEMA DE ENERGIA FOTOVOLTAICO....................................... 22 

3.2 ABORDAGENS PARA PREVISÃO DE ENERGIA FOTOVOLTAICA .... 26 

3.3 ABORDAGENS LSTM .......................................................................... 29 

3.3.1 Componentes de Estado da Célula ...................................................... 32 

3.3.2 Portas na Arquitetura LSTM ................................................................. 34 

3.3.3 Etapas de Cálculo na LSTM ................................................................. 35 

3.4 AVALIAÇÃO DO RESULTADO ............................................................ 41 

3.5 HIPERPARÂMETROS DA LSTM ......................................................... 43 

3.6 COEFICIENTE DE CORRELAÇÃO ...................................................... 49 

4 METODOLOGIA .................................................................................. 51 

4.1 AMBIENTE DE DESENVOLVIMENTO ................................................. 51 

4.2 FONTE DE DADOS .............................................................................. 52 

4.3 DETALHAMENTO DOS DADOS .......................................................... 55 

4.4 DIVISÃO DOS DADOS ......................................................................... 57 

4.5 DEFINIÇÃO DOS HIPERPARÂMETROS ............................................. 57 

5 RESULTADOS ..................................................................................... 60 

5.1 EXPLORAÇÃO DO CONJUNTO DE DADOS....................................... 60 

5.2 HIPERPARÂMETROS E ARQUITETURA ............................................ 65 

5.3 HORIZONTE TEMPORAL .................................................................... 67 

5.4 ANÁLISE DOS DESCRITORES ........................................................... 68 

5.5 TREINAMENTO DOS MODELOS ........................................................ 70 

5.5.1 MODELO TREINADO SOMENTE COM A ENERGIA ........................... 70 

5.5.2 Modelo Treinado com Energia e Descritores ........................................ 76 

6 CONCLUSÕES .................................................................................... 78 

REFERÊNCIAS ....................................................................................................... 79 

 
16 

1 INTRODUÇÃO 

 
Nos últimos anos, o Brasil tem experimentado um crescimento exponencial 

na geração de energia fotovoltaica. De acordo com o último Balanço Energético 

Nacional de 2024 da Empresa de Pesquisa Energética (MINISTÉRIO DE MINAS E 

ENERGIA, 2024), a capacidade instalada de energia solar no país passou de 16MWh 

em 2014 para 50.632,9MWh em 2023. Esse aumento demonstra a expansão 

acelerada dessa fonte de energia renovável, especialmente a partir de 2017, quando 

a capacidade instalada cresceu de 832MWh para mais de 50.000MWh em menos de 

seis anos. 

Entre 2014 e 2023, a geração de energia fotovoltaica no Brasil teve um 

crescimento total de aproximadamente 316.330%, conforme Tabela 1. Esse número 

ressalta o avanço massivo da energia solar no país. Ao analisar a taxa de crescimento 

anual composta (CAGR), chega-se a uma média de 91% ao ano. Esse índice reflete 

a consolidação da energia fotovoltaica como uma das principais alternativas 

energéticas do Brasil, incentivada tanto por investimentos públicos quanto privados, 

além de políticas de fomento às energias limpas. 

 
Tabela 1 – Geração de energia fotovoltaica 

FLUXO GERAÇÃO TOTAL (MWh) 

2014 16 

2015 59 

2016 85 

2017 832 

2018 3.461 

2019 6.655 

2020 10.748 

2021 16.752 

2022 30.126 

2023 50.632,9 

Fonte: MINISTÉRIO DE MINAS E ENERGIA, 2024. 

 
17 

Ainda de acordo com a Tabela 1, a média de crescimento anual em termos 

absolutos foi de aproximadamente 5.625MWh por ano. Esse dado reforça a 

importância da energia solar na matriz energética brasileira, que tem se tornado um 

dos principais motores da transição energética no país. Se mantida a taxa de 

crescimento observada nos últimos anos, a expectativa é que a capacidade instalada 

de energia fotovoltaica continue a crescer de forma robusta. 

URBANETZ et al. (2019) projeta uma produção total de 98,3TWh de 

geração fotovoltaica para 2025, o que corresponderia a 12,3% da demanda elétrica 

do Brasil, considerando uma produção total estimada em 800TWh para o mesmo ano. 

Nesse contexto, um modelo que seja capaz de prever a oferta diária de energia gerada 

torna-se uma ferramenta crucial para a regulação e para a criação de políticas 

tarifárias, especialmente para produtores que não atingirem as metas estabelecidas. 

Além disso, auxilia na organização do sistema interligado nacional de energia elétrica 

(MINISTÉRIO DE MINAS E ENERGIA, 2024). 

Com a aproximação de 2030, prazo final para o cumprimento dos Objetivos 

de Desenvolvimento Sustentável (ODS) estabelecidos pela ONU (AGENDA 2030, 

2020), é relevante mencionar que o aumento do uso da energia fotovoltaica está em 

consonância com o 7º ODS, que tem como metas até 2030: 

a) Buscar garantir o acesso universal à energia de forma confiável, 

sustentável, moderna e a preços acessíveis a serviços de energia; 

b) Aumentar substancialmente a participação de energias renováveis na 

matriz energética global; 

c) Dobrar a taxa global de melhoria da eficiência energética; 

d) Reforçar a cooperação internacional para facilitar o acesso a pesquisa e 

tecnologias de energia limpa, incluindo energias renováveis, eficiência 

energética e tecnologias de combustíveis fósseis avançadas e mais 

limpas, e promover o investimento em infraestrutura de energia e em 

tecnologias de energia limpa; 

e) expandir a infraestrutura e modernizar a tecnologia para o fornecimento 

de serviços de energia modernos e sustentáveis para todos nos países 

em desenvolvimento, particularmente nos países menos desenvolvidos, 

nos pequenos Estados insulares em desenvolvimento e nos países em 

desenvolvimento sem litoral, de acordo com seus respectivos programas 

de apoio. 


18 

A Figura 1 mostra todos os ODS a serem cumpridos até o ano de 2030. 

 
Figura 1 – ODS estabelecidos pela ONU 

 
Fonte: AGENDA 2030 (2020). 

 
O crescimento da fonte solar também tem sido impulsionado por políticas 

regulatórias, como a compensação da energia excedente gerada por sistemas 

menores, conhecida como compensação líquida (net metering). Dessa forma, há uma 

tendência de aumento na participação da energia solar na matriz elétrica nacional. 

O crescente interesse mundial pela energia fotovoltaica gera a necessidade 

de desenvolver sistemas que permitam estimar a produção de forma mais precisa, 

visto que o desempenho dessa fonte impacta outras formas de geração de energia e 

tem implicações financeiras. A exemplo da Ucrânia, onde a tarifa verde penaliza 

financeiramente a produção abaixo do estipulado (EZHNYUK et al., 2018). 

O objetivo deste trabalho é comparar o desempenho de uma rede neural 

LSTM utilizando apenas a série histórica de energia produzida com o desempenho 

obtido ao adicionar variáveis meteorológicas na previsão de produção de energia 

fotovoltaica de um conjunto de painéis fotovoltaicos. A pesquisa se concentrará em 

analisar o impacto da inclusão de múltiplos descritores meteorológicos no treinamento 

dos modelos preditivos. Será investigado se a adição dessas variáveis pode trazer 


19 

melhorias na precisão das previsões em relação aos modelos que consideram 

somente a série temporal da produção de energia fotovoltaica. 

Este trabalho representa a continuidade da pesquisa realizada por CUNHA 

(2021), que apresentou uma metodologia para prever a geração de energia 

fotovoltaica utilizando dados históricos de energia produzida e uma rede neural do tipo 

LSTM. A abordagem de CUNHA (2021) envolveu a aplicação do conceito de janela 

temporal para realizar previsões com horizonte de uma hora, levando em 

consideração a produção de energia fotovoltaica coletadas ao longo de um ano. Além 

disso, a análise comparativa destacou a eficácia do modelo proposto em relação a 

diferentes tamanhos de janela temporal. Em continuidade ao trabalho de CUNHA 

(2021), este trabalho de mestrado investiga a inclusão de variáveis meteorológicas, 

expandindo os achados da tese de doutorado de CUNHA (2021), e contribuindo para 

o avanço da metodologia já estabelecida. 

Inicialmente, uma revisão abrangente da literatura será apresentada para 

identificar as abordagens mais recentes e eficazes na previsão da produção de 

energia fotovoltaica, com ênfase particular nas técnicas baseadas em redes neurais. 

Em seguida, séries temporais históricas de produção de energia fotovoltaica e dados 

correlacionados de descritores meteorológicos serão coletados e analisados. Modelos 

de redes neurais LSTM serão desenvolvidos utilizando diversas combinações de 

descritores meteorológicos. Finalmente, o desempenho dos modelos será avaliado 

através de métricas de previsão, comparando a acurácia e a robustez dos modelos 

que incorporam múltiplos descritores com aqueles que se baseiam apenas na série 

temporal de produção de energia. 

Ao longo das seções, os principais trabalhos realizados na área serão 

discutidos e analisados, com o objetivo de contextualizar o leitor sobre o estado atual 

das pesquisas e avanços no campo da previsão de produção de energia fotovoltaica. 

Ao cumprir essas etapas, este trabalho visa contribuir significativamente 

para o avanço do conhecimento na área de previsão de energia fotovoltaica, 

fornecendo perspectivas valiosas para o desenvolvimento de modelos mais eficientes 

e adaptáveis, fundamentados em técnicas avançadas de aprendizado de máquina. 

 
20 

2 REVISÃO BIBLIOGRÁFICA 

 
2.1 Artigos Correlacionados 

 
Foram investigados artigos correlacionados que sustentam a modelagem 

de redes neurais recorrentes para destacar e justificar as contribuições propostas 

nesta pesquisa. As seguintes bases de dados foram utilizadas: 

 
a) Science Direct – https://www.sciencedirect.com; 

b) Scopus – https://www.scopus.com; 

c) Web of Science – https://www.webofscience.com. 

 
Os filtros a seguir foram aplicados na busca: 

 
a) Artigos de até 5 anos (de 2018 a 2022); 

b) Artigos no idioma inglês; 

c) Artigos na área de energia; 

d) Artigos de pesquisa, excluindo nota técnica e de revisão; 

e) Tipo de documento: artigos e artigos de conferência; 

f) Palavras-chave: prediction photovoltaic production LSTM; 

g) Artigos de acesso livre para a comunidade acadêmica. 

 
Na primeira triagem, aplicaram-se os filtros nas bases de dados. Na 

segunda, removeram-se os artigos duplicados. Na terceira, excluíram-se os artigos 

com títulos desalinhados ao tema deste trabalho. Na quarta, eliminaram-se os artigos 

com resumos fora do tema. Por fim, na quinta triagem, descartaram-se os artigos cujo 

conteúdo não era relevante para o trabalho. Os resultados obtidos na etapa da triagem 

podem ser vistos na Tabela 2. 

Após o processo de triagem, a revisão bibliográfica resultou em 30 artigos 

relevantes, distribuídos por diferentes países, conforme Figura 2. A distribuição 

geográfica reflete a diversidade de pesquisas no campo da previsão de produção de 

energia fotovoltaica, com uma predominância de estudos realizados em países 

asiáticos. 


21 

Tabela 2 – Triagem dos artigos encontrados 

ETAPA AÇÃO ARTIGOS APÓS A AÇÃO 

1ª Aplicação dos filtros Total: 970 artigos 

2ª Exclusão de artigos duplicados nas bases Total: 859 artigos 

3ª Exclusão de artigos em função do título Total: 115 artigos 

4ª Exclusão de artigos em função do resumo Total: 48 artigos 

5ª Exclusão de artigos em função do conteúdo Total: 30 artigos 

Fonte: Elaborado pelo autor (2023). 

 
Figura 2 – Origem dos artigos selecionados 

 
Fonte: Elaborado pelo autor (2023). 

 
Os artigos selecionados serviram como base de referência para o 

desenvolvimento deste trabalho. Essas fontes foram utilizadas para obter informações 

relevantes, contextualizando o leitor sobre o progresso das pesquisas na área de 

energia fotovoltaica e permitindo a identificação de lacunas existentes. A discussão 

sobre esses artigos será realizada posteriormente, evidenciando as abordagens 

adotadas em cada um deles. 

 
0

1

2

3

4

5

6

7

8

9

10

11

12

Artigos por países


22 

3 FUNDAMENTAÇÃO TEÓRICA 

 
3.1 O Sistema de Energia Fotovoltaico 

 
O aumento da demanda global por energia, combinado com a crescente 

escassez de recursos fósseis, tem gerado preocupações significativas em relação aos 

impactos ambientais adversos. Nos últimos anos, mais de 80% da energia primária 

mundial ainda provém de combustíveis fósseis, resultando em elevadas emissões de 

CO₂ e contribuindo diretamente para o agravamento do aquecimento global 

(GUTIÉRREZ et al., 2021). Diante desse cenário, a busca por soluções energéticas 

mais eficientes e sustentáveis tornou-se urgente. 

Entre as fontes de energia renovável, a energia solar fotovoltaica se 

destaca como uma das principais. Nos últimos anos, o uso de sistemas fotovoltaicos 

em estruturas inteligentes tem crescido substancialmente, e a expectativa é de que 

essa tendência se expanda exponencialmente, devido às inúmeras vantagens 

oferecidas por essa tecnologia. No entanto, a sua integração eficaz aos sistemas 

energéticos existentes depende de previsões precisas da geração fotovoltaica 

(GUTIÉRREZ et al., 2021). 

O componente fundamental de um sistema fotovoltaico é a célula 

fotovoltaica, que consiste em camadas de materiais semicondutores com 

propriedades fotoelétricas. Quando a luz solar incide sobre a célula, os fótons 

fornecem energia suficiente para liberar elétrons dos átomos do semicondutor, 

iniciando o processo de geração de eletricidade. Esse fenômeno, conhecido como 

efeito fotovoltaico, ocorre quando os elétrons liberados são direcionados por uma 

diferença de potencial elétrico entre as camadas da célula, forçando-os a fluir em uma 

única direção e, assim, gerando uma corrente elétrica (UNLU et al., 2022). 

As células fotovoltaicas são conectadas em série para formar módulos, 

também chamados de painéis solares. Cada célula contribui com uma pequena 

quantidade de tensão, e a combinação de várias células em série aumenta a tensão 

total do sistema, tornando-o capaz de gerar energia útil. Esses painéis são montados 

em suportes ou estruturas que maximizam sua exposição à luz solar, sendo 

frequentemente instalados em telhados, terrenos ou outras áreas abertas que 

garantem a máxima captação de luz solar ao longo do dia (UNLU et al., 2022). 


23 

A eletricidade gerada pelos painéis solares é corrente contínua (CC), que 

não é diretamente compatível com a maioria dos dispositivos elétricos ou com a rede 

elétrica convencional, que operam em corrente alternada (CA). Para resolver esse 

problema, utiliza-se um inversor, que converte a corrente contínua em corrente 

alternada. Além disso, o inversor desempenha funções essenciais, como o 

monitoramento do sistema e a otimização do desempenho da geração de energia 

(UNLU et al., 2022). 

A energia gerada pode ser usada diretamente no local em que o sistema 

está instalado. Caso haja excedente, ele pode ser alimentado na rede elétrica através 

de um medidor bidirecional, permitindo que os proprietários do sistema recebam 

créditos pela eletricidade excedente gerada, os quais podem ser usados em 

momentos em que a geração solar é insuficiente (UNLU et al., 2022). 

Em resumo, um sistema fotovoltaico converte a luz solar em eletricidade 

através do efeito fotovoltaico nas células solares. Essa eletricidade é então convertida 

de corrente contínua para corrente alternada por um inversor, podendo ser utilizada 

diretamente pelos dispositivos elétricos ou alimentada na rede elétrica para uso futuro. 

A geração de energia fotovoltaica é diretamente influenciada por fatores 

climáticos locais. A variabilidade desses fatores resulta em flutuações na geração de 

energia ao longo do tempo, o que torna a previsão dessa produção um desafio crucial. 

A precisão nas previsões é fundamental para garantir a confiabilidade e a estabilidade 

da rede elétrica, além de influenciar aspectos críticos, como segurança, planejamento, 

agendamento e operações no mercado de energia (GUTIÉRREZ et al., 2021; ZAMAN 

et al., 2021; YANG et al., 2022). A seguir, serão detalhados os principais fatores 

climáticos que influenciam diretamente a produção de energia fotovoltaica. 

A radiação solar [W/m²] é a energia emitida pelo Sol que se propaga por 

ondas eletromagnéticas e atinge a superfície da Terra com diferentes intensidades, 

classificadas de acordo com seu comprimento de onda. Essa energia é medida por 

unidade de área da radiação que atinge uma superfície terrestre, sendo classificada 

como direta, difusa, refletida e global (XIAO et al., 2023). 

(a) Radiação direta horizontal [W/m²] – ocorre apenas quando o Sol 

está visível. É a porção da radiação solar que atinge diretamente a 

superfície terrestre sem sofrer dispersão atmosférica, sendo medida 

em relação a um plano horizontal (XIAO et al., 2023); 


24 

(b) Radiação difusa horizontal [W/m²] – é a luz solar que foi dispersa 

por partículas atmosféricas e chega à superfície terrestre a partir de 

várias direções, não estando na linha de radiação direta do Sol. Ela 

também é medida em relação a um plano horizontal (XIAO et al., 

2023); 

(c) Radiação refletida horizontal [W/m²] – corresponde à parte da 

radiação solar que é refletida pela superfície da Terra e outros 

objetos, como edifícios e vegetação (XIAO et al., 2023); 

(d) Radiação global horizontal [W/m²] – é a soma das radiações direta, 

difusa e refletida. Representa a intensidade total da energia solar 

recebida por um plano horizontal na superfície da Terra (XIAO et al., 

2023); 

(e) Radiação direta inclinada [W/m²] – é a radiação solar que atinge 

diretamente um plano inclinado. Ela corresponde à radiação direta 

horizontal, ajustada para a inclinação do painel ou superfície, o que 

aumenta sua captação dependendo do ângulo em relação ao Sol 

(XIAO et al., 2023); 

(f) Radiação difusa inclinada [W/m²] – é a radiação solar dispersa por 

partículas atmosféricas que atinge uma superfície inclinada. Assim 

como a radiação difusa horizontal, não está alinhada diretamente 

com o Sol, mas é medida em relação ao plano inclinado do arranjo 

(XIAO et al., 2023); 

(g) Radiação refletida inclinada [W/m²] – é a porção da radiação solar 

que foi refletida por superfícies próximas, como o solo ou outras 

estruturas, e que atinge o plano inclinado do arranjo fotovoltaico. 

Essa radiação é importante para estimar o ganho energético total de 

um sistema, uma vez que superfícies como neve ou concreto podem 

refletir uma fração significativa da luz solar (XIAO et al., 2023); 

(h) Radiação global inclinada [W/m²] – é a intensidade da energia 

solar total recebida por um plano inclinado, como o de um painel 

fotovoltaico. É a soma das componentes direta, difusa e refletida em 

relação à inclinação da superfície do arranjo fotovoltaico (XIAO et al., 

2023). 


25 

A temperatura ambiente [°C] é uma variável associada ao grau de 

agitação das moléculas. No contexto da geração solar, tem um efeito essencial no 

valor da tensão gerada (XIAO et al., 2023). O aumento da temperatura dos painéis 

solares pode reduzir a eficiência da conversão de energia, já que os materiais 

fotovoltaicos geralmente são mais eficientes a temperaturas mais baixas. 

A umidade relativa [%] é definida como a quantidade de vapor de água 

presente no ar e está diretamente relacionada à temperatura ambiente. Em áreas de 

alta umidade, o ar tende a reter mais calor, o que pode resultar em temperaturas mais 

elevadas dos painéis solares. A umidade relativa do ar pode afetar a quantidade de 

luz solar que atinge os painéis fotovoltaicos. Moléculas de água na atmosfera podem 

dispersar e absorver parte da radiação solar, reduzindo assim a quantidade de luz que 

chega aos painéis. Isso pode diminuir a intensidade da luz que chega diretamente aos 

painéis solares, afetando a eficiência da conversão fotovoltaica. Em condições de alta 

umidade, há maior probabilidade de ocorrer condensação de água nos painéis solares 

durante a noite ou quando as temperaturas caem. Essa condensação pode levar ao 

acúmulo de água e sujeira nos painéis solares, reduzindo ainda mais a eficiência da 

geração de energia. A exposição constante à umidade elevada ao longo do tempo 

pode também acelerar a degradação dos materiais dos painéis solares, diminuindo 

sua vida útil e eficiência ao longo do tempo (XIAO et al., 2023). 

A direção do vento [°] é definida pela origem de onde o vento sopra. Ela 

desempenha um papel fundamental em diversos fenômenos atmosféricos e no 

desempenho de sistemas fotovoltaicos, especialmente em regiões onde a ventilação 

natural ajuda a resfriar os painéis, aumentando sua eficiência (XIAO et al., 2023). A 

direção do vento pode impactar a produção de energia fotovoltaica devido à sua 

influência na temperatura dos painéis solares. Os módulos fotovoltaicos funcionam de 

maneira mais eficiente em temperaturas mais baixas, pois o calor excessivo pode 

reduzir sua eficiência. Quando o vento sopra na direção certa, ele ajuda a resfriar os 

painéis solares ao remover o calor acumulado em sua superfície, mantendo-os dentro 

de uma faixa de temperatura mais favorável para a conversão de energia. Por outro 

lado, se o vento é obstruído por obstáculos como prédios ou árvores, ou se sua 

direção não permite uma ventilação eficaz dos painéis solares, o calor pode se 

acumular, prejudicando o desempenho dos módulos. Além disso, em locais com forte 

presença de partículas ou poeira, a direção do vento pode aumentar o acúmulo de 

sujeira nos painéis solares, reduzindo a quantidade de radiação solar que atinge suas 


26 

superfícies e, consequentemente, a produção de energia fotovoltaica (XIAO et al., 

2023). 

A precipitação diária [mm] refere-se à quantidade de água, sob a forma 

de chuva, neve, granizo ou neblina, que cai em um local específico ao longo de um 

dia. Ela é um dos principais componentes do ciclo hidrológico, influenciando a 

atmosfera e o clima de uma região. A precipitação pode impactar a produção de 

energia fotovoltaica de maneiras tanto positivas quanto negativas. Em curto prazo, 

durante períodos de chuva ou neblina intensa, a produção de energia tende a diminuir 

devido à redução da irradiância solar. A presença de nuvens densas bloqueia a 

radiação direta, e a luz difusa que atravessa as nuvens é menos intensa, resultando 

em menor eficiência dos painéis. Além disso, em regiões com neve, o acúmulo sobre 

os módulos pode bloquear a entrada de luz solar, interrompendo temporariamente a 

produção até que a neve seja removida ou derreta. Por outro lado, a precipitação, 

especialmente a chuva, tem um efeito positivo na limpeza natural dos painéis solares. 

Ela remove a poeira, poluição e outros detritos que podem se acumular na superfície 

dos módulos, aumentando sua eficiência ao garantir que mais radiação solar atinja 

diretamente as células fotovoltaicas. 

 
3.2 Abordagens Para Previsão de Energia Fotovoltaica 

 
Diversas metodologias foram desenvolvidas para a previsão de produção 

de energia fotovoltaica, que geralmente se enquadram em quatro categorias 

principais: modelos físicos, abordagens estatísticas, métodos de inteligência artificial 

e abordagens híbridas, que combinam diferentes técnicas (GUTIÉRREZ et al., 2021). 

Essas categorias fornecem uma estrutura organizada para explorar as diversas 

técnicas disponíveis e avaliar seu impacto na precisão das previsões, cada uma com 

suas próprias vantagens e limitações. 

Os modelos físicos na previsão da produção de energia fotovoltaica 

baseiam-se em equações matemáticas que descrevem as interações entre as 

condições meteorológicas e a geração de energia (LI et al., 2020). Essas equações 

modelam relações entre variáveis atmosféricas como temperatura, pressão, umidade, 

vento e radiação solar através de princípios da física, como as leis da termodinâmica 

e transferência de calor. Ao resolver numericamente essas equações, os modelos 


27 

simulam a evolução das condições meteorológicas em diferentes locais e momentos. 

Um exemplo amplamente utilizado é a Previsão Numérica do Tempo (NWP), que 

simula a evolução das condições meteorológicas futuras por meio de modelagem 

computacional (SHARMA et al., 2022). Diferente de modelos puramente históricos, os 

modelos físicos também levam em conta dados geográficos e detalhes dos 

componentes fotovoltaicos. No entanto, eles enfrentam desafios, como a variação dos 

parâmetros fotovoltaicos e a cobertura limitada por satélites, que podem comprometer 

a precisão das previsões (AHMED et al., 2022; LUO et al., 2021). 

As abordagens estatísticas para previsão de energia fotovoltaica se 

baseiam na análise de séries temporais históricas. Modelos como o Autorregressivo 

de Média Móvel (ARMA) e o Autorregressivo Integrado de Média Móvel (ARIMA) são 

amplamente utilizados nesse contexto. Esses métodos, apesar de mais simples em 

comparação com técnicas de inteligência artificial, podem fornecer previsões precisas 

quando os dados apresentam padrões lineares ou sazonalidades bem definidas. No 

entanto, essas abordagens são limitadas na captura de comportamentos não lineares, 

como variações irregulares na radiação solar ou na produção de energia ao longo do 

tempo. Estudos, como o de YANG et al. (2022), indicam que, embora as abordagens 

estatísticas tenham seu mérito, os algoritmos de inteligência artificial geralmente 

superam essas técnicas na previsão da produção fotovoltaica, especialmente em 

cenários complexos e dinâmicos. 

Os métodos baseados em inteligência artificial têm se destacado na 

previsão da produção de energia fotovoltaica devido à sua capacidade de lidar com 

dados complexos e não lineares. Entre os principais modelos utilizados estão as redes 

neurais artificiais (RNA), máquinas de vetores de suporte (SVM) e técnicas de 

aprendizado profundo (DL). O estudo conduzido por OZBEK et al. (2022) comparou o 

desempenho de várias redes neurais artificiais com técnicas de modelagem 

estatística, concluindo que as redes neurais artificiais apresentaram maior precisão e 

demandaram menos tempo de processamento computacional. Esses métodos 

buscam simular a inteligência humana, permitindo que os sistemas realizem tarefas 

de forma autônoma ou assistida. 

GUTIÉRREZ et al. (2021) também exploraram a previsão da geração de 

energia fotovoltaica utilizando inteligência artificial. Eles avaliaram quatro modelos: K-

Nearest Neighbors (KNN), regressão linear, RNA e SVM. Entre eles, a RNA obteve o 


28 

melhor desempenho em termos de erro médio quadrático (MSE) e erro absoluto médio 

(MAE), superando os outros modelos. 

Em outro estudo, LEE et al. (2019) sugeriram três modelos de previsão para 

energia fotovoltaica: uma RNA básica, uma RNA com camadas ocultas para capturar 

relações complexas e uma rede neural recorrente (RNN) do tipo LSTM, projetada para 

identificar padrões sazonais e horários. O modelo LSTM se destacou com um 

desempenho superior, reduzindo o MAE em mais de 50%. Este estudo concluiu que 

o uso de LSTM pode melhorar significativamente a previsão da produção de energia 

com base em dados meteorológicos. 

Ainda no contexto de comparação de modelos de inteligência artificial, 

WENTZ et al. (2022) compararam RNA, SVM e LSTM na previsão da produção de 

energia fotovoltaica. Os resultados mostraram que o modelo LSTM teve o melhor 

desempenho, apresentando um erro médio percentual absoluto (MAPE) 1,63% menor 

do que os demais modelos testados. 

Além disso, as abordagens híbridas têm se tornado uma tendência 

promissora para a previsão de energia fotovoltaica, combinando múltiplas técnicas 

para aprimorar a precisão. Essas abordagens mesclam métodos estatísticos e 

algoritmos de inteligência artificial para capturar uma gama mais ampla de variáveis e 

padrões. Segundo XIAO et al. (2023), o uso de técnicas híbridas está ganhando 

popularidade devido à sua capacidade de lidar de maneira mais eficaz com a 

complexidade e a incerteza, resultando em previsões mais precisas para o 

planejamento e operação dos sistemas de energia fotovoltaica. 

Na última década, vários estudos têm explorado diferentes arquiteturas de 

redes neurais e variáveis de entrada, utilizando séries temporais de dados 

meteorológicos e de produção fotovoltaica (BLAGA et al., 2019; NESPOLI et al., 

2019). Algumas pesquisas também se concentram na identificação de variáveis 

essenciais para melhorar as previsões. No estudo de QUANG et al., (2021), foram 

utilizados dados meteorológicos, como radiação solar, temperatura e velocidade do 

vento, como entrada para uma rede LSTM. Apesar disso, o erro médio absoluto 

normalizado (NMAE) ainda foi de 5,6%, indicando o desafio contínuo de prever com 

exatidão a capacidade de geração de energia. 

Em resumo, a revisão da literatura evidencia a evolução das técnicas de 

previsão de energia fotovoltaica, com destaque para os métodos baseados em 

inteligência artificial, como redes neurais e aprendizado profundo. Esses métodos têm 


29 

demonstrado superioridade em termos de precisão e eficiência em comparação com 

abordagens estatísticas tradicionais. Com a crescente disponibilidade de dados e o 

avanço das técnicas de inteligência artificial, espera-se que a previsão da produção 

de energia fotovoltaica continue a melhorar, oferecendo suporte valioso ao 

planejamento e à operação de sistemas de energia renovável. 

A Figura 3 resume a evolução das abordagens para a previsão de energia 

fotovoltaica ao longo do tempo, destacando que as técnicas de inteligência artificial 

têm se tornado as mais utilizadas. Dado que os modelos de LSTM tem sido 

amplamente utilizados, inclusive nas abordagens híbridas, optou-se por explorar essa 

abordagem neste trabalho. 

 
Figura 3 – Evolução das abordagens 

 
Fonte: Elaborado pelo autor (2023). 

 
3.3 Abordagens LSTM 

 
As RNNs são uma classe de redes neurais que possuem conexões 

retroalimentadas, permitindo que informações anteriores sejam mantidas e 

influenciem nas estimativas futuras. Esse tipo de arquitetura é amplamente utilizado 


30 

em tarefas de processamento de sequências, como processamento de linguagem 

natural, reconhecimento de fala, visão computacional, previsões em dados históricos 

(GAO et al., 2019). A Figura 4 mostra a diferença entre as RNAs e as RNNs, 

evidenciando a presença de retroalimentação nas RNNs. 

 
Figura 4 – Diferença entre a RNA e RNN 

 
Fonte: Elaborado pelo autor (2023). 

 
As RNNs têm a capacidade de modelar dependências temporais 

sequenciais. Elas mantêm uma “memória” interna, o que significa que as informações 

podem ser mantidas e processadas ao longo do tempo. As RNNs convencionais, 

como as redes de Elman e as redes de Jordan (DAS et al., 2021), enfrentam desafios 

ao trabalhar com dados de longo prazo, como no caso da previsão da produção de 

energia fotovoltaica, que requer uma série histórica extensa para o treinamento do 

modelo. Essas redes podem perder informações relevantes em sequências longas, o 

que prejudica a capacidade de modelar dependências temporais (NGUYEN et al., 

2021; GAO et al., 2019). 

Durante o treinamento dessas RNNs convencionais, o gradiente, uma 

medida que indica como a função de perda se altera em resposta a mudanças nos 

pesos, é calculado utilizando o algoritmo de retropropagação através do tempo. Esse 

gradiente é essencial para ajustar os pesos da rede, que é alimentada com uma 

sequência de entrada, permitindo que o erro gerado na saída seja propagado de volta 

para treinar a rede (QUANG et al., 2021). 


31 

Os desafios que as RNNs convencionais podem enfrentar está relacionado 

com o problema do desaparecimento do gradiente. Esse fenômeno ocorre quando os 

pesos mais antigos da sequência se tornam extremamente pequenos à medida que 

são retropropagados através do tempo, o que pode resultar em uma convergência 

lenta ou até mesmo na estagnação do treinamento. Por outro lado, essas redes 

também podem enfrentar o problema da explosão do gradiente, onde os gradientes 

se tornam excessivamente grandes, causando instabilidade no processo de 

treinamento. Essas limitações tornam difícil para as RNNs convencionais modelarem 

efetivamente dados com dependências de longo alcance. 

A LSTM foi proposta pela primeira vez por Hochreiter e Schmidhuber em 

1997 (LI et al., 2020), sendo uma arquitetura de RNN desenvolvida para mitigar essas 

limitações. A LSTM introduz uma unidade de memória de longo prazo, que permite 

que a rede aprenda e armazene informações por períodos mais longos (SHARMA et 

al., 2022). A LSTM possui portas que controlam o fluxo de informações na unidade de 

memória, permitindo que decida quais informações manter, esquecer e atualizar, além 

de regular os gradientes evitando variações extremas. Isso permite o aprendizado de 

padrões temporais complexos, como por exemplo, a variação nas produções de 

energia fotovoltaica em relação a estação do ano (ZAMAN et al., 2021; LIMOUNI et 

al., 2023; GAO et al., 2019). 

No contexto das previsões de produção de energia fotovoltaica, a LSTM é 

capaz de capturar fatores sazonais, tendências de longo prazo e padrões recorrentes, 

o que a torna especialmente útil para previsões mais distantes, onde a análise de 

tendências é essencial. Essa habilidade permite que o modelo considere diversos 

elementos que influenciam a produção de energia, aprimorando a precisão das 

estimativas (QUANG et al., 2021). 

Além disso, a LSTM se destaca por sua capacidade de se adaptar a 

mudanças nos padrões de dados ao longo do tempo, o que é crucial em previsões de 

longo prazo, onde fatores como condições meteorológicas e características dos 

sistemas de energia podem evoluir. A LSTM ajusta seus parâmetros com base nos 

dados mais recentes, garantindo que as previsões estejam atualizadas e reflitam as 

condições vigentes (WANG et al., 2023). 

 
32 

3.3.1 Componentes de Estado da Célula 

 
A LSTM possui dois componentes de estado: estado da célula e estado 

oculto, que percorrem caminhos diferentes, e são ilustrados na Figura 5. 

a) Estado da célula – funciona como um canal de comunicação ao longo 

da sequência de dados, carregando informações ao longo do tempo. Ele 

é utilizado para memórias de longo prazo e consiste em uma série de 

células de memória que mantêm informações relevantes ao longo da 

sequência de entrada. Essas células de memória podem armazenar e 

recuperar informações com base nas regras aprendidas durante o 

treinamento da rede. O estado da célula é modificado e atualizado 

continuamente, com informações relevantes sendo adicionadas ou 

removidas através das operações das portas da LSTM; 

b) Estado oculto – é a saída gerada pela LSTM em cada etapa de tempo. 

Ele representa a memória de curto prazo do modelo e é uma versão 

processada do estado da célula, que é passada para a próxima etapa 

de tempo ou utilizada para gerar a saída da rede. O estado oculto 

captura informações essenciais sobre o contexto da entrada atual e 

integra dados relevantes das etapas de tempo anteriores. Além disso, 

ele pode ser empregado em tarefas específicas, como classificação ou 

previsão, fornecendo uma representação condensada e atualizada do 

que a rede "lembra" a cada momento. 

 
Figura 5 – Componentes de estado: estado da célula e estado oculto 

 
Fonte: Modificada a partir de AHMED et al., 2022. 

 
33 

Embora a memória de longo prazo possa ser ajustada por meio de 

operações de multiplicação e adição (conforme ilustrado na Figura 6, no retângulo 

tracejado em azul), não há pesos ou vieses que possam modificá-la diretamente. A 

ausência de pesos permite que a memória de longo prazo flua através de uma série 

de unidades conectadas sem causar a explosão ou o desaparecimento do gradiente. 

 
Figura 6 – Estado da célula 

 
Fonte: Modificada a partir de AGGA et al., 2022. 

Legenda: 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 

𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função 

tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡  é a porta de 

esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡  é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 

𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. 

 
O caminho inferior, delimitado pelo retângulo tracejado em azul na Figura 

7, representa o estado oculto, que encapsula as memórias de curto prazo. Essas 

memórias estão diretamente associadas aos pesos e vieses que podem modificá-las 

(YANG et al., 2022). 

 
34 

Figura 7 – Estado oculto 

 
Fonte: Modificada a partir de AGGA et al., 2022. 

Legenda: 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 

𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função 

tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡  é a porta de 

esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡  é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 

𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. 

 
3.3.2 Portas na Arquitetura LSTM 

 
A LSTM possui três portas principais: a porta de entrada, a porta de saída 

e a porta de esquecimento (LI et al., 2020; SHARMA et al., 2022). Essas portas são 

fundamentais para controlar o fluxo de informações dentro da célula de memória, 

permitindo que a LSTM mantenha e atualize informações ao longo do tempo. Essa 

capacidade é crucial para o processamento de séries temporais extensas e para 

capturar dependências temporais de longo prazo (LI et al., 2020). 

a) Porta de esquecimento (𝒇𝒕) – decide quais informações devem ser 

descartadas do estado da célula. Utilizando uma função de ativação 

sigmoide 𝜎, gera valores entre 0 e 1 para cada elemento do estado da 

célula anterior, indicando a quantidade de informação a ser esquecida. 


35 

A decisão é baseada na saída concatenada do módulo anterior e na 

entrada atual (LI et al., 2020; SHARMA et al., 2022; ASGHAR et al., 

2022); 

b) Porta de entrada (𝒊𝒕) – determina quais informações novas da entrada 

atual devem ser adicionadas ao estado da célula. A função de ativação 

sigmoide 𝜎 gera valores entre 0 e 1 para cada elemento da entrada, 

refletindo a relevância das informações a serem armazenadas. Esses 

valores são então combinados com candidatos a serem incluídos na 

memória (LI et al., 2020; SHARMA et al., 2022; ASGHAR et al., 2022); 

c) Porta de saída (𝒐𝒕) – define quais partes do estado da célula devem ser 

utilizadas como saída no momento atual. Primeiro, uma função de 

ativação sigmoide 𝜎 determina as partes do estado da célula a serem 

expostas. Em seguida, o estado da célula é passado por uma função de 

ativação tangente hiperbólica 𝑡𝑎𝑛ℎ e multiplicado pelo resultado do 

portão de saída, resultando na saída da célula naquele instante (LI et al., 

2020; SHARMA et al., 2022; ASGHAR et al., 2022). 

 
3.3.3 Etapas de Cálculo na LSTM 

 
Na arquitetura LSTM, cada célula realiza três etapas principais durante o 

processo de computação: esquecer, lembrar e atualizar. Essas etapas permitem que 

a LSTM aprenda e mantenha informações relevantes ao longo do tempo, o que é 

crucial para lidar com sequências de dados longas. 

A etapa de esquecer decide quais informações do estado da célula devem 

ser descartadas. A etapa de lembrar determina quais novas informações devem ser 

adicionadas à memória. Finalmente, a etapa de atualizar ajusta o estado da célula 

com base nas informações retidas e nas novas entradas. Essas etapas permitem que 

a LSTM mantenha informações importantes e ignore dados irrelevantes, o que é 

especialmente útil em tarefas como processamento de linguagem natural e previsão 

de séries temporais. 

Os valores calculados em cada etapa, conforme ilustrado na Figura 8, são 

usados para atualizar o estado da célula, que representa a memória de longo prazo. 


36 

Figura 8 – Etapas de cálculo na LSTM 

 
Fonte: Modificada a partir de AGGA et al., 2022. 
Legenda: 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 

𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função 

tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡  é a porta de 

esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡  é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 

𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. 

 
Na primeira etapa (ver Figura 9), a porta de esquecimento 𝑓𝑡 é calculada 

para decidir quais informações antigas na célula de memória devem ser mantidas ou 

descartadas com base na entrada atual e no estado anterior. Inicialmente, a entrada 

atual 𝑥𝑡 e o estado anterior ℎ𝑡−1 são concatenados em um único vetor [𝑥𝑡 , ℎ𝑡−1]. Uma 

camada totalmente conectada, geralmente implementada como uma multiplicação de 

matriz, é aplicada ao vetor concatenado para calcular os valores de ativação. O cálculo 

do portão de esquecimento é dado por: 

 
𝑓𝑡 =  𝜎(𝑊𝑓 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑓)                                                                                                 (1) 

 
onde 𝑊𝑓 é a matriz de pesos associada à entrada e ao estado anterior para a porta 

de esquecimento; 𝑏𝑓 é o vetor de vieses para a porta de esquecimento; e 𝜎 é a função 


37 

de ativação sigmoide, que comprime os valores entre 0 e 1. Os valores obtidos 

representam as proporções das informações antigas que devem ser mantidas ou 

esquecidas. O valor do portão de esquecimento é então multiplicado elemento por 

elemento com o estado da célula anterior 𝐶𝑡−1 conforme mostrado em: 

 
𝐶′𝑡 =  𝑓𝑡 . 𝐶𝑡−1                                                                                                                            (2) 

 
Isso significa que, se o valor do portão de esquecimento estiver próximo de 

1, a informação da célula de memória anterior será mantida. Se estiver próximo de 0, 

a informação será descartada (NGUYEN et al., 2021), conforme ilustrado na Figura 9. 

 
Figura 9 – Primeira etapa do cálculo 

 
Fonte: Modificada a partir de HUANG et al., 2019. 

Legenda: 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 é a memória do vetor para curto prazo; 𝑐𝑡−1 e 𝑐′𝑡−1 são 

as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; x é onde ocorre a multiplicação; 

𝑓𝑡  é a porta de esquecimento; e 𝑊𝑓, são os pesos e vieses aprendidos durante o treinamento. 

 
38 

Na segunda etapa (ver Figura 10), a porta de entrada 𝑖𝑡, determina quais 

novas informações devem ser incorporadas ao estado da célula com base na entrada 

atual e no estado anterior. Uma camada é aplicada ao vetor concatenado para calcular 

os valores de ativação, conforme descrito em: 

 
𝑖𝑡 =  𝜎(𝑊𝑖 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑖)                                                                                               (3) 

 
onde 𝑊𝑖 é a matriz de pesos associada à entrada e ao estado anterior para a porta de 

entrada; 𝑏𝑖 é o vetor de vieses para a porta de entrada; e 𝜎 é a função de ativação 

sigmoide, que comprime os valores entre 0 e 1. Em seguida, um novo candidato para 

o estado da célula, �̃�𝑡, é calculado aplicando a função tangente hiperbólica 𝑡𝑎𝑛ℎ, 

conforme mostrado em: 

 
�̃�𝑡 = tanh (𝑊𝑐 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑐)                                                                                                     (4) 

 
onde 𝑊𝑐 é a matriz de pesos associada à entrada e ao estado anterior para o estado 

candidato; 𝑏𝑐 é o vetor de vieses para o estado candidato; e 𝑡𝑎𝑛ℎ é a função tangente 

hiperbólica, que gera valores entre -1 e 1. 

O estado da célula é atualizado combinando a porta de entrada 𝑖𝑡 e o 

estado candidato �̃�𝑡 com o estado da célula anterior 𝐶𝑡−1, como descrito em: 

 
𝐶𝑡 =  𝑖𝑡 . �̃�𝑡 +  𝑓𝑡 . 𝐶𝑡−1                                                                                                                 (5) 

 
Isso significa que a porta de entrada controla quanto da informação 

candidata deve ser adicionada ao estado da célula, enquanto a porta de esquecimento 

determina a quantidade de informações antigas a ser retida. Esse processo é 

totalmente ilustrado na Figura 10 (NGUYEN et al., 2021). 

 
39 

Figura 10 – Segunda etapa do cálculo 

 
Fonte: Modificada a partir de HUANG et al., 2019. 

Legenda: onde 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 é a memória do vetor para curto prazo; 𝑐′𝑡−1 e 𝑐𝑡 

são as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; 𝑡𝑎𝑛ℎ é a função tangente 

hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑖𝑡 é a porta de entrada; e 𝑊𝑖 e 

𝑊𝑓 são os pesos e vieses aprendidos durante o treinamento. 

 
A última etapa (ver Figura 11) em uma unidade LSTM envolve o cálculo da 

porta de saída 𝑜𝑡, que determina quais partes do estado da célula devem ser expostas 

como saída, com base na entrada atual e no estado anterior. Uma camada é então 

aplicada ao vetor concatenado para calcular os valores de ativação, conforme 

mostrado em: 

 
𝑜𝑡 =  𝜎(𝑊𝑜. [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑜)                                                                                               (6) 

 
onde 𝑊𝑜 é a matriz de pesos associada à entrada e ao estado oculto anterior para o 

portão de saída; 𝑏𝑜 é o vetor de vieses para a porta de saída; e 𝜎 é a função de 

ativação sigmoide, que comprime os valores entre 0 e 1. O estado atual da célula 𝐶𝑡 

é passado pela função de ativação tangente hiperbólica 𝑡𝑎𝑛ℎ, que restringe seus 

valores entre -1 e 1, conforme visto em: 


40 

ℎ𝑡 =  𝑜𝑡 . tanh (𝐶𝑡)                                                                                                                     (7) 

 
Neste passo, o estado atual da célula 𝐶𝑡 é multiplicado pelo valor da porta 

de saída 𝑜𝑡, controlando assim quanto da informação da célula deve ser transmitida 

como saída. A porta de saída permite que a unidade decida quais partes do estado 

da célula atual são mais relevantes para a saída e regula a quantidade de informação 

que é efetivamente transmitida. Esse mecanismo é crucial para a geração de 

previsões ou para a extração de informações relevantes das sequências de entrada, 

garantindo que apenas as informações mais significativas sejam utilizadas na próxima 

etapa de processamento (NGUYEN et al., 2021). O processo total está na Figura 11. 

 
Figura 11 – Terceira etapa do cálculo 

 
Fonte: Modificada a partir de HUANG et al., 2019. 

Legenda: onde 𝑥𝑡  é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 

𝑐𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; 𝑡𝑎𝑛ℎ é a função 

tangente hiperbólica; x é onde ocorre a multiplicação; 𝑜𝑡  é a porta de saída; e 𝑊𝑜 são os pesos e 

vieses aprendidos durante o treinamento. 

 
41 

 Na Figura 11, o ℎ𝑡 representa a saída da célula LSTM em um 

determinado instante de tempo. O ℎ𝑡 é o estado oculto, ou seja, a memória que a 

célula LSTM retém naquele momento, contendo informações sobre o que foi 

aprendido até aquele ponto da sequência. Esse estado é responsável por capturar 

padrões de longo prazo nas entradas. Além do estado oculto, a LSTM também 

mantém o estado da célula, chamado de 𝐶𝑡, que armazena a memória interna da 

célula. Esse estado é controlado pelas três portas da LSTM. 

O ℎ𝑡 é passado para o próximo instante de tempo da rede, permitindo que 

a LSTM continue e transfira a memória das informações processadas ao longo da 

sequência. Isso possibilita que a rede capture dependências de longo prazo e 

contextualize as entradas atuais com as informações já processadas. Ao ser copiado 

"para cima", o ℎ𝑡 é enviado para a próxima célula da LSTM e pode ser utilizado como 

entrada para outros componentes da arquitetura da rede neural. 

Além disso, o ℎ𝑡 é usado para gerar a saída imediata da rede, que é 

produzida de forma sequencial. O ℎ𝑡 contém dados sobre o estado atual da sequência 

processada, sendo essencial para calcular as saídas em cada passo da rede. 

 
3.4 Avaliação do Resultado 

 
A avaliação do desempenho de métodos de previsão é fundamental para 

determinar o quão próximo o valor previsto está do valor real. As métricas mais 

utilizadas para essa avaliação incluem o erro médio quadrático (MSE), a raiz quadrada 

do erro médio quadrático (RMSE) e o erro médio absoluto (MAE). A seguir, cada uma 

dessas métricas é detalhada. 

O MSE é uma métrica amplamente utilizada para avaliar o desempenho de 

modelos de regressão. Ele calcula a média dos quadrados das diferenças entre os 

valores previstos pelo modelo e os valores reais (AHMED et al., 2020). A expressão 

do MSE é dada por: 

 
𝑀𝑆𝐸 =
1

𝑛
∑ (𝑦𝑖 − �̂�𝑖)2𝑛

𝑖=1                                                                                                    (8) 

 
42 

onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real do 𝑖; �̂�𝑖 

é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos 

de dados no conjunto de teste. O MSE possui as seguintes características: 

a) Evidencia os erros grandes – por elevar as diferenças ao quadrado, o 

MSE evidencia os erros maiores, tornando-o sensível a valores 

discrepantes (outliers); 

b) Unidades ao quadrado – os resultados do MSE estão em unidades ao 

quadrado, o que pode dificultar a interpretação direta; 

c) Média das diferenças ao quadrado – o MSE fornece uma média dos 

erros ao quadrado, dividida pelo número total de pontos de dados, 

tornando-o alheio ao tamanho do conjunto de dados; 

d) Interpretação direta – um valor menor de MSE indica que o modelo 

está fazendo previsões mais precisas. 

O RMSE é uma métrica derivada do MSE, mas é mais intuitiva, pois fornece 

o erro médio em unidades originais dos dados (AHMED et al., 2020). A expressão do 

RMSE é dada por: 

 
𝑅𝑀𝑆𝐸 = √
1

𝑛
∑ (𝑦𝑖 − �̂�𝑖)2𝑛

𝑖=1                                                                                              (9) 

 
onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real do 𝑖; �̂�𝑖 

é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos 

de dados no conjunto de teste. O RMSE possui as seguintes características: 

a) Unidades originais – o RMSE expressa o erro nas mesmas unidades 

dos dados, facilitando a interpretação; 

b) Sensibilidade a valores discrepantes – assim como o MSE, o RMSE 

é sensível a valores discrepantes; 

c) Interpretação direta – um valor menor de RMSE indica um melhor 

ajuste do modelo aos dados reais. 

O MAE mede a média das diferenças absolutas entre os valores previstos 

e os valores reais, sem considerar a direção do erro (subestimação ou 

superestimação) (AHMED et al., 2020). A expressão do MAE é dada por: 

 
43 

𝑀𝐴𝐸 =
1

𝑛
∑ |𝑦𝑖 − �̂�𝑖|𝑛

𝑖=1                                                                                                               (10) 

 
onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real de 𝑖; �̂�𝑖 

é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos 

de dados no conjunto de teste. O MAE possui as seguintes características: 

a) Robustez a valores discrepantes – o MAE é menos sensível a valores 

discrepantes em comparação com o MSE e o RMSE, pois não envolve 

a elevação ao quadrado das diferenças; 

b) Igualdade de peso para todos os erros – ao contrário do MSE e do 

RMSE, o MAE trata todos os erros de forma igual, sem evidenciar os 

erros maiores; 

c) Interpretação direta – o MAE fornece uma medida direta e fácil de 

interpretar da média dos erros, em unidades originais dos dados. 

A escolha entre MSE, RMSE e MAE depende dos objetivos específicos da 

análise e das características dos dados. O MSE e o RMSE são adequados quando se 

deseja evidenciar erros maiores, enquanto o MAE oferece uma avaliação mais 

equilibrada, menos influenciada por valores discrepantes. Utilizar essas três métricas 

em conjunto proporciona uma visão mais abrangente do desempenho do modelo, 

permitindo uma avaliação mais completa de diferentes aspectos dos erros de 

previsão. Essas métricas foram aplicadas neste trabalho para analisar a previsão de 

produção de energia fotovoltaica, oferecendo uma compreensão detalhada de como 

o modelo se comporta em termos de diferentes tipos de erros. 

 
3.5 Hiperparâmetros da LSTM 

 
A LSTM possui hiperparâmetros que precisam ser configurados antes do 

treinamento, influenciando como a rede aprende e generaliza os dados. Esses 

hiperparâmetros podem ser ajustados conforme o problema específico e os dados 

utilizados para treinar a LSTM. Encontrar a combinação ideal muitas vezes requer 

experimentação e ajuste fino (fine-tuning). 

No modelo de LSTM, uma única camada é mais simples e fácil de treinar, 

porém múltiplas camadas podem lidar melhor com tarefas complexas. Portanto, para 


44 

capturar padrões mais complexos e dependências de longo prazo nos dados, é 

necessário considerar a variação na quantidade de camadas. No entanto, deve-se ter 

cuidado ao aumentar a quantidade de camadas, pois pode-se elevar os requisitos 

computacionais e o risco de sobreajuste (overfitting) (WANG et al., 2019). 

Variar a quantidade de neurônios em cada camada é essencial para 

otimizar o desempenho de modelos LSTM. Ao lidar com tarefas simples, um menor 

número de neurônios é a melhor escolha, pois isso simplifica o modelo, acelera o 

treinamento e reduz a probabilidade de sobreajuste em conjuntos de dados pequenos 

(WANG et al., 2019). No entanto, ao trabalhar com dados de alta dimensionalidade, 

um número maior de neurônios é mais adequado, pois aumenta a capacidade da rede 

de aprender com os dados e capturar padrões e relações mais complexas. 

O abandono (dropout) é uma técnica de regularização usada para evitar 

sobreajuste em redes neurais. Ele funciona "desativando" aleatoriamente uma fração 

dos neurônios durante o processo de treinamento, o que ajuda a evitar que o modelo 

dependa demais de neurônios específicos, melhorando assim a capacidade de 

generalização (ZAMAN et al., 2021). Se a taxa de abandono for 0, todos os neurônios 

são usados; se for 1, todos os neurônios são desativados, o que impossibilitaria o 

modelo de aprender. Com uma taxa baixa de abandono, a maioria dos neurônios é 

mantida, permitindo que o modelo aprenda padrões mais específicos dos dados de 

treinamento, mas isso pode levar ao sobreajuste. Com uma taxa de abandono alta, o 

modelo é bem regularizado, ficando mais robusto contra sobreajuste, mas uma taxa 

muito alta pode causar subajuste, que ocorre quando um modelo é muito simples para 

capturar a complexidade dos dados. Isso significa que o modelo não consegue 

aprender o suficiente dos padrões presentes nos dados, resultando em um 

desempenho ruim tanto no conjunto de treinamento quanto no conjunto de teste 

(ZAMAN et al., 2021). 

A normalização em lote (batch normalization) ajusta e escala as entradas 

de uma camada para cada minilote, o que ajuda a mitigar problemas com o gradiente, 

permite taxas de aprendizado mais altas e melhora tanto a eficiência do treinamento 

quanto a capacidade de generalização do modelo. Por isso, é relevante testar o tempo 

de execução e as métricas de erro com e sem essa técnica (ASGHAR et al., 2022). 

Adicionar mais camadas densas pode permitir que a rede LSTM aprenda 

características cada vez mais complexas e hierárquicas dos dados. Cada camada 

pode extrair características da saída da camada anterior, resultando em 


45 

representações mais ricas e abstratas. Isso ajudará a melhorar o desempenho em 

tarefas complexas e a aumentar a capacidade do modelo de fazer previsões precisas. 

No entanto, embora mais camadas possam aprimorar o aprendizado, também 

aumentam o risco de sobreajuste, especialmente em conjuntos de dados pequenos. 

Portanto, é necessário testar diferentes quantidades de camadas densas para 

encontrar o equilíbrio ideal entre complexidade do modelo e desempenho (WANG et 

al., 2019). 

As funções de ativação introduzem a não linearidade na rede, permitindo 

que ela aprenda e represente padrões complexos. Na camada densa ao final de uma 

rede LSTM, a escolha da função de ativação impacta diretamente na saída final e, 

consequentemente, o desempenho do modelo na previsão. Existem diferentes 

funções de ativação, tais como: 

a) Sigmoide – comprime os valores de entrada para uma faixa entre 0 e 1, 

sendo adequada para tarefas de classificação binária; 

b) Tanh – mapeia os valores de entrada para uma faixa entre -1 e 1, 

fornecendo saídas centradas em 0; 

c) ReLU – retorna o valor de entrada diretamente se for positivo ou zero, e 

retorna zero se for negativo, o que ajuda a reduzir o número de ativações 

e a mitigar o problema do gradiente que desaparece; 

d) Leaky ReLU – semelhante à ReLU, mas com uma inclinação pequena 

para valores negativos, evitando que neurônios "morram"; 

e) Softmax – converte os valores de previsão em probabilidades, 

garantindo que a soma seja igual a 1, sendo útil para problemas de 

classificação com múltiplas classes. 

O mecanismo de atenção permite que um modelo se concentre 

dinamicamente em partes específicas da sequência de entrada, atribuindo pesos 

diferentes aos elementos com base em sua relevância para a previsão. Isso ajuda o 

modelo a priorizar informações importantes e ignorar detalhes menos relevantes. 

Portanto, o impacto do uso do mecanismo de atenção e da ausência dele deve ser 

experimentado na rede LSTM, incluindo o tempo de execução e as métricas de erro. 

Variar o valor do horizonte temporal (timestep) pode explorar como 

diferentes comprimentos de sequência afetam o desempenho do modelo (AKHTER et 

al., 2022). Horizontes temporais mais curtos podem ser suficientes para tarefas com 


46 

dependências de curto prazo, enquanto horizontes temporais mais longos são 

necessários para capturar dependências de longo prazo (LI et al., 2023). 

O otimizador é um algoritmo usado para ajustar os pesos dos neurônios em 

redes neurais como as LSTMs, com o objetivo de minimizar a função de perda 

(NGUYEN et al., 2021). Existem diferentes otimizadores, como: 

a) RMSprop – o RMSprop (Root Mean Square Propagation) ajusta a taxa 

de aprendizado para cada parâmetro dividindo pela média recente dos 

quadrados dos gradientes para cada peso. Este otimizador é eficaz para 

problemas de otimização com variações nos gradientes (NGUYEN et al., 

2021); 

b) AdaGrad – o AdaGrad (Adaptive Gradient Algorithm) ajusta a taxa de 

aprendizado individualmente para cada parâmetro, com base na 

frequência e na magnitude dos gradientes passados (NGUYEN et al., 

2021); 

c) Adam – o Adam (Adaptive Moment Estimation) combina as vantagens 

do AdaGrad e do RMSprop, adaptando a taxa de aprendizado para cada 

parâmetro e utilizando momentos da média e da variância do gradiente. 

Este otimizador proporciona uma convergência mais rápida e estável 

(NGUYEN et al., 2021); 

d) SGD – o SGD (Stochastic Gradient Descent) atualiza os pesos usando 

a média das derivadas parciais da função de perda em um pequeno lote 

de dados. Este otimizador é simples e eficiente, mas pode enfrentar 

dificuldades com platôs e mínimos locais (NGUYEN et al., 2021). 

O otimizador tem uma taxa de aprendizado como parâmetro. Caso a taxa 

de aprendizado seja muito alta, o modelo pode não conseguir convergir para um 

mínimo global, resultando em oscilações nos valores da perda e até em falhas no 

treinamento. Por outro lado, uma taxa de aprendizado muito baixa pode fazer com que 

o processo de otimização seja extremamente lento, além de aumentar o risco de 

ajuste insuficiente (underfitting). No caso específico da rede LSTM, uma taxa 

moderada permite que o modelo aprenda de forma gradativa, evitando saltos 

excessivos no ajuste dos pesos e garantindo uma maior precisão nas previsões. Essa 

configuração busca otimizar o desempenho da rede ao longo das épocas de 

treinamento, garantindo uma convergência suave e eficiente, sem comprometer a 

capacidade do modelo de generalizar para novos dados. 


47 

A função de perda quantifica a diferença entre as saídas previstas do 

modelo LSTM e os valores reais alvo. Durante o treinamento, a função de perda 

fornece um sinal que orienta o algoritmo de otimização, como o Adam, sobre como 

ajustar os pesos do modelo. O objetivo do treinamento é minimizar essa perda, 

melhorando assim a precisão e o desempenho do modelo (NGUYEN et al., 2021; 

ASGHAR et al., 2022). Diferentes funções de perda podem levar a características 

distintas de desempenho do modelo, como a velocidade de convergência e a 

estabilidade do processo de treinamento. Portanto, é importante experimentar as 

funções de perda para determinar qual delas oferece os melhores resultados para a 

previsão (NGUYEN et al., 2021; ASGHAR et al., 2022). Existem diferentes funções de 

perda, como o MSE, o MAE e a Perda por Entropia Cruzada (Cross-Entropy Loss). 

A função de métricas na LSTM é essencial para monitorar o desempenho 

do modelo durante o treinamento. Elas podem fornecer informações sobre o quão bem 

o modelo está aprendendo os dados e se aprimorando ao longo das épocas. Após o 

treinamento, as funções de métricas ajudam na avaliação do modelo em conjuntos de 

validação e teste. Para as previsões e os conjuntos de dados em questão, considerou-

se apenas as funções de métricas que fazem sentido em um contexto de regressão e 

que podem ser usadas diretamente na biblioteca Keras, como as funções de métricas 

MSE, RMSE e MAE, ao invés das funções de métricas de classificação. 

O tamanho do lote (batch size) é um hiperparâmetro importante no 

treinamento de modelos LSTM, pois define o número de exemplos de treinamento 

utilizados em uma iteração do processo de aprendizado (AHMED et al., 2022). A 

velocidade de treinamento pode ser influenciada pelo tamanho do lote: tamanhos 

maiores tendem a aproveitar de forma mais eficiente as capacidades de 

processamento paralelo do hardware, resultando em um tempo de computação mais 

rápido por época, pois com lotes maiores, mais exemplos de dados são processados 

simultaneamente. As operações em muitos dados são realizadas em paralelo ao 

mesmo tempo, maximizando a utilização do hardware. 

Em contrapartida, tamanhos menores podem resultar em um treinamento 

mais lento por época, mas têm o potencial de convergir mais rapidamente ao longo 

de várias iterações (AHMED et al., 2022). Com tamanhos de lote menores, menos 

exemplos de dados são processados ao mesmo tempo. Isso significa que a 

capacidade de processamento paralelo do hardware não é utilizada de forma 

otimizada, resultando em um desempenho geral mais lento. 


48 

O processamento paralelo em modelos de aprendizado de máquina, como 

as LSTMs, é uma técnica que permite realizar múltiplas operações simultaneamente, 

o que acelera o treinamento e a inferência. Há diversas formas pelas quais esse 

processamento paralelo é implementado, como por exemplo o uso de unidades de 

processamento gráfico (GPU) e unidades de processamento tensor (TPU). 

As GPUs são projetadas para realizar operações matemáticas em paralelo, 

tornando-as ideais para treinar modelos de aprendizado profundo. Elas possuem 

muitos núcleos de processamento que podem lidar com várias operações 

simultaneamente, como multiplicação de matrizes, que é comum em redes neurais. 

As TPUs são projetadas especificamente para operações de aprendizado 

de máquina. Elas otimizam o desempenho para tarefas envolvendo redes neurais, 

incluindo LSTMs, realizando operações em paralelo. 

Embora a atualização dos pesos em redes neurais é feita de forma 

sequencial, isso não significa que todos os aspectos do treinamento precisam ser 

sequenciais. Durante o treinamento, os pesos da rede neural são atualizados com 

base no erro calculado após a propagação da entrada. Essa atualização é realizada 

usando o algoritmo de otimização que ajusta os pesos com base no gradiente do erro 

em relação a cada peso. A atualização dos pesos ocorre após a passagem de um lote 

de dados pela rede. Portanto, mesmo que o cálculo dos gradientes seja feito em 

paralelo (para lotes maiores), a atualização dos pesos acontece uma vez por lote. Isso 

significa que, enquanto cada iteração pode ser processada em paralelo, as 

atualizações são feitas sequencialmente em relação aos lotes.  

Com lotes menores, há mais atualizações de pesos por época, pois o 

modelo atualiza os pesos após cada lote. Embora isso possa levar a uma 

convergência mais rápida em algumas circunstâncias (por conta das atualizações 

frequentes), também significa que cada atualização pode ser mais influenciada pelo 

ruído dos dados. Isso pode resultar em um caminho de otimização mais errático e 

potencialmente exigir mais épocas para convergir para uma solução estável. 

Com lotes maiores, há menos atualizações de pesos por época, mas cada 

atualização é baseada em uma estimativa mais robusta do gradiente, pois considera 

mais dados. Isso pode levar a um aprendizado mais estável, embora as atualizações 

sejam feitas com menos frequência. 

O consumo de memória também varia conforme o tamanho do lote: lotes 

maiores exigem mais memória, o que pode se tornar um fator limitante dependendo 


49 

das especificações do hardware. Por outro lado, lotes menores demandam menos 

memória, possibilitando o treinamento em hardware menos potente ou com modelos 

muito grandes (AHMED et al., 2022). 

Uma época (epoch) refere-se a uma passagem completa por todos os 

exemplos de treinamento, sendo sua principal função permitir que o modelo aprenda 

e refine seus parâmetros por meio de várias iterações sobre o conjunto de dados. 

Durante o processo de aprendizado, os pesos da rede neural são ajustados para 

minimizar a função de perda. Esse ajuste é feito através de múltiplas iterações, com 

cada época refinando os parâmetros do modelo (KUO et al., 2022). A quantidade de 

épocas pode impactar significativamente o desempenho final do modelo. Diferentes 

quantidades de épocas devem ser experimentadas para encontrar o equilíbrio ideal 

entre subajuste e sobreajuste (KUO et al., 2022). 

 
3.6 Coeficiente de Correlação 

 
Em uma rede neural podem existir diferentes descritores. Para analisar 

quais descritores são mais relevantes e quais são menos relevantes, serão calculados 

os coeficientes de correlação entre eles, que são medidas estatísticas que avaliam a 

intensidade e a direção da relação linear entre duas variáveis (NGUYEN et al., 2021), 

permitindo que se entenda o grau de associação entre eles. Existem alguns tipos de 

coeficiente de correlação, como por exemplo: 

a) Correlação de Spearman – mede caso duas variáveis mudam juntas 

de forma que, quando uma aumenta, a outra também aumenta ou 

diminui de maneira previsível, mesmo que essa mudança não seja 

perfeitamente linear. Em vez de comparar os valores exatos, ela 

compara a ordem em que os valores aparecem (SCHOBER et al., 2018); 

b) Correlação de Pearson – específico para medir relações lineares entre 

variáveis. Assume que os dados são aproximadamente normais e que 

existe uma relação linear (LI et al., 2020). 

No cenário de previsão de produção de energia fotovoltaica utilizando redes 

neurais recorrentes do tipo LSTM, o uso do coeficiente de correlação de Pearson pode 

ser aplicado para verificar a relação linear entre os valores previstos e os valores reais. 

No entanto, como as redes LSTM são projetadas para capturar padrões temporais 


50 

complexos e não necessariamente lineares, o coeficiente de Pearson pode não ser a 

métrica mais adequada de forma isolada (SCHOBER et al., 2018). 

A correlação de Spearman é particularmente útil quando as variáveis não 

seguem uma distribuição normal ou quando a relação entre elas não é estritamente 

linear. A expressão do coeficiente de correlação de Spearman é dada por: 

 
𝜌 = 1 −
6 ∑ 𝑑𝑖

2

𝑛(𝑛2−1)
                                                                                                                        (11) 

 
onde 𝜌 representa o coeficiente de correlação de Spearman, a variável 𝑑𝑖 é a 

diferença entre os postos (ranks) de cada par de observações, e o termo 𝑛 

corresponde ao número total de observações. As variáveis são convertidas em postos, 

e a diferença 𝑑𝑖 é calculada como a diferença entre o posto da variável 𝑥 e o posto da 

variável 𝑦. 

A soma dos quadrados das diferenças dos postos, ∑ 𝑑𝑖
2, reflete o quanto 

os pares de observações divergem em seus respectivos rankings. Quanto menor for 

essa soma, mais forte será a correlação monotônica entre as variáveis. Quando 𝜌 é 

igual a 1, há uma correlação positiva perfeita, indicando que as duas variáveis 

aumentam de forma consistente e proporcional. Quando 𝜌 é igual a -1, há uma 

correlação negativa perfeita, indicando que uma variável aumenta enquanto a outra 

diminui. Quando 𝜌 é próximo de 0, significa que não há uma relação monotônica entre 

as variáveis (SCHOBER et al., 2018). 

 
51 

4 METODOLOGIA 

 
Este capítulo detalha a metodologia utilizada na concepção e treinamento 

da rede neural recorrente LSTM para prever a produção de energia fotovoltaica com 

base em séries históricas e a comparação do uso de descritores no resultado da 

previsão. Será feito uma análise abrangente de todos os softwares e ferramentas 

utilizados no desenvolvimento do projeto, destacando o papel essencial das 

linguagens e frameworks empregados e será apresentada a discussão sobre a fonte 

de dados utilizada para treinar a rede LSTM, explorando suas características, 

limitações e disponibilidade. 

 
4.1 Ambiente de Desenvolvimento 

 
A pesquisa desenvolvida para esta dissertação envolveu a criação de uma 

rede neural do tipo LSTM para realizar previsões de produção de energia fotovoltaica. 

O ambiente de desenvolvimento utilizado foi o Google Colab, uma plataforma Python 

hospedada em nuvem. Durante o processo, várias bibliotecas foram utilizadas para a 

implementação e análise do modelo: 

a) NumPy – biblioteca para computação científica em Python. Ela oferece 

suporte para vetores e matrizes multidimensionais, além de uma coleção 

de funções matemáticas de alto desempenho para operar sobre esses 

vetores. No projeto, foi utilizada para converter DataFrames (estruturas 

de dados bidimensionais semelhantes a tabelas) em vetores NumPy, 

facilitando o processamento dos dados para a construção do conjunto 

de dados (dataset) e o treinamento do modelo; 

b) Matplotlib – biblioteca usada para criar visualizações gráficas, como 

gráficos de linhas, barras, dispersão, histogramas, entre outros. No 

projeto, foi empregada para gerar gráficos que ajudam a visualizar a 

produção de energia ao longo dos anos, as previsões em comparação 

com os valores reais, e o histórico de treinamento do modelo; 

c) Seaborn – biblioteca baseada no Matplotlib, que fornece uma interface 

de alto nível para criar visualizações estatísticas e informativas. No 


52 

projeto, foi usada para configurar o estilo e a paleta de cores dos 

gráficos, tornando as visualizações mais fáceis de interpretar; 

d) Pandas – utilizada para a manipulação e análise de dados. Ela oferece 

estruturas de dados rápidas, flexíveis e expressivas, como os 

DataFrames, que permitem trabalhar com dados tabulares de forma 

eficiente. No projeto, foi utilizada para carregar o conjunto de dados 

(dataset), realizar operações de manipulação, agrupamento, criação de 

novas colunas, e para organizar os resultados das previsões em 

DataFrames; 

e) Keras – biblioteca de alto nível para construção e treinamento de 

modelos de redes neurais, projetada para permitir experimentação 

rápida e eficiente. No projeto, foi utilizada para definir e treinar a rede 

neural LSTM, além de carregar e salvar modelos e calcular métricas de 

perda e desempenho; 

f) Scikit-learn – biblioteca de aprendizado de máquina que fornece 

ferramentas simples e eficientes para análise de dados e modelagem 

preditiva. No projeto, foi usada para calcular métricas de desempenho 

do modelo, como o MSE, RMSE e o MAE, ajudando a avaliar a precisão 

das previsões; 

g) PyLab – módulo que faz parte do Matplotlib e combina a funcionalidade 

do NumPy com a capacidade de gerar gráficos do Matplotlib. Ele fornece 

uma interface simplificada para trabalhar com gráficos e cálculos 

numéricos. No projeto, foi utilizado para ajustar as configurações de 

exibição dos gráficos, como o tamanho das figuras, proporcionando 

maior controle sobre a aparência das visualizações; 

h) Google Colab – Serviço hospedado do Jupyter Notebook do Google, 

para desenvolvimento na linguagem de programação Python. 

 
4.2 Fonte De Dados 

 
Existem várias fontes de dados gratuitas disponíveis que fornecem 

informações sobre a produção de energia fotovoltaica, como o NREL (centro de 

pesquisa e desenvolvimento financiado pelo governo federal dos EUA) e o Grupo 


53 

Fotovoltaica-UFSC no Brasil. Entretanto, após uma análise criteriosa dessas fontes, 

foi determinado que elas não atendem às necessidades específicas deste projeto. 

Embora ofereçam dados de produção de energia, esses conjuntos de dados 

apresentam diversas limitações: falta de uma série histórica extensa e contínua, alta 

quantidade de dados indisponíveis e, crucialmente, a ausência de dados 

meteorológicos, essenciais para treinar uma LSTM com os diferentes descritores. 

Devido a essas limitações, foi necessário buscar uma série histórica mais 

completa e adequada. Essa busca levou à escolha dos dados fornecidos pelo Desert 

Knowledge Australia Solar Centre (DKASC), localizado em Alice Springs, uma 

cidade remota no Território Norte da Austrália. Esses dados atendem melhor aos 

critérios do projeto, pois oferecem uma série histórica mais extensa e completa, com 

baixa incidência de indisponibilidade e a inclusão de dados meteorológicos, essenciais 

para o treinamento robusto do modelo. 

O complexo DKASC está operacional desde 2008, e abrange uma ampla 

variedade de tecnologias solares, proporcionando uma fonte rica e diversificada para 

o desenvolvimento do modelo. A Figura 12 ilustra a planta do complexo DKASC. 

 
Figura 12 – Planta do complexo DKASC 

 
Fonte: DKASC (2023). 

 
Conforme os termos e condições de uso dos dados fornecidos pelo 

complexo DKASC e pelo Projeto de Recursos Solares do Território do Norte, todos os 

dados produzidos por essas entidades estão protegidos por direitos autorais. Dessa 

forma, é imperativo que qualquer trabalho de pesquisa ou publicação que utilize esses 

dados inclua a seguinte declaração de isenção de responsabilidade: 

 
54 

Legal Disclaimer 

 
Desert Knowledge Australia, the Australian Government, the Northern 

Territory Government, and the project managers, Ekistica do not endorse, and accept 

no legal liability whatsoever arising from, or connected to, the outcomes and 

conclusions associated with the use of data from the Desert Knowledge Australia Solar 

Centre. (DKASC, 2023). 

 
Os dados foram coletados de um conjunto de módulos fotovoltaicos de 

silício monocristalino fabricados pela Trina Solar, uma empresa chinesa fundada em 

1997, que se dedica à fabricação, comercialização e pesquisa e desenvolvimento de 

produtos fotovoltaicos. No sistema em questão, os módulos estão interligados 

eletricamente em série e em paralelo, a fim de otimizar a combinação de suas saídas 

e maximizar a produção de energia. A configuração de interconexão permite que a 

corrente gerada por cada módulo seja somada, enquanto a tensão é ajustada 

conforme necessário para atender aos requisitos do sistema, resultando em uma 

eficiência aprimorada e uma geração de energia mais consistente. 

A Figura 13 ilustra uma imagem do conjunto instalado, enquanto a Tabela 

3 apresenta as especificações detalhadas da configuração do sistema. 

 
Figura 13 – Foto do conjunto 

 
Fonte: DKASC (2023). 


55 

Tabela 3 – Configurações do conjunto 

Fabricante Trina Solar 

Modelo TSM-175DC01 

Tipo de célula Silício monocristalino 

Capacidade de geração do conjunto 10,5kW 

Capacidade de geração de um painel 175W 

Quantidade de painéis 2 conjuntos de 30 painéis 

Área do conjunto 2 conjuntos com 38,37m² cada um 

Tipo do rastreador DEGERenergie 5000NT de duplo eixo 

Tamanho do inversor 2 inversores de 6kW cada um 

Fabricante do inversor SMA Solar Technology AG 

Tipo do Inversor SMC 6000A 

Data da Instalação 8 de Janeiro de 2009 

Inclinação em relação ao norte geográfico Variável. Rastreamento de duplo eixo 

Fonte: DKASC (2023). 

 
4.3 Detalhamento dos Dados 

 
O conjunto de dados obtido do complexo DKASC possui a seguinte 

característica: 

 
a) Primeiro registro – 01/01/2014 às 00:00; 

b) Último registro – 13/09/2023 às 06:15; 

c) Quantidade de leituras – 1.020.173 registros; 

d) Intervalo entre cada leitura – 5 minutos. 

 
O conjunto de dados possui as informações seguintes: 

 
a) Data e hora das leituras [mm/dd/aaaa hh:mm]; 

b) Potência fotovoltaica [kW]; 

c) Velocidade do vento resultante [m/s]; 

d) Temperatura ambiente [°C]; 


56 

e) Umidade relativa [%]; 

f) Radiação global horizontal [W/m²]; 

g) Radiação horizontal difusa [W/m²]; 

h) Direção do vento [°]; 

i) Precipitação diária [mm]; 

j) Radiação global inclinada [W/m²]; 

k) Radiação difusa inclinada [W/m²]. 

 
Após uma análise detalhada das informações contidas no conjunto de 

dados, verificou-se que algumas colunas não apresentavam uma quantidade 

suficiente de valores para garantir um treinamento adequado do modelo. Portanto, as 

colunas que foram mantidas no conjunto de dados são as seguintes: 

a) Data e hora das leituras [mm/dd/aaaa hh:mm]; 

b) Potência fotovoltaica [kW]; 

c) Temperatura ambiente [°C]; 

d) Umidade relativa [%]; 

e) Radiação global horizontal [W/m²]; 

f) Radiação horizontal difusa [W/m²]; 

g) Direção do vento [°]; 

h) Precipitação diária [mm]; 

i) Radiação global inclinada [W/m²]; 

j) Radiação difusa inclinada [W/m²]. 

 
O próximo passo foi explorar o intervalo de dados disponível no conjunto, 

com o objetivo de identificar o período com a menor quantidade de dados ausentes. 

Para isso, realizou-se uma reamostragem dos dados, calculando as médias diárias. 

Esse procedimento converteu os dados de uma frequência temporal menor (como 

leituras a cada 5 minutos) para uma frequência temporal maior (médias diárias). 

Em seguida, foi preparada uma lista de anos abrangendo todo o intervalo 

disponível, de 2013 a 2023. Depois de explorar os dados e selecionar as regiões onde 

há poucas falhas, utilizou-se dos dados a cada 5 minutos para treinar a rede. 

 
57 

4.4 Divisão Dos Dados 

 
Dividir os dados em conjuntos de treinamento, validação e teste é uma 

prática comum em aprendizado de máquina e é crucial para avaliar o desempenho do 

modelo de forma adequada. Essa divisão é feita para garantir que o modelo aprenda 

de maneira eficaz, generalize bem para novos dados e seja capaz de fornecer 

previsões confiáveis. Estudos recentes (GUTIÉRREZ et al., 2021; ZAMAN et al., 2021; 

NGUYEN et al., 2021) sugerem diferentes proporções de divisão: 

a) 70% para treinamento, 15% para validação e 15% para teste; 

b) 80% para treinamento, 10% para validação e 10% para teste. 

Com base nessas referências bibliográficas, para este trabalho, o conjunto 

de dados foi dividido em 80% para treinamento, 10% para validação e 10% para teste. 

Isso implica que 80% dos dados foram empregados para treinar o modelo, enquanto 

os 20% restantes foram reservados para avaliação do modelo. 

 
4.5 Definição dos Hiperparâmetros 

 
Na fase de experimentação dos hiperparâmetros para as redes LSTM, 

diversos parâmetros foram ajustados para encontrar a configuração ideal que 

resultasse em uma previsão precisa. 

Inicialmente, foi necessário testar diferentes quantidades de camadas 

LSTM, variando de uma a múltiplas camadas, a fim de verificar se a adição de mais 

níveis profundos na rede traria melhorias significativas no desempenho. A quantidade 

de neurônios em cada célula LSTM também foi ajustada, já que mais neurônios podem 

permitir que o modelo capture padrões mais complexos, mas, ao mesmo tempo, 

aumentar a probabilidade de sobreajuste. 

Foram testadas várias taxas de abandono, buscando o equilíbrio ideal entre 

a prevenção do sobreajuste e a preservação da capacidade do modelo de aprender 

com os dados. Em paralelo, a normalização em lote também foi avaliada, com o intuito 

de estabilizar o processo de treinamento e acelerar a convergência do modelo. 

Além disso, foram exploradas diferentes quantidades de camadas densas 

ao final da rede, as quais são responsáveis por realizar a combinação final das 

características extraídas pelas camadas LSTM. A escolha da função de ativação 


58 

nessas camadas densas também foi um ponto de estudo, para avaliar qual 

proporcionaria a melhor performance em termos de previsão. 

O uso do mecanismo de atenção também foi experimentado, uma vez que 

este permite ao modelo focar em partes específicas da sequência temporal que podem 

ser mais relevantes para a previsão. 

Outro fator relevante foi o horizonte temporal, tendo sido testados 

diferentes valores para identificar qual seria o mais adequado para capturar os 

padrões temporais sem introduzir ruído excessivo. 

No que se refere ao processo de otimização, foram experimentados 

diferentes otimizadores juntamente com diversas taxas de aprendizado, buscando 

uma configuração que permitisse ao modelo aprender de maneira eficiente, sem 

convergir muito rápido (o que poderia causar subajuste) ou muito devagar. A função 

de perda foi ajustada conforme a necessidade de minimizar os erros entre os valores 

previstos e os valores reais, e métricas como o erro médio absoluto e o erro quadrático 

médio foram utilizadas para avaliar o desempenho do modelo. 

Por fim, o tamanho do lote e a quantidade de épocas foram ajustados 

durante a fase de experimentação. O tamanho do lote afeta o número de amostras 

processadas antes de atualizar os pesos do modelo, influenciando tanto a precisão 

quanto a eficiência do treinamento. Já a quantidade de épocas foi ajustada para 

garantir que o modelo tivesse tempo suficiente para aprender, sem treinar em 

excesso, o que poderia levar ao sobreajuste. 

A arquitetura LSTM definida foi configurada com base na análise detalhada 

dos principais hiperparâmetros que influenciam o desempenho da rede. 

Primeiramente, foi adicionado uma camada de “Input” no modelo, que é 

uma prática utilizada ao utilizar a API “Sequential” do Keras, especialmente para 

modelos que utilizam camadas RNN, como as LSTMs. Essa abordagem fornece uma 

especificação clara da forma das entradas esperadas pelo modelo. Ao definir 

explicitamente o formato da entrada com a camada “Input”, garante-se que o modelo 

esteja corretamente configurado para receber dados no formato esperado e evita-se 

problemas potenciais relacionados à forma dos dados durante a construção e 

treinamento do modelo. Além disso, a inclusão da camada “Input” ajuda a prevenir 

mensagens de aviso sobre a configuração de camadas, garantindo que o modelo seja 

definido de maneira mais robusta e compatível com as melhores práticas do Keras. 

Essa definição também melhora a legibilidade e manutenção do código-fonte, uma 


59 

vez que torna explícita a estrutura do modelo desde o início, facilitando a compreensão 

e a modificação futura. 

Durante o treinamento dos modelos, utilizou-se o checkpoint de modelo, 

que salva automaticamente o modelo com o melhor desempenho (menor erro) no 

conjunto de validação.  

Na literatura, é comum partir-se do pressuposto de que o uso de múltiplos 

descritores meteorológicos com forte correlação resultará em desempenho igual ou 

superior ao modelo treinado exclusivamente com a energia fotovoltaica produzida. Por 

outro lado, espera-se que modelos treinados com descritores mais fracos apresentem 

desempenho inferior ao modelo treinado apenas com a energia fotovoltaica produzida, 

como evidenciado em estudos anteriores (GUTIÉRREZ et al., 2021; LIMOUNI et al., 

2023; LI et al., 2023; NGUYEN et al., 2021; WENTZ et al., 2022). 

Para se comparar os resultados da previsão usando descritores 

meteorológicos e a energia gerada, foram treinados nove modelos, considerando 

diferentes combinações de descritores: 

a) Um modelo foi treinado utilizando apenas a energia fotovoltaica 

produzida como entr