UNIVERSIDADE ESTADUAL PAULISTA – UNESP Instituto de Ciência e Tecnologia - Câmpus de Sorocaba NAIRON AUGUSTO MONARI GONÇALVES COMPARAÇÃO DO USO DE DESCRITORES PARA A PREVISÃO DA PRODUÇÃO FOTOVOLTAICA A PARTIR DE SÉRIES HISTÓRICAS E LSTM Sorocaba 2024 NAIRON AUGUSTO MONARI GONÇALVES COMPARAÇÃO DO USO DE DESCRITORES PARA A PREVISÃO DA PRODUÇÃO FOTOVOLTAICA A PARTIR DE SÉRIES HISTÓRICAS E LSTM Dissertação apresentada à Universidade Estadual Paulista (UNESP), Instituto de Ciência e Tecnologia, Câmpus de Sorocaba, para obtenção do título de Mestre em Engenharia Elétrica. Área de Concentração: Automação Orientador: Prof. Dr. Antonio Cesar Germano Martins Sorocaba 2024 Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a). G635c Gonçalves, Nairon Augusto Monari Comparação do uso de descritores para a previsão da produção fotovoltaica a partir de séries históricas e LSTM / Nairon Augusto Monari Gonçalves. -- Sorocaba, 2024 82 p. : il., tabs., fotos Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Instituto de Ciência e Tecnologia, Sorocaba Orientador: Antonio Cesar Germano Martins 1. Inteligência artificial. 2. Energia solar. 3. Aprendizado do computador. I. Título. IMPACTO POTENCIAL DESTA PESQUISA Esta pesquisa apresenta um impacto relevante em diversas esferas. Cientificamente, avança o uso de redes neurais LSTM (Long Short-Term Memory) na previsão de produção de energia fotovoltaica, contribuindo para o conhecimento técnico em modelagem preditiva. A inovação está em sua abordagem eficiente, que dispensa descritores meteorológicos, reduzindo custos e promovendo a escalabilidade. O estudo incentiva o uso de energia renovável, promovendo conscientização sobre tecnologias sustentáveis e influenciando positivamente o comportamento energético. Pode ser aplicado por empresas e gestores de energia, enquanto nacional e internacionalmente, oferecendo soluções replicáveis que fortalecem a transição energética. Ao promover o desenvolvimento sustentável, otimizando a integração de energias limpas, a pesquisa contribui para reduzir a dependência de fontes poluentes. Além disso, oferece uma base educacional sólida, sendo aplicável no ensino de inteligência artificial e sustentabilidade. POTENTIAL IMPACT OF THIS RESEARCH This research has a significant impact in several areas. Scientifically, it advances the use of LSTM (Long Short-Term Memory) neural networks in predicting photovoltaic energy production, contributing to technical knowledge in predictive modeling. The innovation lies in its efficient approach, which eliminates the need for meteorological descriptors, reducing costs and promoting scalability. The study encourages the use of renewable energy, raising awareness about sustainable technologies and positively influencing energy behavior. Energy companies and managers can apply it, while nationally and internationally, it offers replicable solutions that strengthen the energy transition. By promoting sustainable development and optimizing the integration of clean energy, the research helps reduce dependence on polluting sources. Moreover, it provides a solid educational foundation, being applicable in the teaching of artificial intelligence and sustainability. Dedico este trabalho à minha esposa e a meus filhos, por todo amor, carinho e apoio que recebi em todos os momentos e a todos que contribuíram direta ou indiretamente para a realização deste trabalho. AGRADECIMENTOS Agradeço, ...ao Instituto de Ciência e Tecnologia de Sorocaba por oferecer infraestrutura de pesquisa, acesso a bibliotecas, laboratórios bem equipados, e por promover um ambiente colaborativo que estimula a aprendizagem e o crescimento acadêmico. ...ao meu orientador Prof. Dr. Antonio Cesar Germano Martins pela sua orientação dedicada ao longo deste trabalho de mestrado. Agradeço por compartilhar seu conhecimento e por acreditar no meu potencial. ...a minha esposa Franciele pela compreensão, paciência, encorajamento e apoio emocional. Seu sacrifício não passou despercebido, e sou imensamente grato por ter você ao meu lado, compartilhando cada passo desta jornada. ...aos meus filhos Isabella e Guilherme, que durante este período de estudos intensos, foram uma fonte constante de alegria e motivação para mim. Mesmo nos momentos em que precisei me ausentar por causa dos estudos, vocês demonstraram compreensão e amor. Vocês são minha maior bênção e inspiração. ...aos professores, funcionários e colegas do Instituto de Ciência e Tecnologia de Sorocaba, bem como a todos que, de forma direta ou indireta, contribuíram para a realização deste trabalho. ...aos alunos intercambistas Nicolas Fourmaux, do CESI École d'ingénieurs, campus de Arras, Pas-de-Calais, Hauts-de-France, França, e Navidu Lokupathirage e Xinkang Chen, do ESIEA – École d'Ingénieur·e·s d'un numérique utile, Ivry-sur-Seine, Île-de-France, Val-de-Marne, França, cuja colaboração foi essencial para a realização dos experimentos. A troca de conhecimentos e experiências foi enriquecedora. ...aos membros da banca examinadora Profa. Dra. Esther Luna Colombini e Prof. Dr. Helmo Kelis Morales Paredes, pela disponibilidade em participar deste momento importante. Agradeço o tempo dedicado à leitura e avaliação deste trabalho, e pela oportunidade de discutir o tema com profissionais de tão elevado conhecimento e experiência. “A inteligência não é a capacidade de armazenar informações, mas de saber onde encontrá-las”. (Albert Einstein). RESUMO Este trabalho apresenta um estudo baseado em redes neurais recorrentes do tipo LSTM (Long Short-Term Memory) para prever a produção de energia de um conjunto de painéis fotovoltaicos, com um horizonte temporal de seis horas e quarenta minutos (quatrocentos minutos). Esse estudo utiliza dados históricos de três anos, quatro meses e dezessete dias, que incluem medições meteorológicas e de produção de energia fotovoltaica. O objetivo é realizar uma análise comparativa entre um modelo treinado exclusivamente com dados de produção de energia e oito modelos que incorporam descritores meteorológicos no treinamento. Os resultados indicam que o modelo treinado apenas com a produção de energia fotovoltaica obtém desempenho equivalente ao de modelos que incluem descritores meteorológicos. Este estudo demonstra a eficácia da abordagem LSTM e sugere que, para o problema específico de previsão da produção de energia fotovoltaica, os descritores meteorológicos não proporcionam uma melhoria significativa no desempenho do modelo. Palavras-chave: inteligência artificial; painéis solares; fontes de energias renováveis ABSTRACT This work presents a study based on LSTM (Long Short-Term Memory) recurrent neural networks to forecast the energy production of a set of photovoltaic panels, with a time horizon of six hours and forty minutes (four hundred minutes). This study uses historical data spanning three years, four months, and seventeen days, including meteorological measurements and photovoltaic energy production data. The objective is to conduct a comparative analysis between a model trained solely with energy production data and eight models that incorporate meteorological descriptors into the training process. The results indicate that the model trained exclusively with energy production data performs comparably to models that include meteorological descriptors, thus demonstrating the effectiveness of the LSTM approach and suggests that, for the specific problem of forecasting photovoltaic energy production, meteorological descriptors do not provide a significant improvement in model performance. Keywords: artificial intelligence; solar panels; renewable energy sources. LISTA DE FIGURAS Figura 1 – ODS estabelecidos pela ONU ................................................................. 18 Figura 2 – Origem dos artigos selecionados ............................................................ 21 Figura 3 – Evolução das abordagens ....................................................................... 29 Figura 4 – Diferença entre a RNA e RNN ................................................................. 30 Figura 5 – Componentes de estado: estado da célula e estado oculto ..................... 32 Figura 6 – Estado da célula ...................................................................................... 33 Figura 7 – Estado oculto .......................................................................................... 34 Figura 8 – Etapas de cálculo na LSTM .................................................................... 36 Figura 9 – Primeira etapa do cálculo ........................................................................ 37 Figura 10 – Segunda etapa do cálculo ..................................................................... 39 Figura 11 – Terceira etapa do cálculo ...................................................................... 40 Figura 12 – Planta do complexo DKASC .................................................................. 53 Figura 13 – Foto do conjunto ................................................................................... 54 Figura 14 – Potência fotovoltaica ao longo dos anos ............................................... 61 Figura 15 – Energia fotovoltaica agrupada por ano .................................................. 64 Figura 16 – Coeficiente de correlação entre os descritores no conjunto de dados ... 68 Figura 17 – Perdas no treinamento do modelo somente com a energia fotovoltaica 70 Figura 18 – Gráfico de dispersão no conjunto ao fim do treinamento ....................... 72 Figura 19 – Previsão x real no conjunto de treinamento ........................................... 72 Figura 20 – Gráfico de dispersão no conjunto de validação ..................................... 73 Figura 21 – Previsão x real no conjunto de validação .............................................. 74 Figura 22 – Gráfico de dispersão no conjunto de teste ............................................ 75 Figura 23 – Previsão x real no conjunto de teste...................................................... 75 LISTA DE TABELAS Tabela 1 – Geração de energia fotovoltaica ............................................... 16 Tabela 2 – Triagem dos artigos encontrados .............................................. 21 Tabela 3 – Configurações do conjunto ....................................................... 55 Tabela 4 – Estatísticas de cada ano do conjunto de dados ........................ 60 Tabela 5 – Conjuntos de dados resultantes ................................................ 61 Tabela 6 – Valores indisponíveis entre 2013 e 2016 .................................. 62 Tabela 7 – Características do conjunto de dados ....................................... 64 Tabela 8 – Colunas do conjunto de dados.................................................. 65 Tabela 9 – Divisão dos dados entre treinamento, validação e teste ........... 65 Tabela 10 – Resumo da melhor configuração de hiperparâmetros ............. 66 Tabela 11 – Arquitetura LSTM definida no projeto ...................................... 67 Tabela 12 – Valores das métricas de erro no conjunto de treinamento ...... 71 Tabela 13 – Valores das métricas de erro no conjunto de validação .......... 73 Tabela 14 – Valores das métricas de erro no conjunto de teste ................. 74 Tabela 15 – Valores das métricas de erro no modelo ................................. 76 Tabela 16 – Valores das métricas variando os descritores ......................... 77 LISTA DE ABREVIATURAS E SIGLAS LSTM Long Short-Term Memory CAGR Taxa de Crescimento Anual Composta ODS Objetivos de Desenvolvimento Sustentável ONU Organização das Nações Unidas CO₂ Dióxido de Carbono NWP Numerical Weather Prediction ARMA Autoregressive Moving Average ARIMA Autoregressive Integrated Moving Average RNA Rede Neural Artificial SVM Support Vector Machine DL Aprendizagem Profunda KNN K-Nearest Neighbors MSE Mean Squared Error RMSE Root Mean Squared Error MAE Mean Absolute Error MAPE Mean Absolute Percentage Error NMAE Normalized Mean Absolute Error NREL National Renewable Energy Laboratory DKASC Desert Knowledge Australia Solar Centre CSV Comma-Separated Values GPU Graphics Processing Unit TPU Tensor Processing Unit GRU Gate Recurrent Unit LISTA DE SÍMBOLOS TWh Terawatt-hora CC Corrente Contínua CA Corrente Alternada A Ampere mm Milímetros kW Quilowatt kWh Quilowatt-hora W Watt m² Metro quadrado m/s Metro por Segundo ºC Graus Celsius W/m² Watts por metro quadrado º Graus SUMÁRIO 1 INTRODUÇÃO ..................................................................................... 16 2 REVISÃO BIBLIOGRÁFICA ................................................................ 20 2.1 ARTIGOS CORRELACIONADOS ........................................................ 20 3 FUNDAMENTAÇÃO TEÓRICA............................................................ 22 3.1 O SISTEMA DE ENERGIA FOTOVOLTAICO....................................... 22 3.2 ABORDAGENS PARA PREVISÃO DE ENERGIA FOTOVOLTAICA .... 26 3.3 ABORDAGENS LSTM .......................................................................... 29 3.3.1 Componentes de Estado da Célula ...................................................... 32 3.3.2 Portas na Arquitetura LSTM ................................................................. 34 3.3.3 Etapas de Cálculo na LSTM ................................................................. 35 3.4 AVALIAÇÃO DO RESULTADO ............................................................ 41 3.5 HIPERPARÂMETROS DA LSTM ......................................................... 43 3.6 COEFICIENTE DE CORRELAÇÃO ...................................................... 49 4 METODOLOGIA .................................................................................. 51 4.1 AMBIENTE DE DESENVOLVIMENTO ................................................. 51 4.2 FONTE DE DADOS .............................................................................. 52 4.3 DETALHAMENTO DOS DADOS .......................................................... 55 4.4 DIVISÃO DOS DADOS ......................................................................... 57 4.5 DEFINIÇÃO DOS HIPERPARÂMETROS ............................................. 57 5 RESULTADOS ..................................................................................... 60 5.1 EXPLORAÇÃO DO CONJUNTO DE DADOS....................................... 60 5.2 HIPERPARÂMETROS E ARQUITETURA ............................................ 65 5.3 HORIZONTE TEMPORAL .................................................................... 67 5.4 ANÁLISE DOS DESCRITORES ........................................................... 68 5.5 TREINAMENTO DOS MODELOS ........................................................ 70 5.5.1 MODELO TREINADO SOMENTE COM A ENERGIA ........................... 70 5.5.2 Modelo Treinado com Energia e Descritores ........................................ 76 6 CONCLUSÕES .................................................................................... 78 REFERÊNCIAS ....................................................................................................... 79 16 1 INTRODUÇÃO Nos últimos anos, o Brasil tem experimentado um crescimento exponencial na geração de energia fotovoltaica. De acordo com o último Balanço Energético Nacional de 2024 da Empresa de Pesquisa Energética (MINISTÉRIO DE MINAS E ENERGIA, 2024), a capacidade instalada de energia solar no país passou de 16MWh em 2014 para 50.632,9MWh em 2023. Esse aumento demonstra a expansão acelerada dessa fonte de energia renovável, especialmente a partir de 2017, quando a capacidade instalada cresceu de 832MWh para mais de 50.000MWh em menos de seis anos. Entre 2014 e 2023, a geração de energia fotovoltaica no Brasil teve um crescimento total de aproximadamente 316.330%, conforme Tabela 1. Esse número ressalta o avanço massivo da energia solar no país. Ao analisar a taxa de crescimento anual composta (CAGR), chega-se a uma média de 91% ao ano. Esse índice reflete a consolidação da energia fotovoltaica como uma das principais alternativas energéticas do Brasil, incentivada tanto por investimentos públicos quanto privados, além de políticas de fomento às energias limpas. Tabela 1 – Geração de energia fotovoltaica FLUXO GERAÇÃO TOTAL (MWh) 2014 16 2015 59 2016 85 2017 832 2018 3.461 2019 6.655 2020 10.748 2021 16.752 2022 30.126 2023 50.632,9 Fonte: MINISTÉRIO DE MINAS E ENERGIA, 2024. 17 Ainda de acordo com a Tabela 1, a média de crescimento anual em termos absolutos foi de aproximadamente 5.625MWh por ano. Esse dado reforça a importância da energia solar na matriz energética brasileira, que tem se tornado um dos principais motores da transição energética no país. Se mantida a taxa de crescimento observada nos últimos anos, a expectativa é que a capacidade instalada de energia fotovoltaica continue a crescer de forma robusta. URBANETZ et al. (2019) projeta uma produção total de 98,3TWh de geração fotovoltaica para 2025, o que corresponderia a 12,3% da demanda elétrica do Brasil, considerando uma produção total estimada em 800TWh para o mesmo ano. Nesse contexto, um modelo que seja capaz de prever a oferta diária de energia gerada torna-se uma ferramenta crucial para a regulação e para a criação de políticas tarifárias, especialmente para produtores que não atingirem as metas estabelecidas. Além disso, auxilia na organização do sistema interligado nacional de energia elétrica (MINISTÉRIO DE MINAS E ENERGIA, 2024). Com a aproximação de 2030, prazo final para o cumprimento dos Objetivos de Desenvolvimento Sustentável (ODS) estabelecidos pela ONU (AGENDA 2030, 2020), é relevante mencionar que o aumento do uso da energia fotovoltaica está em consonância com o 7º ODS, que tem como metas até 2030: a) Buscar garantir o acesso universal à energia de forma confiável, sustentável, moderna e a preços acessíveis a serviços de energia; b) Aumentar substancialmente a participação de energias renováveis na matriz energética global; c) Dobrar a taxa global de melhoria da eficiência energética; d) Reforçar a cooperação internacional para facilitar o acesso a pesquisa e tecnologias de energia limpa, incluindo energias renováveis, eficiência energética e tecnologias de combustíveis fósseis avançadas e mais limpas, e promover o investimento em infraestrutura de energia e em tecnologias de energia limpa; e) expandir a infraestrutura e modernizar a tecnologia para o fornecimento de serviços de energia modernos e sustentáveis para todos nos países em desenvolvimento, particularmente nos países menos desenvolvidos, nos pequenos Estados insulares em desenvolvimento e nos países em desenvolvimento sem litoral, de acordo com seus respectivos programas de apoio. 18 A Figura 1 mostra todos os ODS a serem cumpridos até o ano de 2030. Figura 1 – ODS estabelecidos pela ONU Fonte: AGENDA 2030 (2020). O crescimento da fonte solar também tem sido impulsionado por políticas regulatórias, como a compensação da energia excedente gerada por sistemas menores, conhecida como compensação líquida (net metering). Dessa forma, há uma tendência de aumento na participação da energia solar na matriz elétrica nacional. O crescente interesse mundial pela energia fotovoltaica gera a necessidade de desenvolver sistemas que permitam estimar a produção de forma mais precisa, visto que o desempenho dessa fonte impacta outras formas de geração de energia e tem implicações financeiras. A exemplo da Ucrânia, onde a tarifa verde penaliza financeiramente a produção abaixo do estipulado (EZHNYUK et al., 2018). O objetivo deste trabalho é comparar o desempenho de uma rede neural LSTM utilizando apenas a série histórica de energia produzida com o desempenho obtido ao adicionar variáveis meteorológicas na previsão de produção de energia fotovoltaica de um conjunto de painéis fotovoltaicos. A pesquisa se concentrará em analisar o impacto da inclusão de múltiplos descritores meteorológicos no treinamento dos modelos preditivos. Será investigado se a adição dessas variáveis pode trazer 19 melhorias na precisão das previsões em relação aos modelos que consideram somente a série temporal da produção de energia fotovoltaica. Este trabalho representa a continuidade da pesquisa realizada por CUNHA (2021), que apresentou uma metodologia para prever a geração de energia fotovoltaica utilizando dados históricos de energia produzida e uma rede neural do tipo LSTM. A abordagem de CUNHA (2021) envolveu a aplicação do conceito de janela temporal para realizar previsões com horizonte de uma hora, levando em consideração a produção de energia fotovoltaica coletadas ao longo de um ano. Além disso, a análise comparativa destacou a eficácia do modelo proposto em relação a diferentes tamanhos de janela temporal. Em continuidade ao trabalho de CUNHA (2021), este trabalho de mestrado investiga a inclusão de variáveis meteorológicas, expandindo os achados da tese de doutorado de CUNHA (2021), e contribuindo para o avanço da metodologia já estabelecida. Inicialmente, uma revisão abrangente da literatura será apresentada para identificar as abordagens mais recentes e eficazes na previsão da produção de energia fotovoltaica, com ênfase particular nas técnicas baseadas em redes neurais. Em seguida, séries temporais históricas de produção de energia fotovoltaica e dados correlacionados de descritores meteorológicos serão coletados e analisados. Modelos de redes neurais LSTM serão desenvolvidos utilizando diversas combinações de descritores meteorológicos. Finalmente, o desempenho dos modelos será avaliado através de métricas de previsão, comparando a acurácia e a robustez dos modelos que incorporam múltiplos descritores com aqueles que se baseiam apenas na série temporal de produção de energia. Ao longo das seções, os principais trabalhos realizados na área serão discutidos e analisados, com o objetivo de contextualizar o leitor sobre o estado atual das pesquisas e avanços no campo da previsão de produção de energia fotovoltaica. Ao cumprir essas etapas, este trabalho visa contribuir significativamente para o avanço do conhecimento na área de previsão de energia fotovoltaica, fornecendo perspectivas valiosas para o desenvolvimento de modelos mais eficientes e adaptáveis, fundamentados em técnicas avançadas de aprendizado de máquina. 20 2 REVISÃO BIBLIOGRÁFICA 2.1 Artigos Correlacionados Foram investigados artigos correlacionados que sustentam a modelagem de redes neurais recorrentes para destacar e justificar as contribuições propostas nesta pesquisa. As seguintes bases de dados foram utilizadas: a) Science Direct – https://www.sciencedirect.com; b) Scopus – https://www.scopus.com; c) Web of Science – https://www.webofscience.com. Os filtros a seguir foram aplicados na busca: a) Artigos de até 5 anos (de 2018 a 2022); b) Artigos no idioma inglês; c) Artigos na área de energia; d) Artigos de pesquisa, excluindo nota técnica e de revisão; e) Tipo de documento: artigos e artigos de conferência; f) Palavras-chave: prediction photovoltaic production LSTM; g) Artigos de acesso livre para a comunidade acadêmica. Na primeira triagem, aplicaram-se os filtros nas bases de dados. Na segunda, removeram-se os artigos duplicados. Na terceira, excluíram-se os artigos com títulos desalinhados ao tema deste trabalho. Na quarta, eliminaram-se os artigos com resumos fora do tema. Por fim, na quinta triagem, descartaram-se os artigos cujo conteúdo não era relevante para o trabalho. Os resultados obtidos na etapa da triagem podem ser vistos na Tabela 2. Após o processo de triagem, a revisão bibliográfica resultou em 30 artigos relevantes, distribuídos por diferentes países, conforme Figura 2. A distribuição geográfica reflete a diversidade de pesquisas no campo da previsão de produção de energia fotovoltaica, com uma predominância de estudos realizados em países asiáticos. 21 Tabela 2 – Triagem dos artigos encontrados ETAPA AÇÃO ARTIGOS APÓS A AÇÃO 1ª Aplicação dos filtros Total: 970 artigos 2ª Exclusão de artigos duplicados nas bases Total: 859 artigos 3ª Exclusão de artigos em função do título Total: 115 artigos 4ª Exclusão de artigos em função do resumo Total: 48 artigos 5ª Exclusão de artigos em função do conteúdo Total: 30 artigos Fonte: Elaborado pelo autor (2023). Figura 2 – Origem dos artigos selecionados Fonte: Elaborado pelo autor (2023). Os artigos selecionados serviram como base de referência para o desenvolvimento deste trabalho. Essas fontes foram utilizadas para obter informações relevantes, contextualizando o leitor sobre o progresso das pesquisas na área de energia fotovoltaica e permitindo a identificação de lacunas existentes. A discussão sobre esses artigos será realizada posteriormente, evidenciando as abordagens adotadas em cada um deles. 0 1 2 3 4 5 6 7 8 9 10 11 12 Artigos por países 22 3 FUNDAMENTAÇÃO TEÓRICA 3.1 O Sistema de Energia Fotovoltaico O aumento da demanda global por energia, combinado com a crescente escassez de recursos fósseis, tem gerado preocupações significativas em relação aos impactos ambientais adversos. Nos últimos anos, mais de 80% da energia primária mundial ainda provém de combustíveis fósseis, resultando em elevadas emissões de CO₂ e contribuindo diretamente para o agravamento do aquecimento global (GUTIÉRREZ et al., 2021). Diante desse cenário, a busca por soluções energéticas mais eficientes e sustentáveis tornou-se urgente. Entre as fontes de energia renovável, a energia solar fotovoltaica se destaca como uma das principais. Nos últimos anos, o uso de sistemas fotovoltaicos em estruturas inteligentes tem crescido substancialmente, e a expectativa é de que essa tendência se expanda exponencialmente, devido às inúmeras vantagens oferecidas por essa tecnologia. No entanto, a sua integração eficaz aos sistemas energéticos existentes depende de previsões precisas da geração fotovoltaica (GUTIÉRREZ et al., 2021). O componente fundamental de um sistema fotovoltaico é a célula fotovoltaica, que consiste em camadas de materiais semicondutores com propriedades fotoelétricas. Quando a luz solar incide sobre a célula, os fótons fornecem energia suficiente para liberar elétrons dos átomos do semicondutor, iniciando o processo de geração de eletricidade. Esse fenômeno, conhecido como efeito fotovoltaico, ocorre quando os elétrons liberados são direcionados por uma diferença de potencial elétrico entre as camadas da célula, forçando-os a fluir em uma única direção e, assim, gerando uma corrente elétrica (UNLU et al., 2022). As células fotovoltaicas são conectadas em série para formar módulos, também chamados de painéis solares. Cada célula contribui com uma pequena quantidade de tensão, e a combinação de várias células em série aumenta a tensão total do sistema, tornando-o capaz de gerar energia útil. Esses painéis são montados em suportes ou estruturas que maximizam sua exposição à luz solar, sendo frequentemente instalados em telhados, terrenos ou outras áreas abertas que garantem a máxima captação de luz solar ao longo do dia (UNLU et al., 2022). 23 A eletricidade gerada pelos painéis solares é corrente contínua (CC), que não é diretamente compatível com a maioria dos dispositivos elétricos ou com a rede elétrica convencional, que operam em corrente alternada (CA). Para resolver esse problema, utiliza-se um inversor, que converte a corrente contínua em corrente alternada. Além disso, o inversor desempenha funções essenciais, como o monitoramento do sistema e a otimização do desempenho da geração de energia (UNLU et al., 2022). A energia gerada pode ser usada diretamente no local em que o sistema está instalado. Caso haja excedente, ele pode ser alimentado na rede elétrica através de um medidor bidirecional, permitindo que os proprietários do sistema recebam créditos pela eletricidade excedente gerada, os quais podem ser usados em momentos em que a geração solar é insuficiente (UNLU et al., 2022). Em resumo, um sistema fotovoltaico converte a luz solar em eletricidade através do efeito fotovoltaico nas células solares. Essa eletricidade é então convertida de corrente contínua para corrente alternada por um inversor, podendo ser utilizada diretamente pelos dispositivos elétricos ou alimentada na rede elétrica para uso futuro. A geração de energia fotovoltaica é diretamente influenciada por fatores climáticos locais. A variabilidade desses fatores resulta em flutuações na geração de energia ao longo do tempo, o que torna a previsão dessa produção um desafio crucial. A precisão nas previsões é fundamental para garantir a confiabilidade e a estabilidade da rede elétrica, além de influenciar aspectos críticos, como segurança, planejamento, agendamento e operações no mercado de energia (GUTIÉRREZ et al., 2021; ZAMAN et al., 2021; YANG et al., 2022). A seguir, serão detalhados os principais fatores climáticos que influenciam diretamente a produção de energia fotovoltaica. A radiação solar [W/m²] é a energia emitida pelo Sol que se propaga por ondas eletromagnéticas e atinge a superfície da Terra com diferentes intensidades, classificadas de acordo com seu comprimento de onda. Essa energia é medida por unidade de área da radiação que atinge uma superfície terrestre, sendo classificada como direta, difusa, refletida e global (XIAO et al., 2023). (a) Radiação direta horizontal [W/m²] – ocorre apenas quando o Sol está visível. É a porção da radiação solar que atinge diretamente a superfície terrestre sem sofrer dispersão atmosférica, sendo medida em relação a um plano horizontal (XIAO et al., 2023); 24 (b) Radiação difusa horizontal [W/m²] – é a luz solar que foi dispersa por partículas atmosféricas e chega à superfície terrestre a partir de várias direções, não estando na linha de radiação direta do Sol. Ela também é medida em relação a um plano horizontal (XIAO et al., 2023); (c) Radiação refletida horizontal [W/m²] – corresponde à parte da radiação solar que é refletida pela superfície da Terra e outros objetos, como edifícios e vegetação (XIAO et al., 2023); (d) Radiação global horizontal [W/m²] – é a soma das radiações direta, difusa e refletida. Representa a intensidade total da energia solar recebida por um plano horizontal na superfície da Terra (XIAO et al., 2023); (e) Radiação direta inclinada [W/m²] – é a radiação solar que atinge diretamente um plano inclinado. Ela corresponde à radiação direta horizontal, ajustada para a inclinação do painel ou superfície, o que aumenta sua captação dependendo do ângulo em relação ao Sol (XIAO et al., 2023); (f) Radiação difusa inclinada [W/m²] – é a radiação solar dispersa por partículas atmosféricas que atinge uma superfície inclinada. Assim como a radiação difusa horizontal, não está alinhada diretamente com o Sol, mas é medida em relação ao plano inclinado do arranjo (XIAO et al., 2023); (g) Radiação refletida inclinada [W/m²] – é a porção da radiação solar que foi refletida por superfícies próximas, como o solo ou outras estruturas, e que atinge o plano inclinado do arranjo fotovoltaico. Essa radiação é importante para estimar o ganho energético total de um sistema, uma vez que superfícies como neve ou concreto podem refletir uma fração significativa da luz solar (XIAO et al., 2023); (h) Radiação global inclinada [W/m²] – é a intensidade da energia solar total recebida por um plano inclinado, como o de um painel fotovoltaico. É a soma das componentes direta, difusa e refletida em relação à inclinação da superfície do arranjo fotovoltaico (XIAO et al., 2023). 25 A temperatura ambiente [°C] é uma variável associada ao grau de agitação das moléculas. No contexto da geração solar, tem um efeito essencial no valor da tensão gerada (XIAO et al., 2023). O aumento da temperatura dos painéis solares pode reduzir a eficiência da conversão de energia, já que os materiais fotovoltaicos geralmente são mais eficientes a temperaturas mais baixas. A umidade relativa [%] é definida como a quantidade de vapor de água presente no ar e está diretamente relacionada à temperatura ambiente. Em áreas de alta umidade, o ar tende a reter mais calor, o que pode resultar em temperaturas mais elevadas dos painéis solares. A umidade relativa do ar pode afetar a quantidade de luz solar que atinge os painéis fotovoltaicos. Moléculas de água na atmosfera podem dispersar e absorver parte da radiação solar, reduzindo assim a quantidade de luz que chega aos painéis. Isso pode diminuir a intensidade da luz que chega diretamente aos painéis solares, afetando a eficiência da conversão fotovoltaica. Em condições de alta umidade, há maior probabilidade de ocorrer condensação de água nos painéis solares durante a noite ou quando as temperaturas caem. Essa condensação pode levar ao acúmulo de água e sujeira nos painéis solares, reduzindo ainda mais a eficiência da geração de energia. A exposição constante à umidade elevada ao longo do tempo pode também acelerar a degradação dos materiais dos painéis solares, diminuindo sua vida útil e eficiência ao longo do tempo (XIAO et al., 2023). A direção do vento [°] é definida pela origem de onde o vento sopra. Ela desempenha um papel fundamental em diversos fenômenos atmosféricos e no desempenho de sistemas fotovoltaicos, especialmente em regiões onde a ventilação natural ajuda a resfriar os painéis, aumentando sua eficiência (XIAO et al., 2023). A direção do vento pode impactar a produção de energia fotovoltaica devido à sua influência na temperatura dos painéis solares. Os módulos fotovoltaicos funcionam de maneira mais eficiente em temperaturas mais baixas, pois o calor excessivo pode reduzir sua eficiência. Quando o vento sopra na direção certa, ele ajuda a resfriar os painéis solares ao remover o calor acumulado em sua superfície, mantendo-os dentro de uma faixa de temperatura mais favorável para a conversão de energia. Por outro lado, se o vento é obstruído por obstáculos como prédios ou árvores, ou se sua direção não permite uma ventilação eficaz dos painéis solares, o calor pode se acumular, prejudicando o desempenho dos módulos. Além disso, em locais com forte presença de partículas ou poeira, a direção do vento pode aumentar o acúmulo de sujeira nos painéis solares, reduzindo a quantidade de radiação solar que atinge suas 26 superfícies e, consequentemente, a produção de energia fotovoltaica (XIAO et al., 2023). A precipitação diária [mm] refere-se à quantidade de água, sob a forma de chuva, neve, granizo ou neblina, que cai em um local específico ao longo de um dia. Ela é um dos principais componentes do ciclo hidrológico, influenciando a atmosfera e o clima de uma região. A precipitação pode impactar a produção de energia fotovoltaica de maneiras tanto positivas quanto negativas. Em curto prazo, durante períodos de chuva ou neblina intensa, a produção de energia tende a diminuir devido à redução da irradiância solar. A presença de nuvens densas bloqueia a radiação direta, e a luz difusa que atravessa as nuvens é menos intensa, resultando em menor eficiência dos painéis. Além disso, em regiões com neve, o acúmulo sobre os módulos pode bloquear a entrada de luz solar, interrompendo temporariamente a produção até que a neve seja removida ou derreta. Por outro lado, a precipitação, especialmente a chuva, tem um efeito positivo na limpeza natural dos painéis solares. Ela remove a poeira, poluição e outros detritos que podem se acumular na superfície dos módulos, aumentando sua eficiência ao garantir que mais radiação solar atinja diretamente as células fotovoltaicas. 3.2 Abordagens Para Previsão de Energia Fotovoltaica Diversas metodologias foram desenvolvidas para a previsão de produção de energia fotovoltaica, que geralmente se enquadram em quatro categorias principais: modelos físicos, abordagens estatísticas, métodos de inteligência artificial e abordagens híbridas, que combinam diferentes técnicas (GUTIÉRREZ et al., 2021). Essas categorias fornecem uma estrutura organizada para explorar as diversas técnicas disponíveis e avaliar seu impacto na precisão das previsões, cada uma com suas próprias vantagens e limitações. Os modelos físicos na previsão da produção de energia fotovoltaica baseiam-se em equações matemáticas que descrevem as interações entre as condições meteorológicas e a geração de energia (LI et al., 2020). Essas equações modelam relações entre variáveis atmosféricas como temperatura, pressão, umidade, vento e radiação solar através de princípios da física, como as leis da termodinâmica e transferência de calor. Ao resolver numericamente essas equações, os modelos 27 simulam a evolução das condições meteorológicas em diferentes locais e momentos. Um exemplo amplamente utilizado é a Previsão Numérica do Tempo (NWP), que simula a evolução das condições meteorológicas futuras por meio de modelagem computacional (SHARMA et al., 2022). Diferente de modelos puramente históricos, os modelos físicos também levam em conta dados geográficos e detalhes dos componentes fotovoltaicos. No entanto, eles enfrentam desafios, como a variação dos parâmetros fotovoltaicos e a cobertura limitada por satélites, que podem comprometer a precisão das previsões (AHMED et al., 2022; LUO et al., 2021). As abordagens estatísticas para previsão de energia fotovoltaica se baseiam na análise de séries temporais históricas. Modelos como o Autorregressivo de Média Móvel (ARMA) e o Autorregressivo Integrado de Média Móvel (ARIMA) são amplamente utilizados nesse contexto. Esses métodos, apesar de mais simples em comparação com técnicas de inteligência artificial, podem fornecer previsões precisas quando os dados apresentam padrões lineares ou sazonalidades bem definidas. No entanto, essas abordagens são limitadas na captura de comportamentos não lineares, como variações irregulares na radiação solar ou na produção de energia ao longo do tempo. Estudos, como o de YANG et al. (2022), indicam que, embora as abordagens estatísticas tenham seu mérito, os algoritmos de inteligência artificial geralmente superam essas técnicas na previsão da produção fotovoltaica, especialmente em cenários complexos e dinâmicos. Os métodos baseados em inteligência artificial têm se destacado na previsão da produção de energia fotovoltaica devido à sua capacidade de lidar com dados complexos e não lineares. Entre os principais modelos utilizados estão as redes neurais artificiais (RNA), máquinas de vetores de suporte (SVM) e técnicas de aprendizado profundo (DL). O estudo conduzido por OZBEK et al. (2022) comparou o desempenho de várias redes neurais artificiais com técnicas de modelagem estatística, concluindo que as redes neurais artificiais apresentaram maior precisão e demandaram menos tempo de processamento computacional. Esses métodos buscam simular a inteligência humana, permitindo que os sistemas realizem tarefas de forma autônoma ou assistida. GUTIÉRREZ et al. (2021) também exploraram a previsão da geração de energia fotovoltaica utilizando inteligência artificial. Eles avaliaram quatro modelos: K- Nearest Neighbors (KNN), regressão linear, RNA e SVM. Entre eles, a RNA obteve o 28 melhor desempenho em termos de erro médio quadrático (MSE) e erro absoluto médio (MAE), superando os outros modelos. Em outro estudo, LEE et al. (2019) sugeriram três modelos de previsão para energia fotovoltaica: uma RNA básica, uma RNA com camadas ocultas para capturar relações complexas e uma rede neural recorrente (RNN) do tipo LSTM, projetada para identificar padrões sazonais e horários. O modelo LSTM se destacou com um desempenho superior, reduzindo o MAE em mais de 50%. Este estudo concluiu que o uso de LSTM pode melhorar significativamente a previsão da produção de energia com base em dados meteorológicos. Ainda no contexto de comparação de modelos de inteligência artificial, WENTZ et al. (2022) compararam RNA, SVM e LSTM na previsão da produção de energia fotovoltaica. Os resultados mostraram que o modelo LSTM teve o melhor desempenho, apresentando um erro médio percentual absoluto (MAPE) 1,63% menor do que os demais modelos testados. Além disso, as abordagens híbridas têm se tornado uma tendência promissora para a previsão de energia fotovoltaica, combinando múltiplas técnicas para aprimorar a precisão. Essas abordagens mesclam métodos estatísticos e algoritmos de inteligência artificial para capturar uma gama mais ampla de variáveis e padrões. Segundo XIAO et al. (2023), o uso de técnicas híbridas está ganhando popularidade devido à sua capacidade de lidar de maneira mais eficaz com a complexidade e a incerteza, resultando em previsões mais precisas para o planejamento e operação dos sistemas de energia fotovoltaica. Na última década, vários estudos têm explorado diferentes arquiteturas de redes neurais e variáveis de entrada, utilizando séries temporais de dados meteorológicos e de produção fotovoltaica (BLAGA et al., 2019; NESPOLI et al., 2019). Algumas pesquisas também se concentram na identificação de variáveis essenciais para melhorar as previsões. No estudo de QUANG et al., (2021), foram utilizados dados meteorológicos, como radiação solar, temperatura e velocidade do vento, como entrada para uma rede LSTM. Apesar disso, o erro médio absoluto normalizado (NMAE) ainda foi de 5,6%, indicando o desafio contínuo de prever com exatidão a capacidade de geração de energia. Em resumo, a revisão da literatura evidencia a evolução das técnicas de previsão de energia fotovoltaica, com destaque para os métodos baseados em inteligência artificial, como redes neurais e aprendizado profundo. Esses métodos têm 29 demonstrado superioridade em termos de precisão e eficiência em comparação com abordagens estatísticas tradicionais. Com a crescente disponibilidade de dados e o avanço das técnicas de inteligência artificial, espera-se que a previsão da produção de energia fotovoltaica continue a melhorar, oferecendo suporte valioso ao planejamento e à operação de sistemas de energia renovável. A Figura 3 resume a evolução das abordagens para a previsão de energia fotovoltaica ao longo do tempo, destacando que as técnicas de inteligência artificial têm se tornado as mais utilizadas. Dado que os modelos de LSTM tem sido amplamente utilizados, inclusive nas abordagens híbridas, optou-se por explorar essa abordagem neste trabalho. Figura 3 – Evolução das abordagens Fonte: Elaborado pelo autor (2023). 3.3 Abordagens LSTM As RNNs são uma classe de redes neurais que possuem conexões retroalimentadas, permitindo que informações anteriores sejam mantidas e influenciem nas estimativas futuras. Esse tipo de arquitetura é amplamente utilizado 30 em tarefas de processamento de sequências, como processamento de linguagem natural, reconhecimento de fala, visão computacional, previsões em dados históricos (GAO et al., 2019). A Figura 4 mostra a diferença entre as RNAs e as RNNs, evidenciando a presença de retroalimentação nas RNNs. Figura 4 – Diferença entre a RNA e RNN Fonte: Elaborado pelo autor (2023). As RNNs têm a capacidade de modelar dependências temporais sequenciais. Elas mantêm uma “memória” interna, o que significa que as informações podem ser mantidas e processadas ao longo do tempo. As RNNs convencionais, como as redes de Elman e as redes de Jordan (DAS et al., 2021), enfrentam desafios ao trabalhar com dados de longo prazo, como no caso da previsão da produção de energia fotovoltaica, que requer uma série histórica extensa para o treinamento do modelo. Essas redes podem perder informações relevantes em sequências longas, o que prejudica a capacidade de modelar dependências temporais (NGUYEN et al., 2021; GAO et al., 2019). Durante o treinamento dessas RNNs convencionais, o gradiente, uma medida que indica como a função de perda se altera em resposta a mudanças nos pesos, é calculado utilizando o algoritmo de retropropagação através do tempo. Esse gradiente é essencial para ajustar os pesos da rede, que é alimentada com uma sequência de entrada, permitindo que o erro gerado na saída seja propagado de volta para treinar a rede (QUANG et al., 2021). 31 Os desafios que as RNNs convencionais podem enfrentar está relacionado com o problema do desaparecimento do gradiente. Esse fenômeno ocorre quando os pesos mais antigos da sequência se tornam extremamente pequenos à medida que são retropropagados através do tempo, o que pode resultar em uma convergência lenta ou até mesmo na estagnação do treinamento. Por outro lado, essas redes também podem enfrentar o problema da explosão do gradiente, onde os gradientes se tornam excessivamente grandes, causando instabilidade no processo de treinamento. Essas limitações tornam difícil para as RNNs convencionais modelarem efetivamente dados com dependências de longo alcance. A LSTM foi proposta pela primeira vez por Hochreiter e Schmidhuber em 1997 (LI et al., 2020), sendo uma arquitetura de RNN desenvolvida para mitigar essas limitações. A LSTM introduz uma unidade de memória de longo prazo, que permite que a rede aprenda e armazene informações por períodos mais longos (SHARMA et al., 2022). A LSTM possui portas que controlam o fluxo de informações na unidade de memória, permitindo que decida quais informações manter, esquecer e atualizar, além de regular os gradientes evitando variações extremas. Isso permite o aprendizado de padrões temporais complexos, como por exemplo, a variação nas produções de energia fotovoltaica em relação a estação do ano (ZAMAN et al., 2021; LIMOUNI et al., 2023; GAO et al., 2019). No contexto das previsões de produção de energia fotovoltaica, a LSTM é capaz de capturar fatores sazonais, tendências de longo prazo e padrões recorrentes, o que a torna especialmente útil para previsões mais distantes, onde a análise de tendências é essencial. Essa habilidade permite que o modelo considere diversos elementos que influenciam a produção de energia, aprimorando a precisão das estimativas (QUANG et al., 2021). Além disso, a LSTM se destaca por sua capacidade de se adaptar a mudanças nos padrões de dados ao longo do tempo, o que é crucial em previsões de longo prazo, onde fatores como condições meteorológicas e características dos sistemas de energia podem evoluir. A LSTM ajusta seus parâmetros com base nos dados mais recentes, garantindo que as previsões estejam atualizadas e reflitam as condições vigentes (WANG et al., 2023). 32 3.3.1 Componentes de Estado da Célula A LSTM possui dois componentes de estado: estado da célula e estado oculto, que percorrem caminhos diferentes, e são ilustrados na Figura 5. a) Estado da célula – funciona como um canal de comunicação ao longo da sequência de dados, carregando informações ao longo do tempo. Ele é utilizado para memórias de longo prazo e consiste em uma série de células de memória que mantêm informações relevantes ao longo da sequência de entrada. Essas células de memória podem armazenar e recuperar informações com base nas regras aprendidas durante o treinamento da rede. O estado da célula é modificado e atualizado continuamente, com informações relevantes sendo adicionadas ou removidas através das operações das portas da LSTM; b) Estado oculto – é a saída gerada pela LSTM em cada etapa de tempo. Ele representa a memória de curto prazo do modelo e é uma versão processada do estado da célula, que é passada para a próxima etapa de tempo ou utilizada para gerar a saída da rede. O estado oculto captura informações essenciais sobre o contexto da entrada atual e integra dados relevantes das etapas de tempo anteriores. Além disso, ele pode ser empregado em tarefas específicas, como classificação ou previsão, fornecendo uma representação condensada e atualizada do que a rede "lembra" a cada momento. Figura 5 – Componentes de estado: estado da célula e estado oculto Fonte: Modificada a partir de AHMED et al., 2022. 33 Embora a memória de longo prazo possa ser ajustada por meio de operações de multiplicação e adição (conforme ilustrado na Figura 6, no retângulo tracejado em azul), não há pesos ou vieses que possam modificá-la diretamente. A ausência de pesos permite que a memória de longo prazo flua através de uma série de unidades conectadas sem causar a explosão ou o desaparecimento do gradiente. Figura 6 – Estado da célula Fonte: Modificada a partir de AGGA et al., 2022. Legenda: 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡 é a porta de esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡 é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. O caminho inferior, delimitado pelo retângulo tracejado em azul na Figura 7, representa o estado oculto, que encapsula as memórias de curto prazo. Essas memórias estão diretamente associadas aos pesos e vieses que podem modificá-las (YANG et al., 2022). 34 Figura 7 – Estado oculto Fonte: Modificada a partir de AGGA et al., 2022. Legenda: 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡 é a porta de esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡 é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. 3.3.2 Portas na Arquitetura LSTM A LSTM possui três portas principais: a porta de entrada, a porta de saída e a porta de esquecimento (LI et al., 2020; SHARMA et al., 2022). Essas portas são fundamentais para controlar o fluxo de informações dentro da célula de memória, permitindo que a LSTM mantenha e atualize informações ao longo do tempo. Essa capacidade é crucial para o processamento de séries temporais extensas e para capturar dependências temporais de longo prazo (LI et al., 2020). a) Porta de esquecimento (𝒇𝒕) – decide quais informações devem ser descartadas do estado da célula. Utilizando uma função de ativação sigmoide 𝜎, gera valores entre 0 e 1 para cada elemento do estado da célula anterior, indicando a quantidade de informação a ser esquecida. 35 A decisão é baseada na saída concatenada do módulo anterior e na entrada atual (LI et al., 2020; SHARMA et al., 2022; ASGHAR et al., 2022); b) Porta de entrada (𝒊𝒕) – determina quais informações novas da entrada atual devem ser adicionadas ao estado da célula. A função de ativação sigmoide 𝜎 gera valores entre 0 e 1 para cada elemento da entrada, refletindo a relevância das informações a serem armazenadas. Esses valores são então combinados com candidatos a serem incluídos na memória (LI et al., 2020; SHARMA et al., 2022; ASGHAR et al., 2022); c) Porta de saída (𝒐𝒕) – define quais partes do estado da célula devem ser utilizadas como saída no momento atual. Primeiro, uma função de ativação sigmoide 𝜎 determina as partes do estado da célula a serem expostas. Em seguida, o estado da célula é passado por uma função de ativação tangente hiperbólica 𝑡𝑎𝑛ℎ e multiplicado pelo resultado do portão de saída, resultando na saída da célula naquele instante (LI et al., 2020; SHARMA et al., 2022; ASGHAR et al., 2022). 3.3.3 Etapas de Cálculo na LSTM Na arquitetura LSTM, cada célula realiza três etapas principais durante o processo de computação: esquecer, lembrar e atualizar. Essas etapas permitem que a LSTM aprenda e mantenha informações relevantes ao longo do tempo, o que é crucial para lidar com sequências de dados longas. A etapa de esquecer decide quais informações do estado da célula devem ser descartadas. A etapa de lembrar determina quais novas informações devem ser adicionadas à memória. Finalmente, a etapa de atualizar ajusta o estado da célula com base nas informações retidas e nas novas entradas. Essas etapas permitem que a LSTM mantenha informações importantes e ignore dados irrelevantes, o que é especialmente útil em tarefas como processamento de linguagem natural e previsão de séries temporais. Os valores calculados em cada etapa, conforme ilustrado na Figura 8, são usados para atualizar o estado da célula, que representa a memória de longo prazo. 36 Figura 8 – Etapas de cálculo na LSTM Fonte: Modificada a partir de AGGA et al., 2022. Legenda: 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 são as funções sigmoide; 𝑡𝑎𝑛ℎ é a função tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑓𝑡 é a porta de esquecimento; 𝑖𝑡 é a porta de entrada; 𝑜𝑡 é a porta de saída; �̃�𝑡 é o novo estado da célula; e 𝑊𝑓, 𝑊𝑖, 𝑊𝑐 e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. Na primeira etapa (ver Figura 9), a porta de esquecimento 𝑓𝑡 é calculada para decidir quais informações antigas na célula de memória devem ser mantidas ou descartadas com base na entrada atual e no estado anterior. Inicialmente, a entrada atual 𝑥𝑡 e o estado anterior ℎ𝑡−1 são concatenados em um único vetor [𝑥𝑡 , ℎ𝑡−1]. Uma camada totalmente conectada, geralmente implementada como uma multiplicação de matriz, é aplicada ao vetor concatenado para calcular os valores de ativação. O cálculo do portão de esquecimento é dado por: 𝑓𝑡 = 𝜎(𝑊𝑓 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑓) (1) onde 𝑊𝑓 é a matriz de pesos associada à entrada e ao estado anterior para a porta de esquecimento; 𝑏𝑓 é o vetor de vieses para a porta de esquecimento; e 𝜎 é a função 37 de ativação sigmoide, que comprime os valores entre 0 e 1. Os valores obtidos representam as proporções das informações antigas que devem ser mantidas ou esquecidas. O valor do portão de esquecimento é então multiplicado elemento por elemento com o estado da célula anterior 𝐶𝑡−1 conforme mostrado em: 𝐶′𝑡 = 𝑓𝑡 . 𝐶𝑡−1 (2) Isso significa que, se o valor do portão de esquecimento estiver próximo de 1, a informação da célula de memória anterior será mantida. Se estiver próximo de 0, a informação será descartada (NGUYEN et al., 2021), conforme ilustrado na Figura 9. Figura 9 – Primeira etapa do cálculo Fonte: Modificada a partir de HUANG et al., 2019. Legenda: 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 é a memória do vetor para curto prazo; 𝑐𝑡−1 e 𝑐′𝑡−1 são as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; x é onde ocorre a multiplicação; 𝑓𝑡 é a porta de esquecimento; e 𝑊𝑓, são os pesos e vieses aprendidos durante o treinamento. 38 Na segunda etapa (ver Figura 10), a porta de entrada 𝑖𝑡, determina quais novas informações devem ser incorporadas ao estado da célula com base na entrada atual e no estado anterior. Uma camada é aplicada ao vetor concatenado para calcular os valores de ativação, conforme descrito em: 𝑖𝑡 = 𝜎(𝑊𝑖 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑖) (3) onde 𝑊𝑖 é a matriz de pesos associada à entrada e ao estado anterior para a porta de entrada; 𝑏𝑖 é o vetor de vieses para a porta de entrada; e 𝜎 é a função de ativação sigmoide, que comprime os valores entre 0 e 1. Em seguida, um novo candidato para o estado da célula, �̃�𝑡, é calculado aplicando a função tangente hiperbólica 𝑡𝑎𝑛ℎ, conforme mostrado em: �̃�𝑡 = tanh (𝑊𝑐 . [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑐) (4) onde 𝑊𝑐 é a matriz de pesos associada à entrada e ao estado anterior para o estado candidato; 𝑏𝑐 é o vetor de vieses para o estado candidato; e 𝑡𝑎𝑛ℎ é a função tangente hiperbólica, que gera valores entre -1 e 1. O estado da célula é atualizado combinando a porta de entrada 𝑖𝑡 e o estado candidato �̃�𝑡 com o estado da célula anterior 𝐶𝑡−1, como descrito em: 𝐶𝑡 = 𝑖𝑡 . �̃�𝑡 + 𝑓𝑡 . 𝐶𝑡−1 (5) Isso significa que a porta de entrada controla quanto da informação candidata deve ser adicionada ao estado da célula, enquanto a porta de esquecimento determina a quantidade de informações antigas a ser retida. Esse processo é totalmente ilustrado na Figura 10 (NGUYEN et al., 2021). 39 Figura 10 – Segunda etapa do cálculo Fonte: Modificada a partir de HUANG et al., 2019. Legenda: onde 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 é a memória do vetor para curto prazo; 𝑐′𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; 𝑡𝑎𝑛ℎ é a função tangente hiperbólica; x é onde ocorre a multiplicação; + é onde ocorre a soma; 𝑖𝑡 é a porta de entrada; e 𝑊𝑖 e 𝑊𝑓 são os pesos e vieses aprendidos durante o treinamento. A última etapa (ver Figura 11) em uma unidade LSTM envolve o cálculo da porta de saída 𝑜𝑡, que determina quais partes do estado da célula devem ser expostas como saída, com base na entrada atual e no estado anterior. Uma camada é então aplicada ao vetor concatenado para calcular os valores de ativação, conforme mostrado em: 𝑜𝑡 = 𝜎(𝑊𝑜. [𝑥𝑡 , ℎ𝑡−1] + 𝑏𝑜) (6) onde 𝑊𝑜 é a matriz de pesos associada à entrada e ao estado oculto anterior para o portão de saída; 𝑏𝑜 é o vetor de vieses para a porta de saída; e 𝜎 é a função de ativação sigmoide, que comprime os valores entre 0 e 1. O estado atual da célula 𝐶𝑡 é passado pela função de ativação tangente hiperbólica 𝑡𝑎𝑛ℎ, que restringe seus valores entre -1 e 1, conforme visto em: 40 ℎ𝑡 = 𝑜𝑡 . tanh (𝐶𝑡) (7) Neste passo, o estado atual da célula 𝐶𝑡 é multiplicado pelo valor da porta de saída 𝑜𝑡, controlando assim quanto da informação da célula deve ser transmitida como saída. A porta de saída permite que a unidade decida quais partes do estado da célula atual são mais relevantes para a saída e regula a quantidade de informação que é efetivamente transmitida. Esse mecanismo é crucial para a geração de previsões ou para a extração de informações relevantes das sequências de entrada, garantindo que apenas as informações mais significativas sejam utilizadas na próxima etapa de processamento (NGUYEN et al., 2021). O processo total está na Figura 11. Figura 11 – Terceira etapa do cálculo Fonte: Modificada a partir de HUANG et al., 2019. Legenda: onde 𝑥𝑡 é o vetor de entrada/saída; ℎ𝑡−1 e ℎ𝑡 são as memórias do vetor para curto prazo; 𝑐𝑡−1 e 𝑐𝑡 são as saídas do bloco anterior para longo prazo; 𝜎 é a função sigmoide; 𝑡𝑎𝑛ℎ é a função tangente hiperbólica; x é onde ocorre a multiplicação; 𝑜𝑡 é a porta de saída; e 𝑊𝑜 são os pesos e vieses aprendidos durante o treinamento. 41 Na Figura 11, o ℎ𝑡 representa a saída da célula LSTM em um determinado instante de tempo. O ℎ𝑡 é o estado oculto, ou seja, a memória que a célula LSTM retém naquele momento, contendo informações sobre o que foi aprendido até aquele ponto da sequência. Esse estado é responsável por capturar padrões de longo prazo nas entradas. Além do estado oculto, a LSTM também mantém o estado da célula, chamado de 𝐶𝑡, que armazena a memória interna da célula. Esse estado é controlado pelas três portas da LSTM. O ℎ𝑡 é passado para o próximo instante de tempo da rede, permitindo que a LSTM continue e transfira a memória das informações processadas ao longo da sequência. Isso possibilita que a rede capture dependências de longo prazo e contextualize as entradas atuais com as informações já processadas. Ao ser copiado "para cima", o ℎ𝑡 é enviado para a próxima célula da LSTM e pode ser utilizado como entrada para outros componentes da arquitetura da rede neural. Além disso, o ℎ𝑡 é usado para gerar a saída imediata da rede, que é produzida de forma sequencial. O ℎ𝑡 contém dados sobre o estado atual da sequência processada, sendo essencial para calcular as saídas em cada passo da rede. 3.4 Avaliação do Resultado A avaliação do desempenho de métodos de previsão é fundamental para determinar o quão próximo o valor previsto está do valor real. As métricas mais utilizadas para essa avaliação incluem o erro médio quadrático (MSE), a raiz quadrada do erro médio quadrático (RMSE) e o erro médio absoluto (MAE). A seguir, cada uma dessas métricas é detalhada. O MSE é uma métrica amplamente utilizada para avaliar o desempenho de modelos de regressão. Ele calcula a média dos quadrados das diferenças entre os valores previstos pelo modelo e os valores reais (AHMED et al., 2020). A expressão do MSE é dada por: 𝑀𝑆𝐸 = 1 𝑛 ∑ (𝑦𝑖 − �̂�𝑖)2𝑛 𝑖=1 (8) 42 onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real do 𝑖; �̂�𝑖 é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos de dados no conjunto de teste. O MSE possui as seguintes características: a) Evidencia os erros grandes – por elevar as diferenças ao quadrado, o MSE evidencia os erros maiores, tornando-o sensível a valores discrepantes (outliers); b) Unidades ao quadrado – os resultados do MSE estão em unidades ao quadrado, o que pode dificultar a interpretação direta; c) Média das diferenças ao quadrado – o MSE fornece uma média dos erros ao quadrado, dividida pelo número total de pontos de dados, tornando-o alheio ao tamanho do conjunto de dados; d) Interpretação direta – um valor menor de MSE indica que o modelo está fazendo previsões mais precisas. O RMSE é uma métrica derivada do MSE, mas é mais intuitiva, pois fornece o erro médio em unidades originais dos dados (AHMED et al., 2020). A expressão do RMSE é dada por: 𝑅𝑀𝑆𝐸 = √ 1 𝑛 ∑ (𝑦𝑖 − �̂�𝑖)2𝑛 𝑖=1 (9) onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real do 𝑖; �̂�𝑖 é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos de dados no conjunto de teste. O RMSE possui as seguintes características: a) Unidades originais – o RMSE expressa o erro nas mesmas unidades dos dados, facilitando a interpretação; b) Sensibilidade a valores discrepantes – assim como o MSE, o RMSE é sensível a valores discrepantes; c) Interpretação direta – um valor menor de RMSE indica um melhor ajuste do modelo aos dados reais. O MAE mede a média das diferenças absolutas entre os valores previstos e os valores reais, sem considerar a direção do erro (subestimação ou superestimação) (AHMED et al., 2020). A expressão do MAE é dada por: 43 𝑀𝐴𝐸 = 1 𝑛 ∑ |𝑦𝑖 − �̂�𝑖|𝑛 𝑖=1 (10) onde 𝑛 é o número de pontos de dados no conjunto de teste; 𝑦𝑖 é o valor real de 𝑖; �̂�𝑖 é o valor previsto pelo modelo para 𝑖; Σ indica a soma dos termos para todos os pontos de dados no conjunto de teste. O MAE possui as seguintes características: a) Robustez a valores discrepantes – o MAE é menos sensível a valores discrepantes em comparação com o MSE e o RMSE, pois não envolve a elevação ao quadrado das diferenças; b) Igualdade de peso para todos os erros – ao contrário do MSE e do RMSE, o MAE trata todos os erros de forma igual, sem evidenciar os erros maiores; c) Interpretação direta – o MAE fornece uma medida direta e fácil de interpretar da média dos erros, em unidades originais dos dados. A escolha entre MSE, RMSE e MAE depende dos objetivos específicos da análise e das características dos dados. O MSE e o RMSE são adequados quando se deseja evidenciar erros maiores, enquanto o MAE oferece uma avaliação mais equilibrada, menos influenciada por valores discrepantes. Utilizar essas três métricas em conjunto proporciona uma visão mais abrangente do desempenho do modelo, permitindo uma avaliação mais completa de diferentes aspectos dos erros de previsão. Essas métricas foram aplicadas neste trabalho para analisar a previsão de produção de energia fotovoltaica, oferecendo uma compreensão detalhada de como o modelo se comporta em termos de diferentes tipos de erros. 3.5 Hiperparâmetros da LSTM A LSTM possui hiperparâmetros que precisam ser configurados antes do treinamento, influenciando como a rede aprende e generaliza os dados. Esses hiperparâmetros podem ser ajustados conforme o problema específico e os dados utilizados para treinar a LSTM. Encontrar a combinação ideal muitas vezes requer experimentação e ajuste fino (fine-tuning). No modelo de LSTM, uma única camada é mais simples e fácil de treinar, porém múltiplas camadas podem lidar melhor com tarefas complexas. Portanto, para 44 capturar padrões mais complexos e dependências de longo prazo nos dados, é necessário considerar a variação na quantidade de camadas. No entanto, deve-se ter cuidado ao aumentar a quantidade de camadas, pois pode-se elevar os requisitos computacionais e o risco de sobreajuste (overfitting) (WANG et al., 2019). Variar a quantidade de neurônios em cada camada é essencial para otimizar o desempenho de modelos LSTM. Ao lidar com tarefas simples, um menor número de neurônios é a melhor escolha, pois isso simplifica o modelo, acelera o treinamento e reduz a probabilidade de sobreajuste em conjuntos de dados pequenos (WANG et al., 2019). No entanto, ao trabalhar com dados de alta dimensionalidade, um número maior de neurônios é mais adequado, pois aumenta a capacidade da rede de aprender com os dados e capturar padrões e relações mais complexas. O abandono (dropout) é uma técnica de regularização usada para evitar sobreajuste em redes neurais. Ele funciona "desativando" aleatoriamente uma fração dos neurônios durante o processo de treinamento, o que ajuda a evitar que o modelo dependa demais de neurônios específicos, melhorando assim a capacidade de generalização (ZAMAN et al., 2021). Se a taxa de abandono for 0, todos os neurônios são usados; se for 1, todos os neurônios são desativados, o que impossibilitaria o modelo de aprender. Com uma taxa baixa de abandono, a maioria dos neurônios é mantida, permitindo que o modelo aprenda padrões mais específicos dos dados de treinamento, mas isso pode levar ao sobreajuste. Com uma taxa de abandono alta, o modelo é bem regularizado, ficando mais robusto contra sobreajuste, mas uma taxa muito alta pode causar subajuste, que ocorre quando um modelo é muito simples para capturar a complexidade dos dados. Isso significa que o modelo não consegue aprender o suficiente dos padrões presentes nos dados, resultando em um desempenho ruim tanto no conjunto de treinamento quanto no conjunto de teste (ZAMAN et al., 2021). A normalização em lote (batch normalization) ajusta e escala as entradas de uma camada para cada minilote, o que ajuda a mitigar problemas com o gradiente, permite taxas de aprendizado mais altas e melhora tanto a eficiência do treinamento quanto a capacidade de generalização do modelo. Por isso, é relevante testar o tempo de execução e as métricas de erro com e sem essa técnica (ASGHAR et al., 2022). Adicionar mais camadas densas pode permitir que a rede LSTM aprenda características cada vez mais complexas e hierárquicas dos dados. Cada camada pode extrair características da saída da camada anterior, resultando em 45 representações mais ricas e abstratas. Isso ajudará a melhorar o desempenho em tarefas complexas e a aumentar a capacidade do modelo de fazer previsões precisas. No entanto, embora mais camadas possam aprimorar o aprendizado, também aumentam o risco de sobreajuste, especialmente em conjuntos de dados pequenos. Portanto, é necessário testar diferentes quantidades de camadas densas para encontrar o equilíbrio ideal entre complexidade do modelo e desempenho (WANG et al., 2019). As funções de ativação introduzem a não linearidade na rede, permitindo que ela aprenda e represente padrões complexos. Na camada densa ao final de uma rede LSTM, a escolha da função de ativação impacta diretamente na saída final e, consequentemente, o desempenho do modelo na previsão. Existem diferentes funções de ativação, tais como: a) Sigmoide – comprime os valores de entrada para uma faixa entre 0 e 1, sendo adequada para tarefas de classificação binária; b) Tanh – mapeia os valores de entrada para uma faixa entre -1 e 1, fornecendo saídas centradas em 0; c) ReLU – retorna o valor de entrada diretamente se for positivo ou zero, e retorna zero se for negativo, o que ajuda a reduzir o número de ativações e a mitigar o problema do gradiente que desaparece; d) Leaky ReLU – semelhante à ReLU, mas com uma inclinação pequena para valores negativos, evitando que neurônios "morram"; e) Softmax – converte os valores de previsão em probabilidades, garantindo que a soma seja igual a 1, sendo útil para problemas de classificação com múltiplas classes. O mecanismo de atenção permite que um modelo se concentre dinamicamente em partes específicas da sequência de entrada, atribuindo pesos diferentes aos elementos com base em sua relevância para a previsão. Isso ajuda o modelo a priorizar informações importantes e ignorar detalhes menos relevantes. Portanto, o impacto do uso do mecanismo de atenção e da ausência dele deve ser experimentado na rede LSTM, incluindo o tempo de execução e as métricas de erro. Variar o valor do horizonte temporal (timestep) pode explorar como diferentes comprimentos de sequência afetam o desempenho do modelo (AKHTER et al., 2022). Horizontes temporais mais curtos podem ser suficientes para tarefas com 46 dependências de curto prazo, enquanto horizontes temporais mais longos são necessários para capturar dependências de longo prazo (LI et al., 2023). O otimizador é um algoritmo usado para ajustar os pesos dos neurônios em redes neurais como as LSTMs, com o objetivo de minimizar a função de perda (NGUYEN et al., 2021). Existem diferentes otimizadores, como: a) RMSprop – o RMSprop (Root Mean Square Propagation) ajusta a taxa de aprendizado para cada parâmetro dividindo pela média recente dos quadrados dos gradientes para cada peso. Este otimizador é eficaz para problemas de otimização com variações nos gradientes (NGUYEN et al., 2021); b) AdaGrad – o AdaGrad (Adaptive Gradient Algorithm) ajusta a taxa de aprendizado individualmente para cada parâmetro, com base na frequência e na magnitude dos gradientes passados (NGUYEN et al., 2021); c) Adam – o Adam (Adaptive Moment Estimation) combina as vantagens do AdaGrad e do RMSprop, adaptando a taxa de aprendizado para cada parâmetro e utilizando momentos da média e da variância do gradiente. Este otimizador proporciona uma convergência mais rápida e estável (NGUYEN et al., 2021); d) SGD – o SGD (Stochastic Gradient Descent) atualiza os pesos usando a média das derivadas parciais da função de perda em um pequeno lote de dados. Este otimizador é simples e eficiente, mas pode enfrentar dificuldades com platôs e mínimos locais (NGUYEN et al., 2021). O otimizador tem uma taxa de aprendizado como parâmetro. Caso a taxa de aprendizado seja muito alta, o modelo pode não conseguir convergir para um mínimo global, resultando em oscilações nos valores da perda e até em falhas no treinamento. Por outro lado, uma taxa de aprendizado muito baixa pode fazer com que o processo de otimização seja extremamente lento, além de aumentar o risco de ajuste insuficiente (underfitting). No caso específico da rede LSTM, uma taxa moderada permite que o modelo aprenda de forma gradativa, evitando saltos excessivos no ajuste dos pesos e garantindo uma maior precisão nas previsões. Essa configuração busca otimizar o desempenho da rede ao longo das épocas de treinamento, garantindo uma convergência suave e eficiente, sem comprometer a capacidade do modelo de generalizar para novos dados. 47 A função de perda quantifica a diferença entre as saídas previstas do modelo LSTM e os valores reais alvo. Durante o treinamento, a função de perda fornece um sinal que orienta o algoritmo de otimização, como o Adam, sobre como ajustar os pesos do modelo. O objetivo do treinamento é minimizar essa perda, melhorando assim a precisão e o desempenho do modelo (NGUYEN et al., 2021; ASGHAR et al., 2022). Diferentes funções de perda podem levar a características distintas de desempenho do modelo, como a velocidade de convergência e a estabilidade do processo de treinamento. Portanto, é importante experimentar as funções de perda para determinar qual delas oferece os melhores resultados para a previsão (NGUYEN et al., 2021; ASGHAR et al., 2022). Existem diferentes funções de perda, como o MSE, o MAE e a Perda por Entropia Cruzada (Cross-Entropy Loss). A função de métricas na LSTM é essencial para monitorar o desempenho do modelo durante o treinamento. Elas podem fornecer informações sobre o quão bem o modelo está aprendendo os dados e se aprimorando ao longo das épocas. Após o treinamento, as funções de métricas ajudam na avaliação do modelo em conjuntos de validação e teste. Para as previsões e os conjuntos de dados em questão, considerou- se apenas as funções de métricas que fazem sentido em um contexto de regressão e que podem ser usadas diretamente na biblioteca Keras, como as funções de métricas MSE, RMSE e MAE, ao invés das funções de métricas de classificação. O tamanho do lote (batch size) é um hiperparâmetro importante no treinamento de modelos LSTM, pois define o número de exemplos de treinamento utilizados em uma iteração do processo de aprendizado (AHMED et al., 2022). A velocidade de treinamento pode ser influenciada pelo tamanho do lote: tamanhos maiores tendem a aproveitar de forma mais eficiente as capacidades de processamento paralelo do hardware, resultando em um tempo de computação mais rápido por época, pois com lotes maiores, mais exemplos de dados são processados simultaneamente. As operações em muitos dados são realizadas em paralelo ao mesmo tempo, maximizando a utilização do hardware. Em contrapartida, tamanhos menores podem resultar em um treinamento mais lento por época, mas têm o potencial de convergir mais rapidamente ao longo de várias iterações (AHMED et al., 2022). Com tamanhos de lote menores, menos exemplos de dados são processados ao mesmo tempo. Isso significa que a capacidade de processamento paralelo do hardware não é utilizada de forma otimizada, resultando em um desempenho geral mais lento. 48 O processamento paralelo em modelos de aprendizado de máquina, como as LSTMs, é uma técnica que permite realizar múltiplas operações simultaneamente, o que acelera o treinamento e a inferência. Há diversas formas pelas quais esse processamento paralelo é implementado, como por exemplo o uso de unidades de processamento gráfico (GPU) e unidades de processamento tensor (TPU). As GPUs são projetadas para realizar operações matemáticas em paralelo, tornando-as ideais para treinar modelos de aprendizado profundo. Elas possuem muitos núcleos de processamento que podem lidar com várias operações simultaneamente, como multiplicação de matrizes, que é comum em redes neurais. As TPUs são projetadas especificamente para operações de aprendizado de máquina. Elas otimizam o desempenho para tarefas envolvendo redes neurais, incluindo LSTMs, realizando operações em paralelo. Embora a atualização dos pesos em redes neurais é feita de forma sequencial, isso não significa que todos os aspectos do treinamento precisam ser sequenciais. Durante o treinamento, os pesos da rede neural são atualizados com base no erro calculado após a propagação da entrada. Essa atualização é realizada usando o algoritmo de otimização que ajusta os pesos com base no gradiente do erro em relação a cada peso. A atualização dos pesos ocorre após a passagem de um lote de dados pela rede. Portanto, mesmo que o cálculo dos gradientes seja feito em paralelo (para lotes maiores), a atualização dos pesos acontece uma vez por lote. Isso significa que, enquanto cada iteração pode ser processada em paralelo, as atualizações são feitas sequencialmente em relação aos lotes. Com lotes menores, há mais atualizações de pesos por época, pois o modelo atualiza os pesos após cada lote. Embora isso possa levar a uma convergência mais rápida em algumas circunstâncias (por conta das atualizações frequentes), também significa que cada atualização pode ser mais influenciada pelo ruído dos dados. Isso pode resultar em um caminho de otimização mais errático e potencialmente exigir mais épocas para convergir para uma solução estável. Com lotes maiores, há menos atualizações de pesos por época, mas cada atualização é baseada em uma estimativa mais robusta do gradiente, pois considera mais dados. Isso pode levar a um aprendizado mais estável, embora as atualizações sejam feitas com menos frequência. O consumo de memória também varia conforme o tamanho do lote: lotes maiores exigem mais memória, o que pode se tornar um fator limitante dependendo 49 das especificações do hardware. Por outro lado, lotes menores demandam menos memória, possibilitando o treinamento em hardware menos potente ou com modelos muito grandes (AHMED et al., 2022). Uma época (epoch) refere-se a uma passagem completa por todos os exemplos de treinamento, sendo sua principal função permitir que o modelo aprenda e refine seus parâmetros por meio de várias iterações sobre o conjunto de dados. Durante o processo de aprendizado, os pesos da rede neural são ajustados para minimizar a função de perda. Esse ajuste é feito através de múltiplas iterações, com cada época refinando os parâmetros do modelo (KUO et al., 2022). A quantidade de épocas pode impactar significativamente o desempenho final do modelo. Diferentes quantidades de épocas devem ser experimentadas para encontrar o equilíbrio ideal entre subajuste e sobreajuste (KUO et al., 2022). 3.6 Coeficiente de Correlação Em uma rede neural podem existir diferentes descritores. Para analisar quais descritores são mais relevantes e quais são menos relevantes, serão calculados os coeficientes de correlação entre eles, que são medidas estatísticas que avaliam a intensidade e a direção da relação linear entre duas variáveis (NGUYEN et al., 2021), permitindo que se entenda o grau de associação entre eles. Existem alguns tipos de coeficiente de correlação, como por exemplo: a) Correlação de Spearman – mede caso duas variáveis mudam juntas de forma que, quando uma aumenta, a outra também aumenta ou diminui de maneira previsível, mesmo que essa mudança não seja perfeitamente linear. Em vez de comparar os valores exatos, ela compara a ordem em que os valores aparecem (SCHOBER et al., 2018); b) Correlação de Pearson – específico para medir relações lineares entre variáveis. Assume que os dados são aproximadamente normais e que existe uma relação linear (LI et al., 2020). No cenário de previsão de produção de energia fotovoltaica utilizando redes neurais recorrentes do tipo LSTM, o uso do coeficiente de correlação de Pearson pode ser aplicado para verificar a relação linear entre os valores previstos e os valores reais. No entanto, como as redes LSTM são projetadas para capturar padrões temporais 50 complexos e não necessariamente lineares, o coeficiente de Pearson pode não ser a métrica mais adequada de forma isolada (SCHOBER et al., 2018). A correlação de Spearman é particularmente útil quando as variáveis não seguem uma distribuição normal ou quando a relação entre elas não é estritamente linear. A expressão do coeficiente de correlação de Spearman é dada por: 𝜌 = 1 − 6 ∑ 𝑑𝑖 2 𝑛(𝑛2−1) (11) onde 𝜌 representa o coeficiente de correlação de Spearman, a variável 𝑑𝑖 é a diferença entre os postos (ranks) de cada par de observações, e o termo 𝑛 corresponde ao número total de observações. As variáveis são convertidas em postos, e a diferença 𝑑𝑖 é calculada como a diferença entre o posto da variável 𝑥 e o posto da variável 𝑦. A soma dos quadrados das diferenças dos postos, ∑ 𝑑𝑖 2, reflete o quanto os pares de observações divergem em seus respectivos rankings. Quanto menor for essa soma, mais forte será a correlação monotônica entre as variáveis. Quando 𝜌 é igual a 1, há uma correlação positiva perfeita, indicando que as duas variáveis aumentam de forma consistente e proporcional. Quando 𝜌 é igual a -1, há uma correlação negativa perfeita, indicando que uma variável aumenta enquanto a outra diminui. Quando 𝜌 é próximo de 0, significa que não há uma relação monotônica entre as variáveis (SCHOBER et al., 2018). 51 4 METODOLOGIA Este capítulo detalha a metodologia utilizada na concepção e treinamento da rede neural recorrente LSTM para prever a produção de energia fotovoltaica com base em séries históricas e a comparação do uso de descritores no resultado da previsão. Será feito uma análise abrangente de todos os softwares e ferramentas utilizados no desenvolvimento do projeto, destacando o papel essencial das linguagens e frameworks empregados e será apresentada a discussão sobre a fonte de dados utilizada para treinar a rede LSTM, explorando suas características, limitações e disponibilidade. 4.1 Ambiente de Desenvolvimento A pesquisa desenvolvida para esta dissertação envolveu a criação de uma rede neural do tipo LSTM para realizar previsões de produção de energia fotovoltaica. O ambiente de desenvolvimento utilizado foi o Google Colab, uma plataforma Python hospedada em nuvem. Durante o processo, várias bibliotecas foram utilizadas para a implementação e análise do modelo: a) NumPy – biblioteca para computação científica em Python. Ela oferece suporte para vetores e matrizes multidimensionais, além de uma coleção de funções matemáticas de alto desempenho para operar sobre esses vetores. No projeto, foi utilizada para converter DataFrames (estruturas de dados bidimensionais semelhantes a tabelas) em vetores NumPy, facilitando o processamento dos dados para a construção do conjunto de dados (dataset) e o treinamento do modelo; b) Matplotlib – biblioteca usada para criar visualizações gráficas, como gráficos de linhas, barras, dispersão, histogramas, entre outros. No projeto, foi empregada para gerar gráficos que ajudam a visualizar a produção de energia ao longo dos anos, as previsões em comparação com os valores reais, e o histórico de treinamento do modelo; c) Seaborn – biblioteca baseada no Matplotlib, que fornece uma interface de alto nível para criar visualizações estatísticas e informativas. No 52 projeto, foi usada para configurar o estilo e a paleta de cores dos gráficos, tornando as visualizações mais fáceis de interpretar; d) Pandas – utilizada para a manipulação e análise de dados. Ela oferece estruturas de dados rápidas, flexíveis e expressivas, como os DataFrames, que permitem trabalhar com dados tabulares de forma eficiente. No projeto, foi utilizada para carregar o conjunto de dados (dataset), realizar operações de manipulação, agrupamento, criação de novas colunas, e para organizar os resultados das previsões em DataFrames; e) Keras – biblioteca de alto nível para construção e treinamento de modelos de redes neurais, projetada para permitir experimentação rápida e eficiente. No projeto, foi utilizada para definir e treinar a rede neural LSTM, além de carregar e salvar modelos e calcular métricas de perda e desempenho; f) Scikit-learn – biblioteca de aprendizado de máquina que fornece ferramentas simples e eficientes para análise de dados e modelagem preditiva. No projeto, foi usada para calcular métricas de desempenho do modelo, como o MSE, RMSE e o MAE, ajudando a avaliar a precisão das previsões; g) PyLab – módulo que faz parte do Matplotlib e combina a funcionalidade do NumPy com a capacidade de gerar gráficos do Matplotlib. Ele fornece uma interface simplificada para trabalhar com gráficos e cálculos numéricos. No projeto, foi utilizado para ajustar as configurações de exibição dos gráficos, como o tamanho das figuras, proporcionando maior controle sobre a aparência das visualizações; h) Google Colab – Serviço hospedado do Jupyter Notebook do Google, para desenvolvimento na linguagem de programação Python. 4.2 Fonte De Dados Existem várias fontes de dados gratuitas disponíveis que fornecem informações sobre a produção de energia fotovoltaica, como o NREL (centro de pesquisa e desenvolvimento financiado pelo governo federal dos EUA) e o Grupo 53 Fotovoltaica-UFSC no Brasil. Entretanto, após uma análise criteriosa dessas fontes, foi determinado que elas não atendem às necessidades específicas deste projeto. Embora ofereçam dados de produção de energia, esses conjuntos de dados apresentam diversas limitações: falta de uma série histórica extensa e contínua, alta quantidade de dados indisponíveis e, crucialmente, a ausência de dados meteorológicos, essenciais para treinar uma LSTM com os diferentes descritores. Devido a essas limitações, foi necessário buscar uma série histórica mais completa e adequada. Essa busca levou à escolha dos dados fornecidos pelo Desert Knowledge Australia Solar Centre (DKASC), localizado em Alice Springs, uma cidade remota no Território Norte da Austrália. Esses dados atendem melhor aos critérios do projeto, pois oferecem uma série histórica mais extensa e completa, com baixa incidência de indisponibilidade e a inclusão de dados meteorológicos, essenciais para o treinamento robusto do modelo. O complexo DKASC está operacional desde 2008, e abrange uma ampla variedade de tecnologias solares, proporcionando uma fonte rica e diversificada para o desenvolvimento do modelo. A Figura 12 ilustra a planta do complexo DKASC. Figura 12 – Planta do complexo DKASC Fonte: DKASC (2023). Conforme os termos e condições de uso dos dados fornecidos pelo complexo DKASC e pelo Projeto de Recursos Solares do Território do Norte, todos os dados produzidos por essas entidades estão protegidos por direitos autorais. Dessa forma, é imperativo que qualquer trabalho de pesquisa ou publicação que utilize esses dados inclua a seguinte declaração de isenção de responsabilidade: 54 Legal Disclaimer Desert Knowledge Australia, the Australian Government, the Northern Territory Government, and the project managers, Ekistica do not endorse, and accept no legal liability whatsoever arising from, or connected to, the outcomes and conclusions associated with the use of data from the Desert Knowledge Australia Solar Centre. (DKASC, 2023). Os dados foram coletados de um conjunto de módulos fotovoltaicos de silício monocristalino fabricados pela Trina Solar, uma empresa chinesa fundada em 1997, que se dedica à fabricação, comercialização e pesquisa e desenvolvimento de produtos fotovoltaicos. No sistema em questão, os módulos estão interligados eletricamente em série e em paralelo, a fim de otimizar a combinação de suas saídas e maximizar a produção de energia. A configuração de interconexão permite que a corrente gerada por cada módulo seja somada, enquanto a tensão é ajustada conforme necessário para atender aos requisitos do sistema, resultando em uma eficiência aprimorada e uma geração de energia mais consistente. A Figura 13 ilustra uma imagem do conjunto instalado, enquanto a Tabela 3 apresenta as especificações detalhadas da configuração do sistema. Figura 13 – Foto do conjunto Fonte: DKASC (2023). 55 Tabela 3 – Configurações do conjunto Fabricante Trina Solar Modelo TSM-175DC01 Tipo de célula Silício monocristalino Capacidade de geração do conjunto 10,5kW Capacidade de geração de um painel 175W Quantidade de painéis 2 conjuntos de 30 painéis Área do conjunto 2 conjuntos com 38,37m² cada um Tipo do rastreador DEGERenergie 5000NT de duplo eixo Tamanho do inversor 2 inversores de 6kW cada um Fabricante do inversor SMA Solar Technology AG Tipo do Inversor SMC 6000A Data da Instalação 8 de Janeiro de 2009 Inclinação em relação ao norte geográfico Variável. Rastreamento de duplo eixo Fonte: DKASC (2023). 4.3 Detalhamento dos Dados O conjunto de dados obtido do complexo DKASC possui a seguinte característica: a) Primeiro registro – 01/01/2014 às 00:00; b) Último registro – 13/09/2023 às 06:15; c) Quantidade de leituras – 1.020.173 registros; d) Intervalo entre cada leitura – 5 minutos. O conjunto de dados possui as informações seguintes: a) Data e hora das leituras [mm/dd/aaaa hh:mm]; b) Potência fotovoltaica [kW]; c) Velocidade do vento resultante [m/s]; d) Temperatura ambiente [°C]; 56 e) Umidade relativa [%]; f) Radiação global horizontal [W/m²]; g) Radiação horizontal difusa [W/m²]; h) Direção do vento [°]; i) Precipitação diária [mm]; j) Radiação global inclinada [W/m²]; k) Radiação difusa inclinada [W/m²]. Após uma análise detalhada das informações contidas no conjunto de dados, verificou-se que algumas colunas não apresentavam uma quantidade suficiente de valores para garantir um treinamento adequado do modelo. Portanto, as colunas que foram mantidas no conjunto de dados são as seguintes: a) Data e hora das leituras [mm/dd/aaaa hh:mm]; b) Potência fotovoltaica [kW]; c) Temperatura ambiente [°C]; d) Umidade relativa [%]; e) Radiação global horizontal [W/m²]; f) Radiação horizontal difusa [W/m²]; g) Direção do vento [°]; h) Precipitação diária [mm]; i) Radiação global inclinada [W/m²]; j) Radiação difusa inclinada [W/m²]. O próximo passo foi explorar o intervalo de dados disponível no conjunto, com o objetivo de identificar o período com a menor quantidade de dados ausentes. Para isso, realizou-se uma reamostragem dos dados, calculando as médias diárias. Esse procedimento converteu os dados de uma frequência temporal menor (como leituras a cada 5 minutos) para uma frequência temporal maior (médias diárias). Em seguida, foi preparada uma lista de anos abrangendo todo o intervalo disponível, de 2013 a 2023. Depois de explorar os dados e selecionar as regiões onde há poucas falhas, utilizou-se dos dados a cada 5 minutos para treinar a rede. 57 4.4 Divisão Dos Dados Dividir os dados em conjuntos de treinamento, validação e teste é uma prática comum em aprendizado de máquina e é crucial para avaliar o desempenho do modelo de forma adequada. Essa divisão é feita para garantir que o modelo aprenda de maneira eficaz, generalize bem para novos dados e seja capaz de fornecer previsões confiáveis. Estudos recentes (GUTIÉRREZ et al., 2021; ZAMAN et al., 2021; NGUYEN et al., 2021) sugerem diferentes proporções de divisão: a) 70% para treinamento, 15% para validação e 15% para teste; b) 80% para treinamento, 10% para validação e 10% para teste. Com base nessas referências bibliográficas, para este trabalho, o conjunto de dados foi dividido em 80% para treinamento, 10% para validação e 10% para teste. Isso implica que 80% dos dados foram empregados para treinar o modelo, enquanto os 20% restantes foram reservados para avaliação do modelo. 4.5 Definição dos Hiperparâmetros Na fase de experimentação dos hiperparâmetros para as redes LSTM, diversos parâmetros foram ajustados para encontrar a configuração ideal que resultasse em uma previsão precisa. Inicialmente, foi necessário testar diferentes quantidades de camadas LSTM, variando de uma a múltiplas camadas, a fim de verificar se a adição de mais níveis profundos na rede traria melhorias significativas no desempenho. A quantidade de neurônios em cada célula LSTM também foi ajustada, já que mais neurônios podem permitir que o modelo capture padrões mais complexos, mas, ao mesmo tempo, aumentar a probabilidade de sobreajuste. Foram testadas várias taxas de abandono, buscando o equilíbrio ideal entre a prevenção do sobreajuste e a preservação da capacidade do modelo de aprender com os dados. Em paralelo, a normalização em lote também foi avaliada, com o intuito de estabilizar o processo de treinamento e acelerar a convergência do modelo. Além disso, foram exploradas diferentes quantidades de camadas densas ao final da rede, as quais são responsáveis por realizar a combinação final das características extraídas pelas camadas LSTM. A escolha da função de ativação 58 nessas camadas densas também foi um ponto de estudo, para avaliar qual proporcionaria a melhor performance em termos de previsão. O uso do mecanismo de atenção também foi experimentado, uma vez que este permite ao modelo focar em partes específicas da sequência temporal que podem ser mais relevantes para a previsão. Outro fator relevante foi o horizonte temporal, tendo sido testados diferentes valores para identificar qual seria o mais adequado para capturar os padrões temporais sem introduzir ruído excessivo. No que se refere ao processo de otimização, foram experimentados diferentes otimizadores juntamente com diversas taxas de aprendizado, buscando uma configuração que permitisse ao modelo aprender de maneira eficiente, sem convergir muito rápido (o que poderia causar subajuste) ou muito devagar. A função de perda foi ajustada conforme a necessidade de minimizar os erros entre os valores previstos e os valores reais, e métricas como o erro médio absoluto e o erro quadrático médio foram utilizadas para avaliar o desempenho do modelo. Por fim, o tamanho do lote e a quantidade de épocas foram ajustados durante a fase de experimentação. O tamanho do lote afeta o número de amostras processadas antes de atualizar os pesos do modelo, influenciando tanto a precisão quanto a eficiência do treinamento. Já a quantidade de épocas foi ajustada para garantir que o modelo tivesse tempo suficiente para aprender, sem treinar em excesso, o que poderia levar ao sobreajuste. A arquitetura LSTM definida foi configurada com base na análise detalhada dos principais hiperparâmetros que influenciam o desempenho da rede. Primeiramente, foi adicionado uma camada de “Input” no modelo, que é uma prática utilizada ao utilizar a API “Sequential” do Keras, especialmente para modelos que utilizam camadas RNN, como as LSTMs. Essa abordagem fornece uma especificação clara da forma das entradas esperadas pelo modelo. Ao definir explicitamente o formato da entrada com a camada “Input”, garante-se que o modelo esteja corretamente configurado para receber dados no formato esperado e evita-se problemas potenciais relacionados à forma dos dados durante a construção e treinamento do modelo. Além disso, a inclusão da camada “Input” ajuda a prevenir mensagens de aviso sobre a configuração de camadas, garantindo que o modelo seja definido de maneira mais robusta e compatível com as melhores práticas do Keras. Essa definição também melhora a legibilidade e manutenção do código-fonte, uma 59 vez que torna explícita a estrutura do modelo desde o início, facilitando a compreensão e a modificação futura. Durante o treinamento dos modelos, utilizou-se o checkpoint de modelo, que salva automaticamente o modelo com o melhor desempenho (menor erro) no conjunto de validação. Na literatura, é comum partir-se do pressuposto de que o uso de múltiplos descritores meteorológicos com forte correlação resultará em desempenho igual ou superior ao modelo treinado exclusivamente com a energia fotovoltaica produzida. Por outro lado, espera-se que modelos treinados com descritores mais fracos apresentem desempenho inferior ao modelo treinado apenas com a energia fotovoltaica produzida, como evidenciado em estudos anteriores (GUTIÉRREZ et al., 2021; LIMOUNI et al., 2023; LI et al., 2023; NGUYEN et al., 2021; WENTZ et al., 2022). Para se comparar os resultados da previsão usando descritores meteorológicos e a energia gerada, foram treinados nove modelos, considerando diferentes combinações de descritores: a) Um modelo foi treinado utilizando apenas a energia fotovoltaica produzida como entr