UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” FACULDADE DE ENGENHARIA CÂMPUS DE ILHA SOLTEIRA ANGELO ANTONIO DE CARVALHO BONVICINE PREVISÃO DE CARGA PARA A PROGRAMAÇÃO DIÁRIA ELETROENERGÉTICA DO SISTEMA INTERLIGADO NACIONAL POR REDES NEURAIS ARTIFICIAIS Ilha Solteira 2021 ANGELO ANTONIO DE CARVALHO BONVICINE PREVISÃO DE CARGA PARA A PROGRAMAÇÃO DIÁRIA ELETROENERGÉTICA DO SISTEMA INTERLIGADO NACIONAL POR REDES NEURAIS ARTIFICIAIS Trabalho de conclusão de curso apresentado à Faculdade de Engenharia de Ilha Solteira – Unesp como parte dos requisitos para obtenção do título de Engenheiro Eletricista . Profª Dr. Anna Diva Plasencia Lotufo Orientadora Ilha Solteira 2021 Bonvicine Previsão de carga para a programação diária eletroenergética do Sistema Interligado Nacional por Redes Neurais ArtificiaisIlha Solteira2021 77 Sim Trabalho de conclusão de cursoEngenharia ElétricaEngenharia ElétricaNão . . . FICHA CATALOGRÁFICA Desenvolvido pelo Serviço Técnico de Biblioteca e Documentação Bonvicine, Angelo Antonio de Carvalho. Previsão de carga para a programação diária eletroenergética do Sistema Interligado Nacional por Redes Neurais Artificiais / Angelo Antonio de Carvalho Bonvicine. -- Ilha Solteira: [s.n.], 2021 77 f. : il. Trabalho de conclusão de curso (Graduação em Engenharia Elétrica) - Universidade Estadual Paulista. Faculdade de Engenharia de Ilha Solteira, 2021 Orientadora: Anna Diva Plasencia Lotufo Inclui bibliografia 1. Previsão de carga. 2. Planejamento da operação eletroenergética. 3. Modelo DESSEM. 4. Séries temporais. 5. Redes Neurais Recorrentes. 6. LSTM. B723p DEDICATÓRIA Ao meu amor. AGRADECIMENTOS Agradeço, inicialmente,a minha família, em especial meu pai, pela oportunidade de ingressar nessa jornada, e por tanto apoiar quando mais precisei. À minha namorada Thayná e sua mãe Lucilene, minha segunda família. Aos meus amigos mais próximos pelo carinho e parceria de longa data. Aos meus colegas de república, por dividirem suas vidas e rotinas comigo, e aos quais tenho grande admiração. Ao meu colega de profissão e amigo, Bruno Morelli, pelos conselhos e ajuda na escolha do tema deste trabalho. Aos demais amigos e colegas da UNESP, por compartilharem momentos incríveis e experiências nessa jornada. À minha orientadora, professora Anna Diva, pela confiança em meu trabalho e pela pronto suporte na orientação e desenvolvimento deste trabalho de graduação. RESUMO Em janeiro de 2021 houve a inclusão de um novo modelo na cadeia de modelos de planejamento eletroenergético desenvolvida pelo Centro de Pesquisas de Energia Elétrica, o CEPEL. Assim como os já consolidados modelos de médio e curto prazo desta cadeia, o modelo DESSEM requer uma gama de dados de entrada para seu funcionamento, dentre eles, a inclusão de uma curva de carga prevista para o horizonte do estudo de planejamento a ser executado, a qual o Operador Nacional do Sistema Elétrico, o ONS, constrói diariamente utilizando de suas metodologias. O objetivo deste trabalho é trazer uma contribuição utilizando conceitos de Redes Neurais Recorrentes com estruturas LSTM, para elaboração de um modelo de previsão de carga, que possa ser utilizado alternativamente ao modelo ONS para elaboração da curva de carga associada a programação diária eletroenergética do Sistema Interligado Nacional, o SIN. Palavras-Chave: Previsão de Carga, Planejamento da operação eletroenergética, Modelo DESSEM, Séries Temporais, Redes Neurais Recorrentes, LSTM. ABSTRACT In January 2021, a new model was included in the chain of electro-energy planning models developed by the Electric Energy Research Center, CEPEL. As well as the consolidated medium and short-term models of this chain, the DESSEM model requires a range of input data for its operation, as for example, the inclusion of a forecasted load curve for the horizon of the planning study to be executed, where the National Electric System Operator, ONS, builds daily using its methodologies. The objective of this work is to contribute using concepts of Recurrent Neural Networks with LSTM structures, for the elaboration of a load forecast model, which can be used alternatively to the ONS model for building the load curve associated with the daily electrical energy schedule of the Interconnected System National, the SIN. Keywords: Electrical Load forecast, Planning of electrical energy operation, DESSEM model, Time Series, Recurrent Neural Networks, LSTM. LISTA DE FIGURAS Figura 1 - Agentes institucionais do setor elétrico Brasileiro 19 Figura 2 - Problema de decisão da operação 20 Figura 3 - Funções de custo imediato e custo Futuro 21 Figura 4 - Estrutura de REE’s e Subsistemas de energia 23 Figura 5 - Cadeia de modelos de otimização desenvolvido pelo CEPEL 25 Figura 6 - Representação do sistema hidrotérmico pelo modelo DESSEM 27 Figura 7 - Representação dos horizontes de estudo do modelo DESSEM. 28 Figura 8 - Representação em patamares cronológicos do modelo DESSEM 29 Figura 9 - Visão geral do Processo de Consolidação da previsão de Carga Diária 32 Figura 10 - Estrutura da rede ANNSTLF. 33 Figura 11 - Modelo de neurônio artificial. 37 Figura 12 - Função de ativação Limiar (Heaviside) 38 Figura 13 - Função linear por partes 39 Figura 14 - Função sigmóide 40 Figura 15 - Redes neurais de camada única e multicamada 41 Figura 16 - Rede recorrente com neurônios ocultos 42 Figura 17 - Versão desdobrada do grafo computacional de uma RNN. 44 Figura 18 - O problema do desaparecimento do gradiente. 49 Figura 19 - Estrutura do Bloco de memória LSTM 50 Figura 20 - Preservação do gradiente pela adição de LSTM 51 Figura 21 - Séries temporais de Carga [MW médio] e Temperatura [°C] | Sudeste/Centro-Oeste 56 Figura 22 - Histograma 2D - Carga versus Temperatura 57 Figura 23 - Matriz de correlação de Pearson - Carga versus Temperatura. 58 Figura 24 - Análise de FFT para séries de temperatura e Carga. 59 Figura 25 - Séries temporais sintéticas de frequência diária. 60 Figura 26 - Estimador de Linha de Base (repetição). 64 Figura 27 - Funções de custo de treino e validação. 67 Figura 28 - Performance no conjunto de dados de Teste. 68 Figura 29 - Análise da previsão semanal do Modelo LSTM 69 Figura 30 - Previsão de carga diária para o sábado - 22 de maio de 2021 70 LISTA DE TABELAS Tabela 1 - Proporção de segmentação dos conjuntos de dados de Treino, Validação e Teste. 61 Tabela 2 - Datasets de treinamento, validação e teste do modelo de Rede Neural LSTM. 61 Tabela 3 - Sumário do modelo de rede neural LSTM. 63 Tabela 4 - Sumário do modelo de Rede Neural Recorrente sem estruturas LSTM. 64 Tabela 5 - Valores de Hiperparâmetros da etapa de Backpropagation. 66 LISTA DE QUADROS Quadro 1 - Estrutura de arquivos de entrada do modelo PrevCargaDessem 54 LISTA DE ABREVIAÇÕES E SIGLAS ADAM Adaptive Moment Estimation ANEEL Agência Nacional de Energia Elétrica ANNSTLF Artificial Neural Network Short-term Load Forecaster B(R)LF Base or regular load forecaster BPTT Backpropagation Through Time C(D)LF Change or Delta Load Forecaster CCEE Câmara de Comercialização de Energia Elétrica CEPEL Centro de Pesquisas de Energia Elétrica CMSE Comitê de Monitoramento do Setor Elétrico CNPE Conselho Nacional de Política Energética DECOMP Modelo de Planejamento da Operação de Sistemas Hidrotérmicos Interligados de Curto Prazo DESSEM Modelo de Despacho Hidrotérmico de Curto Prazo EPE Empresa de Pesquisa Energética EPRI Electric Power Research Institute FCF Função de Custo Futuro FCI Função de Custo Imediato FFT Fast Fourier Transform GPU Graphic Processing Units LSTM Long-Short Term Memory MAPE Mean Absolute Percentage Error MME Ministério de Minas e Energia MSE Mean Squared Error NEWAVE Modelo de Planejamento da Operação de Sistemas Hidrotérmicos Interligados de Longo e Médio Prazo ONS Operador Nacional do Sistema PDDE Programação Dinâmica Dual Estocástica PDE Programação diária Eletroenergética REE Reservatório Equivalente de Energia RFFT Real Fast Fourier Transform RLS Recursive Least Squares RNN Redes neurais Recorrentes RTRL Real Time Recurrent Learning SEB Sistema Elétrico Brasileiro SIGA Sistema de Informações de Geração da Aneel SIN Sistema Interligado Nacional SVR Support Vector Regression LISTA DE SÍMBOLOS 𝑥 𝑖 i-ésimo elemento do vetor de Entrada da Rede Neural. 𝑤 ℎ𝑖 i-ésimo peso sináptico da camada oculta h. 𝑢 ℎ𝑘 Somatório das entradas do neurônio k da camada h. 𝑣 ℎ𝑘 Campo local induzido do neurônio k na camada h. 𝑦 𝑖 i-ésimo elemento do vetor de Saída da rede Neural (v)φ Função de ativação. 𝐿(𝑦, 𝑦) Função de custo (Loss Function).. δ ℎ𝑘 Delta de erro do neurônio k da camada h 𝑓 𝑖 𝑡 Ativação do Forget Gate da célula LSTM i no estágio t. 𝑔 𝑖 𝑡 Ativação do Input Gate da célula LSTM i no estágio t. 𝑞 𝑖 𝑡 Ativação do Output Gate da célula LSTM i no estágio t. 𝑠 𝑖 𝑡 Estado culto da célula LSTM i no estágio t. SUMÁRIO 1 - INTRODUÇÃO 17 1.2 - Resumo da estrutura Setor Elétrico Brasileiro 18 1.3 - Planejamento da operação do sistema elétrico 20 2 - MODELOS DE OTIMIZAÇÃO ENERGÉTICA 25 2.1 - Modelo NEWAVE 26 2.2 - Modelo DECOMP 26 2.3 - Modelo DESSEM 27 3 - PREVISÃO DE CARGA PARA O MODELO DESSEM 30 3.1 - Definição de Carga pelo ONS 30 3.2 - Previsão de carga para programação diária da operação eletroenergética (PDE) 31 3.2 - Modelos de Previsão de Carga 32 4 - REDES NEURAIS ARTIFICIAIS 35 4.1 - A estrutura do neurônio artificial. 36 4.2 - Funções de ativação 38 4.3 - Redes neurais de multicamada 41 4.4 - Redes Neurais Recorrentes 42 5 - TREINAMENTO DE REDES NEURAIS 45 5.1 - Função de Custo (Loss Function) 45 5.2 - Algoritmo de Retropropagação (backpropagation) 46 6 - LONG SHORT TERM MEMORY (LSTM) 49 6.1 - Estrutura geral de redes LSTM 50 6.2 - Equações das estruturas LSTM 52 6.3 - Cálculo do Gradiente 53 7 - DADOS DE ENTRADA DO MODELO DE REDE NEURAL LSTM 54 7.1 - Principais dados de entrada 54 7.2 - Análise dos dados históricos de Carga e Temperatura. 56 7.3 - Preparação dos dados de Treinamento, Validação e Teste 60 7.4 - Ajuste de escala dos dados de entrada 62 8 - ELABORAÇÃO E TREINAMENTO DO MODELO 63 8.1 - Estimadores de Referência 63 8.2 - Ambiente de construção dos modelos 65 8.3 - Treinamento do modelo LSTM 65 9 - RESULTADOS E DISCUSSÕES 67 10 - CONCLUSÕES 71 10.1 - Sugestões para trabalhos futuros 72 REFERÊNCIAS 73 1 - INTRODUÇÃO O Brasil é o país com uma das mais complexas estruturas elétricas do mundo. Operar um sistema elétrico de proporções continentais exige um planejamento eficiente e adequado, que possibilite a exploração inteligente de seus recursos. Planejamento e investimento, são pilares que estão vinculados à saúde do sistema elétrico como um todo, e episódios históricos de relacionamentos mostraram a importância desses pilares, que em sua ausência trouxeram consequências sociais severas. Um planejamento otimizado tem como base fornecer uma política de evolução para o sistema elétrico como um todo, garantindo alguns preceitos fundamentais como: ● Aumento da energia disponível através do uso inteligente de seus recursos disponíveis. ● Garantia de maior confiabilidade dos consumidores de energia, assegurando suprimento contínuo, mesmo nos períodos de maior demanda. ● Minimizar os custos de operação do sistema, sempre levando em consideração as restrições sociais, ambientais, políticas, geográficas-temporais e financeiras. Dentre as entidades do setor elétrico, a responsabilidade de coordenar e gerenciar esse sistema pertence, atualmente, ao operador nacional do sistema ONS. Esse planejamento executado pelo operador abrange diferentes horizontes, longo, médio e curto prazo. Essa peculiaridade do planejamento se deve a natureza da matriz energética do Sistema Elétrico Brasileiro (SEB), sendo majoritariamente composta por usinas hidrelétricas, e que comporta volumosos intercâmbios de energia, através do Sistema interligado nacional, o SIN. Para executar este planejamento uma série de modelos computacionais, desenvolvidos pelo Centro de Pesquisas de Energia Elétrica ,o CEPEL, em parceria com o ONS, foram desenvolvidos. Esses modelos têm como objetivo representar da melhor forma possível a situação atual do SIN e promover uma operação otimizada, para cada um dos horizontes de planejamento. Inicialmente, os modelos NEWAVE e DECOMP executavam este papel de dar 17 apoio ao ONS nessa difícil tarefa, concebendo planejamentos com horizontes de médio e curto prazo, em bases mensal e semanal respectivamente. Com a crescente busca por melhorias de todo este processo, em janeiro de 2021 foi inserido oficialmente um terceiro modelo a essa cadeia, o modelo DESSEM, que por sua vez é responsável por fornecer o planejamento da programação diária da operação, em base horária ou semi-horária. Assim como os demais modelos, o DESSEM necessita de insumos de entrada para sua execução. A exemplo, é necessário fornecer uma curva de carga prevista, para ser utilizada no horizonte de planejamento do modelo, para que assim o modelo consiga determinar a melhor estratégia de uso dos recursos energéticos disponíveis para atender esta demanda. O ONS possui metodologias para elaboração dessa curva, as quais devem ser constantemente revisadas e melhoradas. O objetivo deste trabalho é fornecer uma contribuição neste sentido, utilizando uma abordagem com redes neurais artificiais para executar a etapa de previsão de carga, que poderá ser utilizada para alimentar o modelo DESSEM. 1.2 - Resumo da estrutura Setor Elétrico Brasileiro Sob o novo modelo descrito por Tolmasquim (2015), o governo federal definiu um conjunto de agentes institucionais com competências atribuições bem-definidas, objetivando garantir o bom funcionamento setorial e alcançar os três objetivos almejados, a saber, modicidade tarifária, segurança no suprimento e universalização do acesso. Segundo o autor, os agentes podem ser classificados em 3 níveis, seguindo a natureza jurídica do ente e suas competências jurídicas. Em breve resumo, as atividades do governo são exercidas pelo Conselho Nacional de Política Energética (CNPE), pelo Ministério de Minas e Energia (MME) e pelo CMSE. As atividades de regulação são exercidas pela ANEEL e, adicionalmente, entes operacionais executam atividades técnicas, como planejamento da expansão do setor (EPE), planejamento e 18 programação da operação (ONS) e a viabilização das atividades de comercialização (CCEE) (Tolmasquim, 2015). Figura 1 - Agentes institucionais do setor elétrico Brasileiro fonte: CCEE (2021) O Sistema Elétrico Brasileiro (SEB) apresenta características que fazem com que a operação e o planejamento do sistema sejam uma atividade complexa e de difícil implementação. Um atributo técnico fundamental do setor é o equilíbrio físico, o qual requer a coordenação do sistema, isso porque suas partes operam com forte interdependência. A geração de energia pode ser obtida de diversas fontes, com diferentes custos e impactos socioambientais. No caso das hidrelétricas, por exemplo, o insumo é um fluxo aleatório baseado no regime de chuvas, o que implica grande complexidade no processo de planejamento de curto e médio prazos, tarefa executada pelo ONS (Souza, 2014). 19 1.3 - Planejamento da operação do sistema elétrico Segundo dados do SIGA (2021), o sistema de geração de energia elétrica do Brasil conta com uma capacidade instalada de aproximadamente 175.700 MW de potência instalada, sendo 109.325 MW de natureza hidrelétrica. Outra grande parcela dessa geração é complementada basicamente por usinas termolétricas, juntamente com outras parcelas de fontes intermitentes. Nesse contexto, Souza (2014) destaca que em um sistema hidrotérmico em que tem-se; de um lado a disponibilidade futura de geração hídrica incerta, a um custo de geração considerado zero, de outro, a geração térmica futura supostamente conhecida, a um custo de geração elevado, fica evidente a necessidade de decidir a cada instante o nível de utilização térmica e hidráulica, onde a decisão tomada no presente, tem consequências diretas ao sistema, conforme exemplificado na figura 2. Figura 2 - Problema de decisão da operação fonte: Adaptado de Souza (2014) 20 A exemplo, caso ocorra um despacho hidrelétrico expressivo antes de um período seco, corre-se o risco de despachar térmicas com custo muito mais elevado no futuro. Por outro lado, um despacho térmico anterior a um período úmido poderá acarretar em vertimentos, incorrendo em desperdício de energia. Este problema é conhecido como “dilema do operador”, e é um exercício que mostra com clareza o acoplamento temporal entre as decisões tomadas na elaboração do planejamento da operação (Souza, 2014). Dessa forma uma operação equilibrada, como definido por Kelman (2001), seria aquela onde é possível gerar energia suficiente para atender a carga, com um pequeno risco de falha, havendo um compromisso mútuo entre deplecionar (usar água) ou não deplecionar (usar térmicas) os reservatórios. A variável de decisão é o volume de água armazenado ao final do período de operação. Tal decisão se associa a um custo imediato, vinculado as térmicas que deverão ser despachadas no horizonte de planejamento, representado pela função de custo imediato , e a𝐹𝐶𝐼 custos futuros associados à expectativa de despacho térmico, indicado pela função de custo futuro , conforme descrito por Pereira et al. (1998), conforme a figura 3.𝐹𝐶𝐹 Figura 3 - Funções de custo imediato e custo Futuro Fonte: Adaptado de Pereira et al. (1998) 21 Na figura 3, observa-se o crescimento da função de custo imediato à medida que o armazenamento esperado ao final do horizonte de planejamento aumenta, o que pressupõe-se um gasto mais elevado com térmicas para preservar estes reservatórios. Todavia, a função de custo futuro tem comportamento contrário a função de custo imediato, pois quanto maior o estoque final de energia ao final do planejamento, menores serão os gastos com combustíveis no futuro. (Souza 2014). Assim, a coordenação do planejamento da operação de um sistema hidrotérmico, como o SIN, pode ser desenhada como um problema de otimização de grande porte, com o acoplamento temporal e espacial da operação, dinâmico, estocástico, interconectado e não-linear. O SEB adota uma cadeia de modelos para a solução deste problema, que considera diferentes horizontes de planejamento, e que são acoplados através da função de custo futuro , cujos horizontes adotados são: longo prazo, médio prazo, curto prazo e programação diária.𝐹𝐶𝐹 Mais especificamente, definem-se como planejamento da operação, os esforços para desenhar o comportamento do sistema em um horizonte de até cinco anos, promovendo um aproveitamento racional dos recursos. A programação da operação tem por objetivo estabelecer a operação de curto prazo do sistema hidrotérmico, fornecendo sugestões de decisões operativas do sistema de geração que sejam factíveis dado um sistema de transmissão, e que respeitem as metas estabelecidas no planejamento da operação (Souza 2014). A solução destes modelos é efetuada através de algoritmos de Programação Dinâmica Dual Estocástica (PDDE) (Pereira e Pinto, 1991). Essa metodologia faz uso da decomposição de Benders (Benders, 1962), buscando encontrar estratégias ótimas para a operação dos subsistemas interligados. O regime de afluências é tratado por um modelo auto-regressivo periódico (McLeod, 1994). Esta estratégia realiza uma amostragem aleatória de diversos cenários gerados através do modelo auto-regressivo periódico, e realiza uma série de iterações, calculando as funções de custo futuro através da aproximação linear por partes de N retas tangentes, sendo N o número de iterações completas do modelo. 22 Objetivando reduzir o esforço computacional exigido pelos modelos, para o planejamento da operação a médio prazo, executada pelo modelo NEWAVE, é utilizada a agregação das usinas em reservatórios equivalentes de energia (REE) e submercados (ou subsistemas). Cada subsistema do SIN contém um conjunto de REE’s, e atualmente a modelagem do planejamento conta com 12 REE’s divididos em 4 submercados de energia (Sudeste e Centro-Oeste, Sul, Nordeste e Norte) conforme mostra a figura 4. Figura 4 - Estrutura de REE’s e Subsistemas de energia fonte: CEPEL , 2018b Porém, para verificar se a política da operação obtida pelo modelo de decisão estratégica será viável, é necessário desagregar a solução obtida para os reservatórios equivalentes em usinas individualizadas, ou seja, averiguar se as usinas que compõem o sistema equivalente serão 23 capazes de atender ao montante de geração hidráulica determinado para o sistema pelo modelo de decisão da programação de curto prazo, dada pelo modelo DECOMP. Em seguida, ajusta-se a proposta de despacho semanal ao modelo diário, pelo uso do modelo DESSEM (Souza 2014). 24 2 - MODELOS DE OTIMIZAÇÃO ENERGÉTICA O modelo NEWAVE, como já citado, tem foco em otimizar o uso da água, dependendo fortemente da estocasticidade, a qual é fundamentalmente representada por séries sintéticas geradas a partir de modelos de séries temporais autoregressivos, inseridos no módulo de energias afluentes (Souza, 2014). Para horizontes menores, é importante inserir outras variáveis de importância neste problema, a exemplo restrições de equipamentos de geração e transmissão. Assim, cabe ao modelo DECOMP minimizar o valor do custo total do sistema, dadas essas restrições. Neste horizonte menor, tanto DECOMP quanto DESSEM representam as usinas do sistema de forma individualizada, expressando suas características e restrições operativas, conforme descrito em Souza (2014). Figura 5 - Cadeia de modelos de otimização desenvolvido pelo CEPEL fonte: CEPEL, 2011 25 Destaca-se que é importante observar a redução de incertezas com relação às afluências conforme o nível de detalhamento do sistema avança, justificando a estratégia de acoplar os modelos através da função de custo futuro, . (Souza, 2014)𝐹𝐶𝐹 2.1 - Modelo NEWAVE O NEWAVE é um modelo de otimização para planejamento de médio e longo prazo, com discretização mensal e representação por sistemas equivalentes. Seu objetivo é minimizar o valor esperado do custo de operação do sistema, para todo período de planejamento, sob alguns parâmetros de confiabilidade. (Souza, 2014) Um dos principais resultados deste modelo, são as funções de custo futuro, com o objetivo de mensurar o impacto no uso dos reservatórios. Neste modelo, é possível representar os limites das interligações entre subsistemas do SIN, e tanto a carga quanto o custo de déficit são representados em patamares. Esses patamares são associados a valores de energia semelhantes em determinados períodos, que representam diferentes etapas de utilização do sistema, onde temos demandas de energia altas, médias e baixas (EPE, 2009). 2.2 - Modelo DECOMP Assim como o NEWAVE o modelo DECOMP também busca obter uma operação ótima para o sistema Hidrotérmico, mas em um horizonte de tempo mais curto. O DECOMP recebe a função de custo obtida pelo NEWAVE juntamente com dados de carga, vazões, disponibilidades e limites de transmissão entre submercados. Assim, o DECOMP obtém o resultado otimizado para o planejamento do primeiro mês em base semanal (Souza, 2014). É importante observar que as vazões previstas e a aleatoriedade das vazões do restante período são obtidas por um árvore de possibilidades e um parque gerador individualizado. 26 Conforme observado, o DECOMP é utilizado para operação de curto prazo do SEB, e assim como o NEWAVE depende fortemente de modelos estocásticos. (CEPEL, 2018a) 2.3 - Modelo DESSEM O terceiro modelo da cadeia, o modelo DESSEM, é desenvolvido pelo CEPEL desde 1998, e entrou em operação oficial a partir de janeiro de 2021. Este modelo se acopla com o modelo DECOMP através da função de custo futuro ao final de seu horizonte de planejamento, e tem foco na elaboração da programação diária da operação de sistemas hidrotérmicos, onde o despacho é efetuado com horizonte semi-horário, assim como a obtenção do preço horário de energia para o dia seguinte. Figura 6 - Representação do sistema hidrotérmico pelo modelo DESSEM fonte: CEPEL, 2019 27 O modelo DESSEM representa as usinas a nível de suas unidades geradoras e considera uma modelagem detalhada da rede elétrica, através de uma modelagem DC com ou sem perdas, além da inclusão de possíveis restrições. Também são representadas as restrições de unit commitment das usinas termoelétricas e a operação das usinas de ciclo combinado, definindo suas rampas de tomada e alívio de carga. Em termos hidrológicos, o modelo representa de forma precisa o balanço dos reservatórios, através da inclusão dos tempos fixos de viagem ou de curvas de propagação das vazões (CEPEL, 2019). Apesar do foco do modelo ser a programação diária, este dispõe de um máximo horizonte de estudo de até 14 dias, com a possibilidade de representar os intervalos de tempo em agregações: semi-horária, horária ou em termos de patamares cronológicos de duração variável. Figura 7 - Representação dos horizontes de estudo do modelo DESSEM. Fonte: CEPEL, 2019 Esses patamares cronológicos seriam compostos pela média dos valores associados às horas que compõem cada patamar. Para o caso da carga, essa curva seria agregada em intervalos superiores a uma hora (CEPEL, 2019). 28 Figura 8 - Representação em patamares cronológicos do modelo DESSEM fonte: CEPEL, 2019 É importante ressaltar, que esta representação em patamares está fortemente guiada pela curva de carga fornecida pelo modelo, porém não estão associadas, em termos de modelagem, aos patamares de carga adotados pelos modelos NEWAVE e DECOMP (CEPEL, 2019). Neste contexto, a curva de carga fornecida pelo ONS ao modelo DESSEM é obtida através de processos de previsão de carga, associados especificamente à programação diária da operação eletroenergética. 29 3 - PREVISÃO DE CARGA PARA O MODELO DESSEM A etapa de previsão de carga é uma peça fundamental na programação diária da operação. Estimar de forma precisa a demanda de energia ao longo do dia garante um despacho otimizado de usinas, de forma a atender essa demanda a determinados critérios e margens de segurança. Dentre os modelos de otimização, o foco deste trabalho está em abordar a etapa de previsão de carga para o modelo DESSEM, embora existam etapas semelhantes para os demais modelos, NEWAVE e DECOMP. Mais adiante, será discutida a metodologia proposta para elaboração desta curva de carga. De antemão, é necessário conhecer a metodologia padrão utilizada pelo ONS para elaboração desta curva, um processo detalhado e que adota diversos modelos para estimar a curva de carga para o dia seguinte, a chamada previsão de carga para a programação diária da operação (ONS, 2019). 3.1 - Definição de Carga pelo ONS O objetivo do sistema elétrico como um todo é atender a demanda dos consumidores conectados à rede. Todo o trabalho de otimização e planejamento da operação visa garantir o fornecimento contínuo de energia, ao menor custo, seguindo determinados critérios de segurança. Os consumidores conectados à rede geram uma demanda de potência, que deve ser atendida pelos diferentes recursos de geração disponíveis. Entretanto, deve-se considerar as perdas técnicas e não-técnicas associadas ao sistema de transmissão e distribuição. Dessa forma a Carga é definida como a demanda de potência mais as perdas do sistema de transmissão e distribuição (ONS, 2019) 𝐶𝑎𝑟𝑔𝑎 = 𝐷𝑒𝑚𝑎𝑛𝑑𝑎 + 𝑃𝑒𝑟𝑑𝑎𝑠 (3.1) 30 3.2 - Previsão de carga para programação diária da operação eletroenergética (PDE) Conforme ONS (2019), as previsões são elaboradas um dia antes da data da operação, em intervalos de 30 minutos, com um horizonte que varia entre 2 a 7 dias à frente. Essas previsões normalmente são para dias úteis ou finais de semana precedidos ou seguidos de feriados e dias de pontes. Previsões para datas especiais, como jogos do Brasil em copas do mundo e eleições, são elaboradas com maior antecipação porque consideram comportamentos de consumo de energia elétrica fora dos padrões normalmente observados, exigindo medidas operativas especiais. No ONS, o processo responsável pelas previsões de carga para PDE é chamado de Consolidação da previsão da carga diária e se divide em: a) Leitura das séries temporais de cargas verificadas por áreas e subsistemas em intervalos no dia corrente até o momento da previsão. b) Leituras das séries de temperaturas verificadas e previstas, em intervalos horários para o dia da operação. As previsões de temperatura são obtidas através dos modelos de previsão do CPTEC para as capitais do país. c) Geração de cenários de carga através dos modelos de previsão de carga de curto prazo considerando os principais cenários meteorológicos. d) Tomada de decisão. e) Envio das previsões para o processo da PDE. A etapa mais crítica é a tomada de decisão, pois ela consiste na elaboração de uma curva de carga diária para cada área e subsistema para o dia da operação. O objetivo desse processo é reduzir os desvios entre a previsão de carga nas áreas e subsistemas monitorados pelo operador a fim de garantir a segurança eletroenergética do sistema e a modicidade tarifária. (ONS 2019). Os dados faltantes e outliers são tratados utilizando modelos estatísticos, desenvolvidos pela UFRJ, CEPEL e ONS. A geração de cenários é feita através dos modelos de previsão de 31 curto prazo, desenvolvidos pelo CEPEL e ONS, além do ANNSTLF (Artificial Neural Network Short-term Load Forecaster) (ONS 2019). Figura 9 – Visão geral do Processo de Consolidação da previsão de Carga Diária Fonte: Adaptado de ONS, 2019 Por fim, todas as previsões geradas pelos modelos que serviram de base para a tomada de decisão, bem como as previsões finais para as áreas e subsistemas que foram enviadas para o processo da PDE são armazenadas na base de dados para fins de análise de desvios, aprimoramento dos modelos e auditoria (ONS 2019). 3.2 - Modelos de Previsão de Carga Os atuais modelos de previsão de carga utilizados pelo ONS (2019), para o processo de consolidação de carga diária são: ANNSTLF, CEPEL e ONS. 32 O ANNSTLF é um modelo desenvolvido pelo EPRI (Electric Power Research Institute) baseado em redes neurais do tipo feedforward. Este modelo é composto de duas redes neurais: B(R)LF (Base or regular load forecaster) e C(D)LF (Change or Delta Load Forecaster) além do modulo RLS (Recursive Least Squares), responsável pela combinação linear das saídas das redes anteriores e pelo resultado final do modelo. Este modelo encontra-se embarcado num software fechado e licenciado para uso do ONS. (ONS 2019). Figura 10 - Estrutura da rede ANNSTLF fonte: Adaptado de SHARAF et. al., 1993 O modelo do CEPEL, é baseado em SVR (Support Vector Regression) e foi desenvolvido em linguagem R (R é uma linguagem de programação e um ambiente de software livre para computação estatística e gráficos e é apoiado pela R foundation for Statistical Computing). Os dados do modelo são inseridos via “decks” de entrada e são lidos no formato de dataframe, i.e, um tipo de dados do R (ONS 2019). 33 O modelo do ONS é um combinação de modelos, dentre eles: Regressão Dinâmica, Redes Neurais, SVR, Regressão Quantílica e Similaridade de Temperatura, todos desenvolvidos em linguagem R. A tomada de decisão é efetuada através de avaliação de analistas especialistas para compor a curva de previsão de carga diária. A consolidação da carga diária, tal como vem sendo feito no ONS, tem garantido a eficiência e a eficácia dos processos da carga junto às áreas clientes, têm reduzido riscos elétricos e energéticos na operação em tempo real e tem contribuído de forma efetiva para a modicidade tarifária. Contudo, a dinâmica do mercado de energia elétrica exigirá mudanças constantes nos processos da carga, sobretudo na aquisição de dados e no aprimoramento dos métodos analíticos. O escopo deste trabalho, envolve propor uma metodologia, que possa ser utilizada de forma isolada, ou combinada com os demais modelos do ONS para efetuar estudos de previsão de carga. Neste contexto, a implementação deste modelo se dará através do uso de redes neurais recorrentes, projetadas para efetuar regressão da série temporal de carga. 34 4 - REDES NEURAIS ARTIFICIAIS As redes neurais artificiais, ou simplesmente redes neurais, são modelos de algoritmo de aprendizado de máquina, baseados no conceito de inteligência artificial. Estes modelos utilizam de grandes quantidades de dados, onde são treinados para estabelecer as correlações e interações entre as diferentes variáveis de determinado problema. Segundo Haykin (1999), a motivação para estudo e implementação de redes neurais se baseiam no reconhecimento de que nosso cérebro humano processa informações de uma forma inteiramente diferente que um computador tradicional. Complexo, não-linear e de processamento paralelo, nosso cérebro é capaz de realizar tarefas (como perceber padrões e realizar controle motor) com extrema agilidade, muito mais rápido que os computadores digitais existentes, e para isso utiliza de uma quantidade muito grande de células para efetuar este procedimento, os chamados neurônios. As redes neurais, de forma análoga, possuem os chamados neurônios artificiais, que são as unidades de processamento associadas, os chamados neurônios artificiais, e se assemelham ao cérebro convencional em dois aspectos: ● O conhecimento é adquirido pela rede a partir de seu ambiente por um processo de aprendizagem. ● Forças de conexão entre os neurônios, chamados de pesos sinápticos, são utilizados para armazenar o conhecimento adquirido. Esse processo de aprendizagem se dá através de um algoritmo de aprendizagem, ao qual modifica os pesos da rede de forma ordenada para alcançar o objetivo desejado do projeto. (Haykin, 1999). A escolha do modelo de redes neurais para executar a metodologia de previsão de carga, se baseia nos benefícios de adotar esta estratégia. Dentre as mais relevantes para esta tarefa em questão destaca-se: 35 Não-Linearidade. As conexões entre os neurônios da rede podem ser lineares, mas também podem ser adotadas relações não-lineares. Essas propriedades são importantes para correlacionar variáveis não linearmente relacionadas. (Haykin, 1999). Adaptabilidade. As redes neurais são capazes de adaptar seus pesos a modificações no ambiente. Em particular, uma rede treinada para operar em um ambiente específico pode ser retreinada para lidar com pequenas modificações nas condições operativas no ambiente (Haykin, 1999). Esses parâmetros são intrínsecos ao processo de previsão de carga, como as relações não-lineares entre suas principais variáveis e a constante evolução do SEB, exigindo certa adaptabilidade por parte do modelo utilizado. 4.1 - A estrutura do neurônio artificial. A estrutura principal de uma rede neural são seus neurônios. Eles são responsáveis pelo processamento das informações que chegam ao modelo, e são essenciais para a operação da rede neural. Dentre elementos básicos da rede, descritos segundo Haykin (1999), temos o conjunto dos sinais de entrada, representados pelo vetor . Esses sinais se relacionam𝑚 𝑥 = [𝑥 1 , 𝑥 2 ,..., 𝑥 𝑚 ] com o neurônio através de seu conjunto de pesos sinápticos, representados pela matriz de pesos𝑘 . Dessa forma o peso sináptico relaciona o elemento do vetor de𝑤 = [𝑤 𝑘1 , 𝑤 𝑘2 ,..., 𝑤 𝑘𝑚 ] 𝑤 𝑘1 𝑥 1 sinais de entrada com o neurônio .𝑘 36 Figura 11 - Modelo de neurônio artificial. fonte:Adaptado de Haykin, 1999 Estes pesos podem assumir valores positivos ou negativos, e no neurônio os sinais de entrada são combinados através de um somador, ponderados por seus respectivos pesos. Até este ponto, trata-se de uma simples transformação linear. Por fim, uma função de ativação iráφ(.) restringir a amplitude de saída de um neurônio a um valor finito. O bias pode ser inserido para𝑏 𝑘 aumentar ou diminuir a entrada líquida da função de ativação (Haykin, 1999). O sinal de bias, agregado ao valor do somatório de sinais de entrada , pode ser𝑣 𝑘 representado pela equação 4.1, onde é chamado de campo local induzido (Haykin,1999). 𝑣 𝑘 = 𝑢 𝑘 + 𝑏 (4.1) 37 Em termos matemáticos, podemos expressar o funcionamento de um neurônio artificial através do par de equações 4.2 e 4.3, sendo o sinal de saída do neurônio (Haykin, 1999):𝑦 𝑘 𝑢 𝑘 = 𝑗 = 1 𝑚 ∑ 𝑤 𝑘𝑗 𝑥 𝑗 (4.2) 𝑦 𝑘 = φ(𝑣 𝑘 ) (4.3) 4.2 - Funções de ativação A função de ativação define a saída do neurônio em função do campo local induzidoφ(𝑢) . Haykin (1999) cita alguns exemplos de funções de ativação, como funções de limiar, linear𝑣 𝑘 por partes e Sigmóide. A Função de limiar (Heaviside), a exemplo, pode ser definida pela seguinte expressão: φ(𝑣) = 1 ; 𝑠𝑒 𝑣 ≥ 0 φ(𝑣) = − 1 ; 𝑠𝑒 𝑣 < 0 (4.4) Figura 12 - Função de ativação Limiar (Heaviside) 38 fonte: Haykin, 1999 Este modelo é referido na literatura como o modelo de McCulloch-Pitts, em reconhecimento aos trabalhos de McCulloch e Pitts (1943). Neste modelo, caso a saída do campo local induzido seja negativa, a ativação é automaticamente nula A Função linear por partes, é descrita por uma equação de forma: φ(𝑣) = 1 ; 𝑠𝑒 𝑣 ≥ 1/2 φ(𝑣) = 𝑣 ; 𝑠𝑒 𝑣 > − 1/2 φ(𝑣) = 0 ; 𝑠𝑒 𝑣 < − 1/2 (4.5) Figura 13 - Função linear por partes Fonte: Haykin, 1999. Esta forma de função de ativação pode ser vista como uma aproximação de um amplificador não-linear, com duas regiões de saturação. 39 A função sigmóide possui um gráfico em forma de ‘s’, e é uma das mais comuns funções de ativação utilizadas para construção de redes neurais. Trata-se de uma função estritamente crescente, e um exemplo de de função sigmóide é a função logística. φ(𝑣) = 1/(1 + 𝑒−𝑎𝑣) (4.6) Figura 14- Função sigmóide Fonte: Haykin, 1999. O parâmetro ajusta a inclinação da função, cuja variação produz curvas com diferentes𝑎 inclinações. No limite, com o parâmetro de inclinação tendendo a infinito, e a função sigmóide se torna a função de limiar. As funções mencionadas anteriormente possuem intervalo de ativação entre 0 e +1. Em certos casos é desejável, ou mesmo necessário, que a ativação forneça também valores negativos. Neste caso, pode-se utilizar a função tangente hiperbólica. φ(𝑣) = 𝑡𝑎𝑛ℎ(𝑣) (4.7) 40 A função tangente hiperbólica possui forma correspondente a de uma função sigmóide, entretanto prescreve um saída anti-simétrica entre -1 e +1. Esta função traz diversos benefícios analíticos em certos casos, e em projetos de redes neurais recorrentes, esta função se faz muito eficaz. 4.3 - Redes neurais de multicamada Em uma topologia de rede neural, os neurônios são distribuídos em forma de camadas. Em redes neurais mais simples, há apenas uma única camada de processamento, dessa forma existe uma camada de entrada e uma camada de saída. Uma segunda topologia, seria a adição de mais camadas de processamento, chamadas de camadas ocultas (hidden layers), formadas por neurônios ocultos (hidden units). Figura 15 - Redes neurais de camada única e multicamada Fonte: Haykin, 1999. Essa técnica permite extrair estatísticas de ordem mais elevada dos dados de entrada. Em geral, é uma característica muito valiosa quando se tratam de dados com um volume elevado de sinais de entrada (Churchland e Sejnowski, 1992). 41 Em termos de fluxo da informação, dizemos que se tratam de modelos de rede de alimentação adiante (feedforward), uma vez que não há nenhum laço de realimentação nestes modelos. 4.4 - Redes Neurais Recorrentes Redes neurais recorrentes se diferenciam das redes neurais de realimentação adiante normais pela existência de pelo menos um laço de realimentação. Figura 16 - Rede recorrente com neurônios ocultos fonte: Haykin, 1999 Embora as diferenças entre uma rede neural padrão e uma rede recorrente possam parecer triviais, as implicações do aprendizado por sequência são vastas. Uma rede neural multicamada consegue mapear somente as interações de entrada e saída, em adição, uma rede recorrente pode em princípio mapear sobre o todo o histórico de entradas anteriores para cada saída. O ponto chave é que os laços de realimentação, também chamados de conexões recorrentes, adicionam 42 certo grau de memória sobre as entradas, permitindo que sejam mantidas nos estados internos da rede (internal states) e influenciando nas saídas (Graves, 2012). A etapa de alimentação adiante é semelhante a de uma rede multicamadas, com a exceção de que a ativação irá conter elementos dos intervalos de tempo anteriores. Considerando uma sequência de entrada de tamanho e duração em um neurônio , onde é o valor𝑥 𝐼 0 ≤ 𝑡 ≤ 𝑇 𝑘 𝑥 𝑖 𝑡 de entrada no intervalo de tempo .Para esta rede temos uma camada oculta de unidades𝑖 𝑡 𝐻 ocultas, e uma camada de unidades de saída. Como apresentado por Graves (2012), para a𝐾 camada oculta, o campo local induzido pela entrada na unidade oculta , pode ser definidoℎ ν ℎ 𝑡 por: ν ℎ 𝑡 = 𝑖 = 1 𝐼 ∑ 𝑤 𝑖ℎ 𝑥 𝑗 𝑡 + ℎ' = 1 𝐻 ∑ 𝑤 ℎℎ' 𝑏 ℎ' 𝑡−1 (4.8) Nesta equação, podemos observar o termo de interação com o histórico de ativações, sendo representado pelo segundo somatório da equação 4.8, onde temos os conjuntos de pesos. Em termos de ativação, podemos representá-la em termos do campo local da unidade h, onde , é a função de ativação da unidade oculta h:φ ℎ (ν) 𝑏 ℎ 𝑡 = φ ℎ (ν ℎ 𝑡 ) (4.9) A sequência completa de ativações ocultas pode ser calculada recursivamente a partir de , incrementando em cada intervalo de tempo. A saídas podem ser𝑡 = 0 𝑡 𝑦 = [𝑦 1 , 𝑦 2 ,..., 𝑦 𝐾 ] computadas, através do conjunto de pesos da unidade de saída :𝑤 𝑘 = [𝑤 1𝑘 , 𝑤 2𝑘 ,..., 𝑤 𝐻𝑘 ] 𝑘 43 𝑦 𝑘 𝑡 = ℎ = 1 𝐻 ∑ 𝑤 ℎ𝑘 𝑏 ℎ 𝑡 (4.10) Uma forma mais interessante para representar uma rede recorrente, é através de seu grafo remodelado, contendo uma versão ‘desdobrada’ da rede juntamente com suas sequência de entrada. Essa visualização permite observar melhor o repasse de informações ao longo dos intervalos de tempo, e generalizar melhor redes com dependências mais complexas (Graves, 2012). Figura 17 - Versão desdobrada do grafo computacional de uma RNN. Fonte: Graves, 2012. 44 5 - TREINAMENTO DE REDES NEURAIS A rotina de aprendizado da rede neural é executada através de um algoritmo de treinamento correspondente. Este processo pode ser entendido como um processo de otimização, onde os pesos da rede são ajustados a uma melhor combinação, que minimiza uma determinada função de custo. Para esta tarefa, é amplamente utilizado o algoritmo de retropropagação (Werbos, 1974). 5.1 - Função de Custo (Loss Function) A função de custo, ou função objetivo, é a métrica principal do processo de treinamento de uma rede neural. O processo de ajuste dos pesos é executado através do erro obtido na saída da rede, em relação ao valor de referência utilizado para treinamento. Os valores de erro obtidos ao longo do processo de treinamento compõem a função de custo. O objetivo do processo, é minimizar os erros, obtendo uma resposta mais próxima possível do valor esperado na saída da rede. Intrinsecamente, minimizar os erros envolve minimizar a função de custo. A definição matemática da função de custo depende da tarefa a ser realizada pela rede neural. Se tratando de um problema de classificação, a função de custo pode ser expressa, por exemplo, em função das probabilidades de cada classe associada ao problema (Bishop, 1995). Entretanto, neste trabalho, o processo de obtenção da curva de carga prevista envolve um processo de regressão. Para tal é necessário medir a diferença entre os valores previstos e os valores esperados no processo. Dessa forma, métricas estatísticas como MAPE (Mean Absolute 45 Percentage Error) e MSE (Mean Squared Error) podem ser utilizadas, pois ambas geram funções de custo diferenciáveis. As funções de custo , sendo o valor esperado e o valor previsto, podem ser𝐿(𝑦, 𝑦) 𝑦 𝑦 expressas por: 𝐿(𝑦, 𝑦) 𝑀𝐴𝑃𝐸 = 100 𝑛 𝑖=1 𝑛 ∑ (|𝑦 𝑖 − 𝑦 𝑖 |) (5.1) 𝐿(𝑦, 𝑦) 𝑀𝑆𝐸 = 1 𝑛 𝑖=1 𝑛 ∑ |𝑦 𝑖 − 𝑦 𝑖 |² (5.2) Ambos oferecem boas formas para representar o erro de saída da rede, entretanto a métrica de MSE é mais sensibilizada pela escala dos dados, penalizando muito os erros em valores grandes não normalizados, enquanto a MAPE não oferece bons resultados em valores de escala pequena, resultando em erros excessivamente grandes com poucas variações. 5.2 - Algoritmo de Retropropagação (backpropagation) Após computar as entradas pela etapa de alimentação adiante, a rede neural realiza a etapa de retropropagação, reajustando os pesos seguindo o algoritmo de retropropagação (Werbos, 1974). O algoritmo é simplesmente a aplicação da regra da cadeia para derivadas parciais. O primeiro passo é calcular as derivadas da função de custo em respeito às unidades de𝐿(𝑦, 𝑦) saída. Após esta etapa, calcula-se as demais derivadas parciais utilizando a regra da cadeia. A equação 5.4 mostra por exemplo obtenção do delta de erro na camada de saída .δ 𝑦 46 δ 𝑦 = 𝑑𝐿(𝑦, 𝑦)/𝑑𝑦 (5.4) Através desse método é possível propagar os erros a todos os elementos, e consequentemente ajustar os pesos da rede. O ajuste de pesos é executado pela regra delta (Widrow e Hoff, 1960), calculando o valor do ajuste de peso em função dos diferenciais de∆𝑤 𝑘𝑗 erro obtidos na etapa de retropropagação: ∆𝑤 𝑖𝑗 = ηδ 𝑖𝑗 𝑥 𝑖 (5.5) Na equação 5.5 temos os termos de diferenciais de erro retropropagado obtidos para osδ 𝑖𝑗 pesos das camadas da rede, multiplicados por sua respectiva entrada e uma constante positiva𝑖 𝑗 denominada de taxa de aprendizagem (learning rate) (Haykin, 2005). Ao calcular os valores deη ajuste, o respectivo peso é atualizado, e preparado para a próxima iteração: 𝑤 𝑖𝑗(𝑛+1) = 𝑤 𝑖𝑗(𝑛) − ∆𝑤 𝑖𝑗(𝑛) (5.6) Este processo se repete até que a função de custo assuma um valor de erro inferior a uma tolerância arbitrária, ou quando o algoritmo atinge um número máximo de iterações. 𝐿(𝑦, 𝑦) ≤ 𝑇𝑜𝑙 𝑚𝑖𝑛 (5.7) 𝑛 𝑖𝑡𝑒𝑟𝑎çõ𝑒𝑠 ≤ 𝑁 𝑚á𝑥 (5.8) Se tratando de redes recorrentes, a modelagem não se difere ao extremo, apenas devemos abstrair do fato de que assim como as ativações da rede recorrente dependem de entradas passadas na etapa adiante, os deltas sofrem influência das iterações ao longo dos períodos de tempo (Graves, 2012). 47 Assim, a estratégia mais eficiente é ‘desdobrar’ a rede recorrente e aplicar etapa de retropropagação através dos períodos de tempo da rede de forma inversa, iniciando em e𝑡 = 𝑇 decrementado os valores. Essa técnica é conhecida como BPTT - backpropagation through time. (Williams e Zipser, 1995). 48 6 - LONG SHORT TERM MEMORY (LSTM) O benefício de utilizar redes recorrentes, como já destacado, se baseia em sua capacidade de aprender características provenientes do histórico de entradas e saídas da rede. Infelizmente, para redes neurais recorrentes comuns, essa capacidade se mostra limitada. Isso se deve ao fato que o contexto fornecido por uma entrada pode ser dissolvido no repasse a camadas ocultas, decaindo exponencialmente (ou explodindo em alguns casos) à medida que circula pelas conexões recorrentes. Este problema é referido na literatura como problema do desaparecimento do gradiente (vanishing gradient problem) (Bengio el al., 1994). Na figura 17, há uma representação deste problema, onde o contexto tende a ‘sumir’ (quanto mais escuro maior a influência do contexto) com o passar dos intervalos de tempo. Figura 18- O problema do desaparecimento do gradiente Fonte: Graves, 2012. 49 No problema de séries temporais, como no caso da previsão de carga, é desejável manter as informações retidas por mais tempo nas unidades da rede. Para isso, será adotada a estratégia de utilizar a arquitetura de mémorias LSTM (long short-term memory) (Hochreiter e Schmidhuber, 1997). 6.1 - Estrutura geral de redes LSTM A estrutura LSTM consiste em um conjunto de sub redes recorrentemente conectadas, conhecidas como blocos de memória. Estes blocos podem ser vistos como uma versão diferenciável de chips de memória em computadores digitais (Graves, 2012). Figura 19 - Estrutura do Bloco de memória LSTM Fonte: Graves, 2012. 50 Cada bloco contém uma ou mais células de memória auto-conectadas, e três multiplicadores de entrada - input gate (g), output gate (q) e forget gate (f). Esses multiplicadores fazem o papel análogo às funções de leitura, escrita e reset nos blocos (Graves, 2012). A função de ativação das portas (representada pela letra f na figura 18) é geralmente uma sigmóide logística, dado que as ativações das mesmas se dá entre 0 (porta fechada) e 1 (porta aberta), ao passo que as funções de ativação da entrada e saída da célula (representadas na figura 18 pelas letras g e h) podem variar, desde as funções tanh e sigmóide (Graves, 2012). Figura 20 - Preservação do gradiente pela adição de LSTM fonte: Graves, 2012 O sombreamento na figura 19 mostra a sensibilidade das entradas, os nós escuros representam alta sensibilidade e os nós brancos sensibilidade nula. Os estados das portas de entrada, saída e esquecimento são mostrados pelos símbolos abaixo, acima e à esquerda dos nós, respectivamente. Para simplicidade, as portas possuem apenas estados aberto (O) e fechado (-). A célula de memória retém informações da primeira entrada enquanto a porta de esquecimento permanece aberta e a porta de entrada estiver fechada, permitindo sua propagação 51 ao longo dos períodos de tempo. A sensibilidade da camada de saída pode ser alterada pela porta de saída, sem influenciar no estado da célula (Graves, 2012). 6.2 - Equações das estruturas LSTM Um importante componente de uma rede LSTM é sua unidade de estado interno . Esta unidade é controlada pela porta de esquecimento , para um intervalo de tempo em𝑠 𝑖 𝑡 𝑓 𝑖 𝑡 𝑡 uma célula , que ajusta este peso a um valor entre 0 e 1, dado sua ativação sigmóide .𝑖 σ(.) Conforme definido em Goodfellow et al. (2016), a porta de descrita pelo equacionamento: 𝑓 𝑖 𝑡 = σ(𝑏 𝑖 𝑓 + 𝑗 ∑ 𝑈 𝑖𝑗 𝑓𝑥 𝑗 𝑡 + 𝑗 ∑ 𝑊 𝑖𝑗 𝑓ℎ 𝑗 (𝑡−1)) (6.1) Na equação 6.1, é o vetor de entrada atual e o vetor da camada oculta atual,𝑥𝑡 ℎ𝑡 contendo a saída de todas as células LSTM, e são respectivamente, o bias, os pesos da𝑏𝑓, 𝑈𝑓, 𝑊𝑓 entrada e os pesos recorrentes para a porta de esquecimento. O estado interno é atualizado conforme a equação 6.2. 𝑠 𝑖 𝑡 = 𝑓 𝑖 𝑡𝑠 𝑖 𝑡−1 + 𝑔 𝑖 𝑡σ(𝑏 𝑖 + 𝑗 ∑ 𝑈 𝑖𝑗 𝑥 𝑗 𝑡 + 𝑗 ∑ 𝑊 𝑖𝑗 ℎ 𝑗 (𝑡−1)) (6.2) Onde respectivamente denotam o bias, os pesos de entrada e pesos recorrentes da𝑏, 𝑈, 𝑊 célula LSTM. A porta de entrada é computada de forma similar a porta de esquecimento, mas𝑔 𝑖 𝑡 contendo seus próprios parâmetros (Goodfellow et al., 2016). 𝑔 𝑖 𝑡 = σ(𝑏 𝑖 𝑔 + 𝑗 ∑ 𝑈 𝑖𝑗 𝑔𝑥 𝑗 𝑡 + 𝑗 ∑ 𝑊 𝑖𝑗 𝑔ℎ 𝑗 (𝑡−1)) (6.3) 52 A saída da célula LSTM pode ser desligada, via porta de saída , que também usaℎ 𝑖 𝑡 𝑞 𝑖 𝑡 ativação sigmóide, e possui seus próprios parâmetros (Goodfellow et al., 2016). 𝑏𝑜, 𝑈𝑜, 𝑊𝑜 ℎ 𝑖 𝑡 = 𝑡𝑎𝑛ℎ(𝑠 𝑖 𝑡) 𝑞 𝑖 𝑡 (6.4) 𝑞 𝑖 𝑡 = σ(𝑏 𝑖 𝑜 + 𝑗 ∑ 𝑈 𝑖𝑗 𝑜𝑥 𝑗 𝑡 + 𝑗 ∑ 𝑊 𝑖𝑗 𝑜ℎ 𝑗 (𝑡−1)) (6.5) 6.3 - Cálculo do Gradiente Assim como observado nas topologias anteriores, LSTM é uma é uma aproximação de uma função diferenciável, e pode ser treinada utilizado descida do gradiente. O algoritmo original de treinamento para LSTM (Hochreiter e Schmidhuber, 1997) utiliza um erro de gradiente aproximado com uma combinação de RTRL - Real Time Recurrent Learning (Robinson e Fallside, 1987) e BPTT - Backpropagation Through Time (William e Zipster, 1995). A BPTT é truncada após um período de tempo, devido a percepção que as dependências de longo prazo podem ser tratadas com os blocos de memória, e não via fluxo de ativações em torno das conexões recorrentes. Esta é uma propriedade importante para tarefas de controle contínuo e previsão de séries temporais (Graves, 2012). 53 7 - DADOS DE ENTRADA DO MODELO DE REDE NEURAL LSTM Para elaboração do modelo LSTM foi necessário coletar dados de entrada para serem utilizados no treinamento do modelo de redes neurais. Os conjuntos de dados são basicamente decks de entrada utilizados pelo modelo ONS de previsão de carga para o modelo DESSEM, o prevCargaDessem, e são disponibilizados diariamente pelo próprio ONS, através do portal SINtegre (ONS, 2021). 7.1 - Principais dados de entrada Os dados fornecidos são históricos de variáveis importantes para previsão da curva de carga do modelo LSTM. Os arquivos são fornecidos em formato csv (comma-separated values) para facilitar a leitura pelo programa, compilados em um arquivo compactado (.zip), e separados em pastas por subsistema energético (Sudeste/Centro-Oeste, Sul, Nordeste e Norte). Quadro 1 - Estrutura de arquivos de entrada do modelo PrevCargaDessem Nome do Arquivo Conteúdo do Arquivo XX_AAAA-MM-DD_CARGAHIST.CSV Dados históricos de Carga verificada. XX_AAAA-MM-DD_COMBINA.CSV Pesos para cálculo de previsão combinada. XX_AAAA-MM-DD_FERIADOS.CSV Data de feriados. XX_AAAA-MM-DD_HORAVERAO.CSV Dados de horário de verão. XX_AAAA-MM-DD_HORIZONTE.CSV Horizonte de previsão. XX_AAAA-MM-DD_PATAMARES.CSV Patamares de carga e sua duração. XX_AAAA-MM-DD_SEPARADOR.CSV Separador decimal padrão. XX_AAAA-MM-DD_TEMPHIST.CSV Dados históricos de temperatura. XX_AAAA-MM-DD_TEMPPREV.CSV Previsões de temperatura para o horizonte. 54 fonte:Adaptado de CEPEL, 2020 Dentre esses arquivos podemos destacar os mais importantes para a modelagem do modelo LSTM de rede neural. 1. Arquivo CARGHIST. Histórico de carga global horária, verificada e ajustada e para o respectivo subsistema. Este histórico é previamente tratado pelo ONS para remoção de efeitos adversos (contingências), prevalecendo apenas fatores de temperatura e atividade de consumidores.. O histórico disponibilizado tem início no ano de 2016, e horizonte até a data mais recente da consulta (CEPEL, 2020). 2. Arquivo TEMPHIST. Histórico de temperatura equivalente por subsistema com base horária. Esta temperatura é uma variável proxy modelada pela melhor combinação linear de temperaturas medidas e pontos estratégicos do respectivo subsistema. Os pesos atribuídos aos diferentes pontos de medição de temperatura (aeródromos) são calculados utilizando o melhor ajuste de correlação, calculado pelo ONS utilizando técnicas de algoritmos bio-inspirados (CEPEL, 2020). Para compor os dados de entrada, os arquivos são armazenados em ambiente de cloud (Google Drive), para que possam ser consumidos pelo algoritmo, que será rodado com auxílio da ferramenta Google Collaboratory, um ambiente de notebooks python gratuito, rodando diretamente em computadores na nuvem. Os arquivos são lidos separadamente utilizando a biblioteca de processamento de dados Pandas, e salvos em uma estrutura de dados dataframe. Assim são obtidas variáveis com os históricos de carga e temperatura. 55 7.2 - Análise dos dados históricos de Carga e Temperatura. Para que o modelo tenha um melhor desempenho, é necessário analisar os dados de entrada e verificar seus parâmetros gerais. Embora os dados de entrada sejam previamente tratados pelo ONS, pequenos ajustes são necessários, dado que a base de dados utilizada é preparada inicialmente para ser utilizada em outra metodologia. Figura 21 - Séries temporais de Carga [MW médio] e Temperatura [°C] | Sudeste/Centro-Oeste fonte: próprio autor A curva de temperatura utilizada é uma série equivalente de temperatura, obtida através da contribuição de temperatura de diversas capitais e cidades de maior relevância comercial (ONS,2019). Ambas as séries apresentam um efeito sazonal, onde observa-se a elevação de temperatura nos meses de verão e uma redução considerável da média de temperatura em períodos de meses de inverno. 56 Observando as séries nota-se o efeito de correlação entre carga e a temperatura. Para investigar mais profundamente este efeito, é possível plotar ambas as séries em um histograma de duas dimensões, assim é observável a interação entre ambas as séries. Pela figura 22, nota-se a correlação positiva entre a série temporal de carga e a série de temperatura. Este efeito se associa a intensificação do uso de dispositivos e sistemas de refrigeração em períodos de maiores temperaturas, tais como ar condicionados, ventiladores e freezers. Figura 22 - Histograma 2D - Carga versus Temperatura fonte: Próprio autor Em termos numéricos, esse efeito de correlação pode ser obtido através do cálculo da matriz de correlação de Pearson, onde calcula-se o grau de correlação entre dois vetores eρ 𝑋 𝑌 de tamanho N, em termos de sua covariância e suas variâncias individuais em relação a suas respectivas médias: ρ(𝑋, 𝑌) = 𝑐𝑜𝑣(𝑋, 𝑌)/(𝑣𝑎𝑟(𝑋). 𝑣𝑎𝑟(𝑌)) (7.1) 57 Este coeficiente pode ser calculado para a combinação de variáveis de temperatura e carga para obtenção da matriz. A diagonal principal representa os valores de autocorreção, e os demais valores contém a correlação entre ambas as variáveis. O coeficiente de valor maior que zero indica correlação positiva entre os vetores analisados, e menor que zero em caso de correlação negativa, com seu módulo variando entre 0 e 1, sendo unitário em caso de acoplamento perfeito entre as variáveis. Figura 23 - Matriz de correlação de Pearson - Carga versus Temperatura fonte: Próprio Autor O coeficiente de correlação de Pearson calculado foi de 0.63. Este valor é suficiente para demonstrar numericamente o efeito de correlação positiva entre as variáveis. Outro fator de influência nas duas séries, é a presença de efeitos de sazonalidade. Com o auxílio da transformada rápida de Fourier (FFT), é possível decompor o espectro de frequências de ambas as séries. A transformada foi implementada em linguagem Python, com suporte do módulo de processamento de sinais da biblioteca TensorFlow (TensorFlow 2021), para toda a amostra de 58 sinal disponível, calculada utilizando o algoritmo de RFFT. As frequências de interesse são marcadas pelos períodos de 1 ano, 1 semana e 1 dia, respectivamente transformados em hertz (Hz). Para a modelagem, dado o escopo do problema, que envolve uma previsão de horizonte diário, a componente diária apresenta maior influência em ambas as séries, e é desejável que o modelo LSTM aprenda este comportamento. Para tal, a estratégia se baseia em gerar uma série temporal que possa ser introduzida no modelo, e carregue as informações de sazonalidade diária. Figura 24 - Análise de FFT para séries de temperatura e Carga fonte: próprio autor Dessa forma, utilizando as marcações de tempo disponíveis, foram geradas duas séries temporais, de seno e cosseno, contendo a frequência diária desejada. 𝑆 𝑠𝑖𝑛 (𝑡) = 𝑠𝑖𝑛( 2π 1 86400 𝑡 ) (7.1) 𝑆 𝑐𝑜𝑠 (𝑡) = 𝑐𝑜𝑠( 2π 1 86400 𝑡 ) (7.2) 59 As séries resultantes (figura 25) quando combinadas fornecem as características sazonais desejadas, e permitem que sejam inseridas como dados de entrada. Os valores de 86400 equivalem ao número de segundos no período de um dia. Este processo de rearranjo dos dados foi compilado em funções de apoio, permitindo rápida manipulação dos dados em caso de reexecução. Assim obteve-se o Dataset apropriado para execução do treinamento, contendo 45552 entradas de dados, contendo as séries sazonais de seno e cosseno, temperatura e carga verificadas, para o subsistema Sudeste/Centro-Oeste. Figura 25 - Séries temporais sintéticas de frequência diária fonte: próprio autor. 7.3 - Preparação dos dados de Treinamento, Validação e Teste Para realização das etapas de treinamento, validação e teste, o Dataset foi segmentado em três conjuntos, cada qual designado para uma dessas etapas. Essa repartição tem como objetivo treinar o modelo LSTM com a maior combinação de casos possíveis, validar estes dados durante o treinamento permitindo assim ajustes dos parâmetros de treino, e por fim mensurar seu desempenho final. 60 Tabela 1 - Proporção de segmentação dos conjuntos de dados de Treino, Validação e Teste Dataset Proporção (do total) Tamanho Treino 80% 36442 Validação 10% 4555 Teste 10% 4555 fonte: próprio autor O processo de previsão consiste em obter a carga prevista para o próximo dia do horário de planejamento, mais precisamente, para as próximas 24 horas. Para tal será fornecido ao modelo LSTM o histórico das últimas 168 horas, equivalente aos 7 dias anteriores ao início do período de previsão, para as 4 séries de entrada. Tabela 2 - Datasets de treinamento, validação e teste do modelo de Rede Neural LSTM Dataset X (entrada) Y (saída) , ][𝑋 𝑡𝑟𝑒𝑖𝑛𝑜 𝑌 𝑡𝑟𝑒𝑖𝑛𝑜 [36442,168,4] [36442,24,1] , ][𝑋 𝑣𝑎𝑙𝑖𝑑𝑎çã𝑜 𝑌 𝑣𝑎𝑙𝑖𝑑𝑎çã𝑜 [4555,168,4] [4555,24,1] , ][𝑋 𝑡𝑒𝑠𝑡𝑒 𝑌 𝑡𝑒𝑠𝑡𝑒 [4555,168,4] [4555,24,1] fonte: próprio autor Para isso os conjuntos passam por um processo de janelamento, dividindo as entradas do modelo em janelas de entrada e saída, sendo as entradas uma matriz com dimensões𝑛 𝑥 𝑛 , e as saídas de dimensões , contendo os valores𝑑𝑖𝑚(𝑥 𝑛 ) = [168, 4] 𝑦 𝑛 𝑑𝑖𝑚(𝑦 𝑛 ) = [24, 1] 61 reais de carga. Os datasets finais e possuem 3 dimensões,𝑋 = [𝑥 1 , 𝑥 2 ,..., 𝑥 𝑛 ] 𝑌 = [𝑦 1 , 𝑦 2 ,..., 𝑦 𝑛 ] sendo elas o número de exemplos do conjunto, o número de intervalos de tempo. 7.4 - Ajuste de escala dos dados de entrada Para aumentar a performance do modelo LSTM, uma estratégia é padronizar os dados de entrada. Para isso subtrai-se a média e divide-se os dados pelo seu desvio padrão. Esta transformação é efetuada nas séries temporais de carga e temperatura, produzindo séries temporais de média nula e variância unitária. Um processo alternativo para ajuste de escala envolveria normalizar os dados, em termos dos valores máximos e mínimos. Entretanto, o processo de padronizar os dados em torno da média e desvio padrão reduz a influência de outlayers durante o processo de treinamento (Géron, 2019). Este ajuste é necessário apenas para as séries de carga e temperatura, uma vez que as séries sintéticas sazonais de seno e cosseno, já possuem média nula e variância unitária. 62 8 - ELABORAÇÃO E TREINAMENTO DO MODELO O modelo LSTM desenvolvido contém uma camada de entrada com 64 neurônios, e uma camada de saída de 24 neurônios. Para este modelo utiliza-se uma arquitetura de sequencia-sequência, onde o modelo retorna uma sequência de 24 valores a cada intervalo de tempo. Este modelo se opõe a versão mais simples de sequencia-vetor, onde os 24 períodos de tempo são previstos apenas na última iteração. Essa estratégia permite que mais gradientes de erro fluam através das camadas, auxiliando no processo de aprendizagem (Géron, 2019). Tabela 3 - Sumário do modelo de rede neural LSTM Camada (tipo) Unidades N° de Parâmetros treináveis Camada LSTM 64 17664 Camada DENSA 24 1560 TOTAL 88 19224 fonte: próprio autor 8.1 - Estimadores de Referência Para verificar o desempenho, foram formulados modelos de linha de base (baseline), para referência da acurácia do modelo LSTM nas previsões. Um dos modelos de linha de base utilizados é um estimador por repetição (TensorFlow, 2021). Este estimador tem fácil implementação, e sua função é replicar a entrada referente ao sétimo dia anterior à previsão. A exemplo, caso a previsão esteja sendo efetuada para uma quarta-feira da semana corrente, o estimador replica a entrada referente a última quarta-feira 63 verificada dos dados de entrada. Esta aproximação pode ser eficiente dado que os dias da semana possuem perfis de carga bem definidos. Figura 26 - Estimador de Linha de Base (repetição) fonte:Próprio autor Outro possível estimador que pode ser utilizado para avaliar o desempenho do modelo LSTM é utilizar uma rede neural recorrente simples, sem conexões LSTM. Tabela 4 - Sumário do modelo de Rede Neural Recorrente sem estruturas LSTM Camada (tipo) Unidades N° de Parâmetros treináveis Camada LSTM 64 4416 Camada DENSA 24 1560 TOTAL 88 5976 fonte: próprio autor 64 Este modelo de referência utiliza a mesma topologia do modelo LSTM, em termos de número de unidades e camadas, porém sem a inclusão das unidades de memória. Dessa forma, pode-se observar um número muito menor de parâmetros de treinamento na camada recorrente, uma vez que as estruturas LSTM acrescentam diversos parâmetros treináveis ao modelo. Por se tratar de um modelo mais complexo, é esperado que o modelo LSTM obtenha performances superiores a ambos os estimadores de referência adotados. 8.2 - Ambiente de construção dos modelos Para auxiliar na criação e treinamento do modelo LSTM e dos classificadores de base, foi utilizado o suporte de computação na nuvem, através da ferramenta Google Colaboratory (Google, 2021). O Colab permite a execução de códigos em notebooks Python, construídos com base da tecnologia de Jupyter Notebooks (Jupyter, 2021), e fornece acesso a máquinas remotas de alto processamento com GPU (Graphic Processing Units), permitindo treinar e ajustar os modelos (LSTM e demais estimadores de referência) com mais facilidade e rapidez. Para produção dos modelos, foi utilizado o suporte da biblioteca de código aberto Python TensorFlow (TensorFlow, 2021), especializada em tarefas de aprendizado de máquina e criação de redes neurais. 8.3 - Treinamento do modelo LSTM O modelo LSTM é então compilado seguindo os dados de topologia da Tabela 3. Durante o processo serão utilizados os dados padronizados, assim, a métrica de função de custo utilizada foi a MSE, bem como a métrica para para avaliação de seu desempenho. O número máximo permitido de iterações foi de 100 épocas, dividindo o conjunto de dados de entrada em 8 lotes (batches) de treinamento. A taxa de aprendizagem inicial adotada é de . A atualização de pesos se deu através algoritmo de ADAM (Adaptive Momentη = 5. 10−6 65 Estimation) (Kingma e Ba, 2015), com fatores de momento e . Esteβ1 = 0. 900 β2 = 0. 999 algoritmo tem como funcionalidade melhorar o processo de convergência do modelo, adicionando momento ao processo de atualização de pesos, reduzindo ou aumentando sua intensidade quando necessário. A tabela 5 contém os valores agrupados para os hiperparâmetros utilizados no treinamento. Tabela 5 - Valores de Hiperparâmetros da etapa de Backpropagation Hiperparâmetro Valor Máximo de Épocas (N) 100 Tamanho dos lotes (Batch Size) 8 Taxa de Aprendizagem ( )η 5. 10−6 Momento ( )β1 0.900 Momento ( )β2 0.999 fonte: Próprio autor Estes parâmetros foram determinados com base em diversas rodadas de treinamento, onde chegaram-se aos valores que produziam os melhores resultados. Ambos os modelos recorrentes, foram treinados com a mesma configuração de BackPropagation. 66 9 - RESULTADOS E DISCUSSÕES O modelo LSTM então foi treinado por cerca de 20 épocas, onde foi interrompido pela rotina de Early Stopping, pois não houve melhoras na função de custo na ordem de por 310−9 épocas consecutivas nos dados de validação. Na figura 27, é possível observar uma queda acentuada na função de custo de treino logo nas primeiras iterações. Na curva de validação também observa-se declínio ao longo das épocas, que embora seja de maneira mais suave. Figura 27 - Funções de custo de treino e validação fonte: próprio autor Os modelos de referência (Repetição e RNN simples) também foram treinados, sendo a RNN simples com especificações semelhantes a sua versão LSTM. Após o treinamento, os modelos foram avaliados utilizando os dados de teste, onde é possível observar um desempenho superior do modelo LSTM (Figura 28). Na Figura 29 pode-se observar a previsão elaborada para uma semana completa. 67 Figura 28 - Performance no conjunto de dados de Teste. fonte: próprio autor A performance média obtida no conjunto de dados de validação e teste são semelhantes uma vez que os conjuntos possuem tamanhos equivalentes, e ambos apresentam dados inéditos ao modelo, ou seja, que não foram submetidos durante o processo de treinamento. O equilíbrio de performance entre os dois conjuntos mostra que a generalização do modelo é boa, portanto não houve sobreajuste do modelo aos dados de treinamento, conforme já indicado pela curva de validação do modelo (figura 27). O estimador de repetição apresentou performance inferior, conforme esperado, pois não há uma modulação eficiente entre a curva de carga sem conhecimento do perfil de temperatura, uma vez que entre as semanas ocorrem variações de temperaturas máximas e mínimas, além da temperatura média do dia. Estas variações podem alterar os picos de carga máxima e mínima, deslocando a carga média e assim dificultando a previsão. Dessa forma os modelos baseados em RNN possuem performance superior, devido ao seu melhor ajuste da carga devido às variações da temperatura. 68 Em termos de MAPE, a previsão da rede neural LSTM apresentou um desvio de cerca de 3.22% em relação aos valores verificados para uma semana completa de previsão. Verificou-se desvios mais elevados em determinados períodos, principalmente no sábado e domingo da semana avaliada. Figura 29 - Análise da previsão semanal do Modelo LSTM fonte: próprio autor Para as previsões diárias, o resultado é semelhante. A figura 30 mostra a previsão feita para o dia 22 de maio de 2021, um sábado, juntamente com o valor verificado e a previsão oficial do modelo ONS. Neste ponto, é possível notar mais adequadamente a dificuldade do modelo em se ajustar adequadamente a dias de carga mais específica, o que evidencia uma necessidade de melhor tratamento de dados desses dias especiais, sendo eles: feriados, eventos especiais (eleições, jogos da copa, etc.), sábados e domingos. 69 Figura 30 - Previsão de carga diária para o sábado - 22 de maio de 2021 fonte: Próprio autor. A metodologia do ONS oferece melhor ajuste de previsão, pois envolve a melhor combinação estatística de diversos modelos (ANNSTLF, SVM, regressão quantílica, dentre outros) e ajustes pontuais feitos por especialistas. O modelo LSTM desenvolvido obteve um desvio menor que 5% para o dia avaliado, sendo considerado um resultado satisfatório, dado uma previsão de um único modelo sem os ajustes posteriores. 70 10 - CONCLUSÕES A utilização de redes neurais no processo de previsão de carga abre uma possibilidade de novas metodologias que podem ser utilizadas para melhorar o processo e exatidão dos insumos necessários para execução da programação diária da operação eletroenergética. Por meio do uso de uma topologia de redes neurais recorrentes e fazendo uso de um modelo com estruturas de memória LSTM foi possível obter estimativas da curva de carga para ser utilizada como entrada para o DESSEM, e consequentemente no cálculo do planejamento da programação diária da operação. O modelo LSTM não apresentou sobreajuste dos dados, graças à boa generalização obtida treinando o modelo em um número otimizado de épocas, o suficiente para reconhecimento dos padrões, e a consequente interrupção do treinamento pela rotina de early stopping. A previsão apresentou um MAPE da ordem de 3.22% para previsões executadas ao longo da semana verificada, sendo o modelo LSTM visivelmente superior à sua versão sem o uso de estruturas LSTM e ao estimador de repetição, ambos utilizados como modelos de referência. Apesar de possuir uma performance inferior à previsão oficial do modelo ONS, o que indica a necessidade de novas melhorias, o resultado é considerado satisfatório, dado a complexidade do problema. De forma geral o modelo LSTM apresentou bons resultados na determinação da carga máxima os dias, sendo um fator importante na alocação de recursos em horários de maior demanda do sistema. Os desvios encontrados em patamares de carga mais baixa mostram que há a necessidade de melhorar a entrada de dados horários, bem como uma melhor inserção de informações de dias especiais e finais de semana, com a finalidade de dar maior aderência a previsões nestes patamares. 71 Por fim, ainda existe a possibilidade de combinar o modelo com outras metodologias, melhorando a performance da previsão, e assim aproximando o resultado final da acurácia da metodologia oficial do ONS. 10.1 - Sugestões para trabalhos futuros A título de sugestão para trabalhos futuros, as seguintes melhorias podem ser estudadas e testadas, a fim de melhorar a qualidade das previsões do modelo de previsão de carga desenvolvido. ● Adição de estruturas convolucionais nas camadas superiores da rede neural. ● Combinação do modelo com outras metodologias de previsão. ● Classificação e inserção de datas de feriados e dias especiais no modelo LSTM. ● Abertura da previsão para padrão semi-horário (30 em 30 minutos). ● Previsão semanal e mensal. ● Melhorias no tratamento e constituição dos dados de entrada. ● Testes com topologias de rede GNU ou Echo State. 72 REFERÊNCIAS BENDERS, J. F.. Partitioning procedures for solving mixed variables programming problems. Numerische Mathematik, São Paulo, v. 4, n. 1, p. 238-252, jan./1962. BENGIO, Yoshua; PATRICE, Simard; FRASCONI, Paolo. Learning Long-Term dependencies is difficult. 1. ed. Canadá: Universitá di Firenze, 1994. BISHOP, C. M.. Neural Networks for pattern recognition. 1. ed. Oxford: Oxford University Press, 1995. CCEE. Portal da Câmara de comercialização de energia elétrica. Disponível em: https://www.ccee.org.br/portal. Acesso em: 12 abr. 2021. CEPEL. DECOMP - Modelo de planejamento da operação de sistemas hidrotérmicos interligados de curto prazo, 2018a. Disponível em: http://www.cepel.br/pt_br/produtos/decomp-modelo-de-planejamento-da-operacao-de-si stemas-hidrotermicos-interligados-de-curto-prazo.htm. Acesso em: 6 jan. 2021. CEPEL. Modelo DESSEM v16.7: Programação diária da operação com representação detalhada das Unidades geradoras, Considerando rede elétrica e Restrições de Segurança. 16. ed. São Paulo: Centro de Pesquisas de Energia Elétrica, 2019. CEPEL. NEWAVE - Modelo de Planejamento da Operação de Sistemas Hidrotérmicos Interligados de Longo e Médio Prazo, 2018b. Disponível em: http://www.cepel.br/pt_br/produtos/newave-modelo-de-planejamento-da-operacao-de-si stemas-hidrotermicos-interligados-de-longo-e-medio-prazo.htm. Acesso em: 6 jan. 2021. 73 CEPEL. Relatório de projeto - DEA - 2461/ 2020 Cliente - ONS: Manual de metodologia e uso do PrevCargaDessem. 1. ed. Rio de Janeiro: Centro de pesquisas de Energia Elétrica, 2020. p. 1. CHURCHLAND, K. P. S; SEJNOWSKI, Terrence J.. The Computational Brain, Computational Neuroscience Series. 1. ed. Cambridge, MA: MIT Press, 1992. EPE. Atualização do valor para patamar único de custo de déficit. 1. ed. Rio de Janeiro: Empresa de Pesquisa Energética , 2009. GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep Learning. 1. ed. MIT: MIT Press, 2016. GOOGLE. Google Colab. Disponível em: https://colab.research.google.com/. Acesso em: 2 fev. 2021. GRAVES, Alex. Supervised Sequence Labelling with Recurrent Neural Networks. 1. ed. Berlin: Springer Books, 2012. GÉRON, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow: Concepts, tools, and Techniques to Build Intelligent Systems. 2. ed. Canadá: O'REILLY, 2019. HAYKIN, Simon. Redes Neurais : Princípios e prática. 2. ed. Porto Alegre: Bookman, 1999. HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. Long Short-Term Memory: Neural Computation . 9. ed: Massachusetts Institute of Technology, 1997. p. 1735-1780. 74 JUPYTER. Jupyter Project. Disponível em: https://jupyter.org/. Acesso em: 26 abr. 2021. KELMAN, Jerson. Relatório da Comissão de Análise do Sistema Hidrotérmico de Energia Elétrica . 1. ed., Brasília, 2001. KINGMA, Diederik P.; BA, Jimmy. Adam: A Method for Stochastic Optimization. 1. ed, Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2015. MCCULLOCH, Warren S.; PITTS, Walter. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, USA, v. 5, n. 1, p. 115-133, dez./1943. MCLEOD, A. I.. Diagnostic checking of periodic autoregression model with application. Journal of Time Series Analysis, São paulo, v. 15, n. 2, p. 221-233, jan./1994. ONS. - SINTEGRE: Portal de Relacionamento com os agentes. Disponível em: https://sintegre.ons.org.br/. Acesso em: 13 mai. 2021. ONS. NT 096 - 2019 : Previsão de Carga para a programação diária eletroenergética. 1. ed. Rio de Janeiro, 2019. PEREIRA, M. V. F; PINTO, L. M. V. G. Multi-stage optimization applied to energy planning . Mathematical Programming , São Paulo, v. 52, n. 3, p. 359-375, dez./1991. PEREIRA, Mario; CAMPODÓNICO, Nora; KELMAN, Rafael. Long-term hydro scheduling based on stochastic models. 1. ed. Rio de Janeiro: EPSOM'98, 1998. 75 ROBINSON, A. J.; FALLSIDE, Frank. The utility driven dynamic error propagation network.: Technical Report CUED/F-INFENG/TR.1. 1. ed. Cambrige: Cambridge University Engineering Department., 1987. SHARAF, A. M.. A Neural Network based short-term load forecast model. 1. ed. 1993: IEEE, 1993. SIGA. Sistema de informações de geração da ANEEL. Disponível em: https://app.powerbi.com/view?r=eyJrIjoiNjc4OGYyYjQtYWM2ZC00YjllLWJlYmEtYzdkN TQ1MTc1NjM2IiwidCI6IjQwZDZmOWI4LWVjYTctNDZhMi05MmQ0LWVhNGU5YzAxNz BlMSIsImMiOjR9. Acesso em: 15 mai. 2021. SOUZA, Reinaldo C.; OLIVEIRA, Fernando Cyrino; FERREIRA, Pedro Costa. Planejamento da operação de sistemas hidrotérmicos no Brasil: Geração de Cenários e otimização. 2. ed. Rio de Janeiro, RJ: PUC RIO, 2014. TENSORFLOW. Tutorials :Time series forecasting. Disponível em: https://www.tensorflow.org. Acesso em: 2 fev. 2021. TOLMASQUIM, Maurício. Novo modelo do Setor Elétrico Brasileiro . 2. ed. Rio de Janeiro: Syngenta, EPE, 2015. WERBOS, Paul. Beyond regression : new tools for prediction and analysis in the behavioral sciences: Dissertação (mestrado). 1. ed. Harvard: Harvard University, 1974. WIDROW, B.; HOFF, M. E.. Adaptive Switching Circuits. 1. ed. Institute of Radio Engineers: Western Electronic Show and Convention, 1960. 76 WILLIAM, Ronald J.; ZIPSTER, David. Gradient-Based Learning Algorithms for Recurrent Networks and Their Computational Complexity. 1. ed. Stanford: Stanford Press, 1995. 77