Luiz Paulo Barbosa do Nascimento Filho DETECÇÃO DE PERDAS COMERCIAIS NA REDE DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA A PARTIR DE TÉCNICAS DE SISTEMAS INTELIGENTES Rosana - SP 2024 Luiz Paulo Barbosa do Nascimento Filho DETECÇÃO DE PERDAS COMERCIAIS NA REDE DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA A PARTIR DE TÉCNICAS DE SISTEMAS INTELIGENTES Trabalho de Conclusão de Curso apresentado à Coordenadoria de Curso de Engenharia de Energia do Câmpus de Rosana, Faculdade de Engenharia e Ciências (FEC), Universidade Estadual Paulista, como parte dos requisitos para obtenção do diploma de Graduação em Engenharia de Energia. Orientador: Prof. Dr. Lucas Teles de Faria. Rosana - SP 2024 LUIZ PAULO BARBOSA DO NASCIMENTO FILHO BANCA EXAMINADORA: Prof. Dr. LUCAS TELES DE FARIA Orientador/UNESP-Rosana Prof. Dr. LEONARDO HENRIQUE FARIA MACEDO POSSAGNOLO UNESP-Rosana Eng. GUSTAVO ESTEVO FELIX Membro Externo Dezembro de 2024 ESTE TRABALHO DE GRADUAÇÃO FOI JULGADO ADEQUADO COMO PARTE DO REQUISITO PARA A OBTENÇÃO DO DIPLOMA DE “GRADUADO EM ENGENHARIA DE ENERGIA” APROVADO EM SUA FORMA FINAL PELO CONSELHO DE CURSO DE GRADUAÇÃO EM ENGENHARIA DE ENERGIA Prof. Dr. KLEBER ROCHA DE OLIVEIRA Coordenador Dedico este trabalho aos meus pais, Luiz Paulo (Pauleta) e Márcia, que sempre me ofereceram apoio incondicional. Obrigado por acreditarem que eu era capaz. AGRADECIMENTOS Agradeço, em primeiro lugar, ao meu pai, pelo apoio incondicional e pela compreensão em cada etapa dessa jornada, e à minha mãe, por seu companheirismo, paciência e conselhos que foram fundamentais ao longo desse processo. Ao meu orientador, Prof. Dr. Lucas Teles de Faria, sou profundamente grato por todos os ensinamentos, pela orientação dedicada e pela paciência durante os anos em que fui seu orientado. Agradeço também pelas oportunidades valiosas que enriqueceram minha formação acadêmica e profissional. À Andréia da Silva Santos de Faria, por todo o auxílio e colaboração nas pesquisas, e ao Prof. Dr. Leonardo Henrique Faria Macedo Possagnolo, por sua paciência, entusiasmo e genuíno interesse em esclarecer minhas dúvidas. A todos, minha gratidão por sempre estarem dispostos a contribuir para o meu aprendizado. Aos colegas do Cursinho Alternativo Unesp Rosana (CAUR), onde tive a chance de me desenvolver não apenas tecnicamente, mas também pessoalmente. Este foi um espaço de aprendizado e crescimento que levarei comigo para sempre. Aos amigos e colegas de graduação, que compartilharam tantas experiências, aprendizados e momentos marcantes ao longo desses anos, deixo meu sincero agradecimento. Em especial, agradeço à Maria Fernanda de Souza, pela parceria constante e pelo incentivo mútuo; à Sabrina Alves, pelo cuidado genuíno com os amigos ao redor; ao Níkolas Bernardes, pelas incontáveis risadas compartilhadas; e à Jade Zepelin, pela companhia e apoio, e também pelos momentos singelos, como passear de bike, comer churros e tomar guarapa, que se tornaram lembranças inesquecíveis. A UNESP, Campus de Rosana pela estrutura física e intelectual excepcional que foi fundamental para o meu desenvolvimento técnico e para a realização deste trabalho. À Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), pelo apoio financeiro, concedido por meio do Processo nº 2023/03151-1 (Iniciação Científica) e 2023/14980-9 (BEPE-Iniciação Científica) que possibilitaram a realização de parte da minha pesquisa em Portugal. Durante esse período, agradeço também ao Prof. Dr. Tiago Manuel Campelos Ferreira Pinto, pela orientação atenciosa e acolhida. Por fim, a todos que, de alguma forma, contribuíram para esta conquista, deixo meu mais sincero agradecimento. https://bv.fapesp.br/pt/bolsas/209143/estimacao-de-perdas-nao-tecnicas-uma-abordagem-top-down/ https://bv.fapesp.br/pt/bolsas/214168/analise-comparativa-entre-tecnicas-de-sistemas-inteligentes-para-deteccao-de-perdas-nao-tecnicas-em-/ "Ninguém nunca descobre do que realmente se trata a vida, e isso não importa. Explore o mundo. Quase tudo é realmente interessante se você se aprofundar o suficiente." Richard P. Feynman RESUMO As perdas não técnicas (PNTs), ou perdas comerciais, afetam negativamente a qualidade da energia elétrica e geram custos elevados para as distribuidoras. Este trabalho analisa métodos de pré-processamento de dados aplicados à detecção de PNTs no sistema de distribuição de energia elétrica, utilizando uma rede neural artificial perceptron multicamadas (PMC). As técnicas avaliadas incluem remoção de outliers, balanceamento de classes e seleção de atributos, com foco no impacto no desempenho e na eficiência computacional do modelo. Os resultados mostraram que, sem pré-processamento, o modelo apresentou um F1-Score de 0,88 e tempo de execução de 10,93s, destacando um bom desempenho inicial. No entanto, em datasets maiores, a ausência de pré-processamento pode aumentar significativamente o custo computacional. Entre as técnicas aplicadas, a seleção de atributos mostrou-se eficiente para reduzir o tempo de treinamento, mantendo F1-Score satisfatórios. Por outro lado, métodos como a remoção de outliers via IQR, que reduziu 33% do conjunto de treinamento, prejudicaram o desempenho do modelo, enquanto o balanceamento com NEARMISS apresentou F1-Score de apenas 0,2±0,12. A análise também revelou que combinações específicas de pré-processamento podem equilibrar desempenho e custo computacional. A aplicação dessas técnicas permitiu identificar casos com alto F1-Score e tempo reduzido de treinamento, tornando-os ideais para implementação prática. Observou-se ainda que a simplificação dos modelos, por meio de pré-processamento, não comprometeu sua capacidade de detecção em datasets de menor escala, mas pode ser indispensável em problemas mais complexos. Conclui-se que o uso de aprendizado de máquina, aliado ao pré-processamento, é uma ferramenta eficaz para mitigar PNTs, especialmente em cenários onde o custo-benefício de desempenho e eficiência é crítico. Apesar dos avanços tecnológicos, o trabalho reforça a importância do conhecimento humano para interpretar resultados e explorar novas abordagens, evidenciando a ciência de dados como uma área em constante evolução. Palavras-Chave: Aprendizado de máquina. Ciência de dados. Perdas comerciais. Perdas não técnicas. Pré-processamento de dados. Redes neurais artificiais. Sistemas de distribuição de energia elétrica. ABSTRACT Non-technical losses (NTL), or commercial losses, negatively impact the quality of electric power and impose significant costs on energy distribution companies. This study analyzes data preprocessing methods applied to the detection of NTL in power distribution systems using a multilayer perceptron artificial neural network (MLP). The evaluated techniques include outlier removal, class balancing, and feature selection, focusing on their impact on model performance and computational efficiency. The results showed that, without preprocessing, the model achieved an F1-Score of 0.88 and an execution time of 10.93s, demonstrating good initial performance. However, in larger datasets, the absence of preprocessing significantly increased computational costs. Among the techniques applied, feature selection proved effective in reducing training time while maintaining satisfactory F1-Score. Conversely, methods such as outlier removal via IQR, which reduced 33% of the training set, impaired the model's performance, while class balancing using NEARMISS yielded an F1-Score of only 0.2±0.12. The analysis also revealed that specific preprocessing combinations can balance performance and computational cost. Applying these techniques allowed the identification of cases with high F1-Score and reduced training times, making them ideal for practical implementation. Furthermore, simplifying models through preprocessing did not compromise their detection capabilities in smaller datasets but may become indispensable for more complex problems. In conclusion, machine learning combined with preprocessing is an effective tool to mitigate NTL, especially in scenarios where the cost-benefit of performance and efficiency is critical. Despite technological advancements, this work emphasizes the importance of human expertise in interpreting results and exploring new approaches, demonstrating that data science is a constantly evolving field. Keywords: Artificial neural networks. Data preprocessing. Data science. Commercial losses. Machine learning. Non-technical losses. Power distribution system. LISTA DE ILUSTRAÇÕES Figura 1 – Composição tarifária de energia elétrica. .................................................... 17 Figura 2 – Fluxograma com o procedimento para avaliação das perdas. ..................... 20 Figura 3 – Perdas não técnicas reais e regulatórias sobre baixa tensão. ....................... 20 Figura 4 – Perdas não técnicas sobre a baixa tensão na região Norte. ......................... 21 Figura 5 – Evolução dos custos das perdas no processo tarifário. ................................ 21 Figura 6 – Arquitetura da rede neural perceptron multicamadas. ................................. 23 Figura 7 – Representação do neurônio artificial de McCulloch-Pitts. .......................... 24 Figura 8 – Taxa de furto por setor censitário. ............................................................... 37 Figura 9 – Fluxograma para criação do repositório do conjunto de dados. .................. 39 Figura 10 – Diagrama de Venn das UCs classificadas como outlier. ............................ 40 Figura 11 – Frequência de seleção de features com o algoritmo random forest. ......... 41 Figura 12 – Frequência de seleção de features com o algoritmo ANOVA. .................. 42 Figura 13 – Frequência de seleção de features com o algoritmo mutual info classif. .. 42 Figura 14 – Função de ativação ReLU. ........................................................................ 44 Figura 15 – Função de ativação sigmoide e Heaviside. ................................................ 45 Figura 16 – Normalização: interpretação geométrica e teorema de Tales. ................... 45 Figura 17 – Boxplot: outliers versus balanceamento. .................................................. 48 Figura 18 – Boxplot: outliers versus Feature Selection. .............................................. 48 Figura 19 – F1-Score versus tempo de treinamento. .................................................... 48 LISTA DE TABELAS Tabela 1 – Parcelas da tarifa de energia. ....................................................................... 15 Tabela 2 – Parcelas da tarifa de uso do sistema de distribuição. .................................. 15 Tabela 3 – Matriz de confusão. ..................................................................................... 25 Tabela 4 – Atributos estatísticos baseados em regimes de consumo. ........................... 28 Tabela 5 – Número de UCs após o balanceamento. ..................................................... 40 Tabela 6 – Hiperparâmetros adotados no processo de treinamento da PMC. ............... 43 Tabela 7 – Desempenho das técnicas de pré-processamento isoladas. ......................... 47 Tabela 8 – Grupo de resultados vantajosos e seus métodos de pré-processamento. .... 49 Tabela 9 – Resultados para os demais métodos de pré-processamento aplicados. ....... 50 SUMÁRIO 1 INTRODUÇÃO .......................................................................................... 14 1.1 COMPOSIÇÃO TARIFÁRIA ...................................................................... 14 1.1.1 Tarifa de energia ................................................................................................................ 14 1.1.2 Tarifa de uso do sistema de distribuição .......................................................................... 14 1.2 PERDAS E A COMPOSIÇÃO TARIFÁRIA .............................................. 16 1.3 O QUE SÃO AS PERDAS NÃO TÉCNICAS ............................................ 17 1.4 PROCESSO DE INSPEÇÃO DAS UNIDADES CONSUMIDORAS ....... 18 1.5 OBJETIVOS ................................................................................................ 18 2 PERDAS TÉCNICAS E PERDAS NÃO TÉCNICAS ............................ 19 2.1 PERDAS TÉCNICAS .................................................................................. 19 2.2 PERDAS NÃO TÉCNICAS ........................................................................ 19 2.3 REVISÃO BIBLIOGRÁFICA ..................................................................... 21 3 MACHINE LEARNING ........................................................................... 23 3.1 REDES NEURAIS ARTIFICIAIS PERCEPTRON MULTICAMADAS ... 23 3.2 MATRIZ DE CONFUSÃO .......................................................................... 25 3.2.1 Acurácia .............................................................................................................................. 26 3.2.2 Precisão ............................................................................................................................... 26 3.2.3 Recall .................................................................................................................................. 27 3.2.4 F1-Score .............................................................................................................................. 27 4 TÉCNICAS DE PRÉ-PROCESSAMENTO ............................................ 28 4.1 ENGENHARIA DE ATRIBUTOS ............................................................... 28 4.2 OUTLIER ..................................................................................................... 29 4.2.1 IQR...................................................................................................................................... 29 4.2.2 Z-Score ................................................................................................................................ 29 4.2.3 Isolation forest .................................................................................................................... 30 4.3 BALANCEAMENTO .................................................................................. 30 4.3.1 SMOTE ............................................................................................................................... 31 4.3.2 ADASYN ............................................................................................................................ 32 4.3.3 Random under sampler ..................................................................................................... 33 4.3.4 NEARMISS ........................................................................................................................ 33 4.4 FEATURE SELECTION ............................................................................. 33 4.4.1 Random forest .................................................................................................................... 34 4.4.2 ANOVA f_classif................................................................................................................. 35 4.4.3 Mutual info classif ............................................................................................................. 35 5 RESULTADOS ........................................................................................... 36 5.1 PARÂMETROS PARA IMPLEMENTAÇÃO DOS MODELOS ............... 36 5.2 ANÁLISE EXPLORATÓRIA DOS DADOS .............................................. 36 5.3 CONJUNTO DE TREINAMENTO E VALIDAÇÃO ................................. 37 5.4 CRIAÇÃO DO REPOSITÓRIO DE DADOS ............................................. 38 5.5 APLICAÇÃO DAS TÉCNICAS DE PRÉ-PROCESSAMENTO ............... 39 5.5.1 Outlier ................................................................................................................................. 39 5.5.2 Balanceamento ................................................................................................................... 40 5.5.3 Feature Selection ................................................................................................................ 41 5.6 TREINAMENTO DA RNA PMC ................................................................ 43 5.6.1 Hiperparâmetros................................................................................................................ 43 5.6.2 Função de ativação ............................................................................................................ 43 5.6.3 Normalização ..................................................................................................................... 44 5.7 RESULTADOS DA FASE DE TESTES ...................................................... 46 6 CONCLUSÃO ............................................................................................ 52 6.1 TRABALHOS FUTUROS ........................................................................... 53 14 1 INTRODUÇÃO O sistema elétrico de potência é estruturado em três principais setores: geração, transmissão e distribuição (GTD). O setor de geração é responsável por converter diferentes formas de energia em energia elétrica. Em 2022, a matriz elétrica brasileira teve sua maior produção proveniente das fontes hidráulica, eólica, biomassa e gás natural. Devido à localização geográfica das usinas geradoras, frequentemente distantes dos centros consumidores, o setor de transmissão tem a função de transportar essa energia por lon- gas distâncias. Para minimizar as perdas durante o transporte, a transmissão utiliza componen- tes como transformadores elevadores de tensão, uma medida que reduz as perdas de energia e é economicamente vantajosa. Por fim, a energia é entregue ao setor de distribuição, onde ocorre uma nova trans- formação de tensão por meio de transformadores abaixadores. Essa redução de tensão ocorre por uma questão de segurança e praticidade no fornecimento de energia elétrica aos consumi- dores finais (EPE, 2023; Monticelli; Garcia, 2011). 1.1 COMPOSIÇÃO TARIFÁRIA O módulo 7 dos Procedimentos de regulação tarifária (PRORET) se refere a estrutura tarifária das concessionárias de distribuição de energia elétrica, o submódulo 7.1 tem como objetivo estabelecer os procedimentos gerais a serem aplicados ao processo de definição da estrutura tarifária (ANEEL, 2023). A tarifa de energia elétrica é o valor que o consumidor paga pelo uso da eletricidade fornecida. Sendo composta por diferentes componentes que visam cobrir os custos de geração, transmissão, distribuição e outras despesas associadas à prestação do serviço. No Brasil, a tarifa de energia elétrica pode ser dividida em duas partes principais apresentadas a seguir. 1.1.1 Tarifa de energia A tarifa de energia (TE) é o valor pago pelo consumidor pela energia consumida, ou seja, a eletricidade efetivamente utilizada. Esse componente é diretamente influenciado pelos custos de geração de energia. A Tabela 1 apresenta as principais parcelas que compõem esta tarifa. 1.1.2 Tarifa de uso do sistema de distribuição A tarifa de uso do sistema de distribuição (TUSD) cobre os custos de uso da rede de distribuição de energia elétrica, que são responsabilidade das distribuidoras. Esse custo é cobrado de todos os consumidores, independentemente de sua classe de consumo. A Tabela 2 apresenta as principais parcelas que compõem esta tarifa. 15 Tabela 1 – Parcelas da tarifa de energia. Parcela Descrição Encargos São taxas adicionais que visam financiar a implementação de políticas públicas e outros custos relacionados à sustentabilidade e à operação do setor elétrico. Alguns exemplos incluem a Conta de Desenvolvimento Energético (CDE), a contribuição para a energia elétrica de fontes renováveis, entre outros. Perdas Refere-se a remuneração básica (RB) sobre o mercado cativo onde os consumidores cativos pagam uma parte dos custos associados. O valor da RB é, então, embutido no custo total da Tarifa de Energia (TE) que os consumidores pagam. Isso inclui não só a energia consumida, mas também o custo das perdas de energia que as distribuidoras enfrentam. Transporte O transporte na TE está relacionado ao custo da energia gerada e sua transmissão até a distribuidora. Refere-se à transmissão de energia pela rede de alta tensão entre as usinas e as subestações, com o custo desse transporte incluído na Tarifa de Energia. O foco está no transporte da energia desde a geração até a distribuição, cobrindo os custos de geração e transmissão. Energia Este componente representa o custo da energia propriamente dita, ou seja, o custo da geração de eletricidade pelas usinas. O preço da energia pode variar conforme o mercado, fonte de geração e período do ano. Fonte: Elaboração do próprio autor. Tabela 2 – Parcelas da tarifa de uso do sistema de distribuição. Parcela Descrição Encargos Semelhante aos encargos na TE, os encargos na TUSD são compostos por taxas que financiam a operação do sistema de distribuição e, assim como na TE, visam cobrir custos de infraestrutura, operação e manutenção das redes de distribuição. Perdas As perdas na TUSD referem-se à energia que se perde durante a distribuição. As perdas podem ser tanto técnicas quanto não. O custo das perdas de energia é repassado aos consumidores por meio dessa tarifa. Transporte O transporte na TUSD abrange o custo de distribuição da energia da subestação até o consumidor final. Ele refere-se ao transporte de energia em baixa e média tensão pela rede de distribuição, cobrindo os custos da infraestrutura, como linhas de distribuição, transformadores e sua manutenção além dos custos de operação e manutenção. Fonte: Elaboração do próprio autor. 16 1.2 PERDAS E A COMPOSIÇÃO TARIFÁRIA No Brasil, a Agência Nacional de Energia Elétrica (ANEEL) adota, desde 1995, o modelo de regulação econômica conhecido como price cap no setor de distribuição de energia elétrica. Esse modelo estabelece um limite máximo para os reajustes tarifários, considerando fatores como inflação, ganhos de eficiência e investimentos necessários. Dessa forma, incentiva as concessionárias a operar com maior produtividade, recompensando aquelas que superam os padrões de desempenho estabelecidos pela regulação. O principal objetivo do price cap é equilibrar a redução de custos para os consumidores com a garantia de uma remuneração justa para as concessionárias. Empresas que conseguem operar abaixo dos custos projetados pelo regulador podem reter os ganhos adicionais, enquanto aquelas que não atendem aos critérios de qualidade estão sujeitas a penalizações. Isso promove tanto a competitividade quanto a melhoria contínua nos serviços prestados. Além disso, o modelo prevê revisões tarifárias periódicas, geralmente a cada quatro ou cinco anos, durante as quais a ANEEL ajusta os parâmetros de cálculo do teto tarifário. Nesse processo, são analisados custos operacionais, investimentos realizados, qualidade do serviço e evolução da demanda. Esses ajustes garantem a sustentabilidade econômica do modelo, oferecendo proteção aos consumidores e incentivando as distribuidoras a manterem um serviço eficiente e de qualidade (CASTRO et al., 2020; INSTITUTO ACENDE BRASIL, 2007, 2011). As perdas não técnicas (PNTs) representam uma parcela dos custos incluídos na tarifa de energia (TE) e estão associadas à tarifa de uso do sistema de distribuição (TUSD), especificamente na categoria de "perdas", como ilustrado na Figura 1. Em síntese, definida como a energia consumida, mas não faturada, as PNTs influ- enciam diretamente no valor pago pelos consumidores, especialmente em regiões onde essas perdas são mais elevadas (Instituto Acende Brasil, 2017). Considerando esses fatores, compreender a composição tarifária e o impacto das PNTs é fundamental, uma vez que essas perdas causam prejuízos financeiros significativos tanto para as concessionárias quanto para as unidades consumidoras (UCs), refletindo em acrés- cimos na fatura de energia. Além das perdas de receita e aumento na tarifa, as PNTs compro- metem a segurança e a eficiência operacional do sistema de distribuição (Jeyaraj et al., 2020; Savian et al., 2021). Dessa forma, adotar medidas para reduzir as PNTs é essencial para melho- rar a eficiência do sistema e oferecer tarifas mais justas, beneficiando tanto os consumidores quanto o setor elétrico como um todo. 17 Figura 1 – Composição tarifária de energia elétrica. Fonte: (ANEEL, 2018a). 1.3 O QUE SÃO AS PERDAS NÃO TÉCNICAS As PNTs, também chamadas de perdas comerciais, referem-se à energia que é con- sumida, mas não faturada. Elas ocorrem devido a diferentes fatores, tais como: (i) furto: reali- zado por meio de desvios na rede secundária do sistema de distribuição de energia elétrica (SDEE) ou por intervenções do tipo desvio no sistema de medição, sendo considerada um by- pass; (ii) fraudes: consistem na adulteração do sistema de medição de energia elétrica para re- duzir ou eliminar o registro do consumo real, caracterizando-se como um furto de energia; (iii) falhas operacionais: relacionadas a erros cometidos pela distribuidora, como leituras incorretas, falhas no processo de faturamento, ausência de equipamentos de medição ou medições realiza- das por equipamentos defeituosos (Faria, 2016; Instituto Acende Brasil, 2017; Ventura et al., 2023). 18 1.4 PROCESSO DE INSPEÇÃO DAS UNIDADES CONSUMIDORAS O processo de inspeção realizado pelas concessionárias de energia é conduzido por equipes especializadas, que identificam possíveis irregularidades nas UCs por meio de visitas in loco. Esse processo depende de recursos humanos qualificados e envolve custos considerá- veis, o que limita o número de inspeções que podem ser realizadas em um determinado período. Em Faria (2016) são discutidas as principais estratégias para detectar UCs irregula- res, bem como a taxa de sucesso associada a cada uma, definida em (1). As estratégias aborda- das incluem campanhas de combate às PNTs, varreduras, denúncias, análise de dados e o uso de software especializado. 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑠𝑢𝑐𝑒𝑠𝑠𝑜 [%] = 𝑁° 𝑑𝑒 𝑈𝐶𝑠 𝑖𝑟𝑟𝑒𝑔𝑢𝑙𝑎𝑟𝑒𝑠 𝑒𝑛𝑐𝑜𝑛𝑡𝑟𝑎𝑑𝑎𝑠 𝑁° 𝑑𝑒 𝑈𝐶𝑠 𝑖𝑛𝑠𝑝𝑒𝑐𝑖𝑜𝑛𝑎𝑑𝑎𝑠 ⋅ 100 (1) 1.5 OBJETIVOS As PNTs afetam negativamente a qualidade da energia elétrica e os custos das dis- tribuidoras de energia. Adicionalmente, a detecção dessas perdas é onerosa, pois demanda re- cursos humanos especializados. Nesse contexto, a aplicação de modelos de machine learning para classificar as UCs aumenta a eficácia do processo de inspeção. Assim, propõe-se neste estudo a avaliação de mé- todos de pré-processamento de dados, visando um desempenho aprimorado dos algoritmos de classificação para detecção de PNTs. Este estudo visa realizar uma análise abrangente dos métodos para remoção de ou- tliers, balanceamento de classes e seleção de features representativas. Desse modo, a capaci- dade de aprendizado e generalização dos modelos de machine learning é aprimorada, acrescido de uma redução do esforço computacional. Por fim, a falta de estudos que realizam uma comparação abrangente nos métodos de pré-processamento aplicados ao contexto das PNTs motivou a realização deste trabalho. 19 2 PERDAS TÉCNICAS E PERDAS NÃO TÉCNICAS 2.1 PERDAS TÉCNICAS As perdas técnicas são intrínsecas ao SDEE, resultantes de fenômenos físicos que ocorrem durante o transporte, transformação de tensão e medição de energia. Essas perdas de- correm de processos naturais, como as perdas Joule nos condutores, que ocorrem devido à re- sistência elétrica ao fluxo de corrente. Além disso, incluem-se as perdas por efeito de Foucault e por histerese, que estão associadas ao funcionamento dos transformadores. As perdas por efeito de Foucault surgem da formação de correntes parasitas nos núcleos ferromagnéticos, en- quanto as perdas por histerese são causadas pela repetitiva magnetização e desmagnetização do núcleo durante os ciclos alternados da corrente elétrica (FITZGERALD, 2014). No Brasil, as diretrizes e regulamentações sobre as perdas técnicas estão estabele- cidas no Módulo 7 dos Procedimentos de Distribuição de Energia Elétrica no Sistema Elétrico Nacional (PRODIST), que define parâmetros e práticas para mitigar e calcular essas perdas. Adicionalmente, é importante destacar que o aumento das PNTs também pode con- tribuir para o aumento das perdas técnicas no SDEE, podendo impactar negativamente nos ín- dices de qualidade do serviço, aumentar os riscos à segurança, reduzir a eficiência do sistema e ocasionar perdas de receita para a concessionária (Messinis; Hatziargyriou, 2018). Nesse contexto, a Figura 2 apresenta o fluxograma simplificado do procedimento de avaliação das perdas técnicas, cujo método de cálculo é descrito a seguir. A correta determi- nação das perdas técnicas é uma etapa essencial, pois precede a estimativa das PNTs. 3 MÉTODO DE CÁLCULO 3.1 As perdas de energia nas redes e nos equipamentos associados ao sistema de distribuição de alta tensão (SDAT) são apuradas por dados obtidos do sistema de medição. 3.2 As perdas de energia nas redes e equipamentos associados ao sistema de distribuição de média tensão (SDMT) e ao sistema de distribuição de baixa tensão (SDBT) são obtidas pela aplicação do método de fluxo de potência. 3.3 Para os medidores são computadas as perdas nas bobinas de tensão localizadas nas unidades consumidoras do grupo B (ANEEL, 2018, p.10). 2.2 PERDAS NÃO TÉCNICAS As PNTs são classificadas como reais e regulatórias. As PNTs reais correspondem à diferença entre as perdas totais e as perdas técnicas, enquanto as PNTs regulatórias refletem a parcela de custos dessas perdas que é repassada às UCs por meio da tarifa de energia elétrica. As PNTs regulatórias apresentam menor variação em comparação às PNTs reais, uma vez que 20 seu objetivo principal é mitigar as perdas de receita das concessionárias. A análise do portal de relatórios da ANEEL (2024) mostra, na Figura 3, a evolução das PNTs reais em relação às perdas regulatórias. Figura 2 – Fluxograma com o procedimento para avaliação das perdas. Fonte: Adaptado de ANEEL (2018). Figura 3 – Perdas não técnicas reais e regulatórias sobre baixa tensão. Fonte: ANEEL (2024). A região Norte do país apresenta os maiores índices de PNTs, conforme mostrado na Figura 4. Em particular, a distribuidora de energia Amazonas Energia registrou, em 2022, um percentual de perdas não técnicas (𝑃𝑃𝑁𝑇) real de 120,82% em relação ao consumo do mercado de baixa tensão (𝑀𝑏𝑡), conforme apresentado em (2) (ANEEL, 2015). Desta forma a cada 1 𝑘𝑊ℎ consumido no 𝑀𝑏𝑡 as PNTs reais são de 1,21 𝑘𝑊ℎ, evidenciando a necessidade de investimentos para redução dessas perdas. 𝑃𝑃𝑁𝑇 [%] = 𝑃𝑁𝑇 𝑀𝑏𝑡 ⋅ 100 (2) Em 2023, os custos associados às PNTs totalizaram R$ 5,981 bilhões. A Figura 5 apresenta a evolução desses custos relacionados às perdas totais ao longo dos anos. 21 Figura 4 – Perdas não técnicas sobre a baixa tensão na região Norte. Fonte: ANEEL (2024). Figura 5 – Evolução dos custos das perdas no processo tarifário. Fonte: ANEEL (2024). 2.3 REVISÃO BIBLIOGRÁFICA Nesta seção, apresenta-se uma revisão dos estudos recentes na literatura especiali- zada voltados à detecção de PNTs por meio de técnicas de sistemas inteligentes. O foco está em metodologias que combinam aprendizado de máquina e análise de dados para identificar pa- drões de consumo irregulares, buscando soluções que tornem o processo de inspeção mais efi- ciente. De acordo com Nagi et al. (2010), as PNTs são mais comuns e têm impactos mais significativos em países emergentes, embora possam afetar todas as economias. Saeed et al. (2020) sugerem que, em países como o Brasil, as estratégias para combater PNTs devem se basear em ferramentas distintas em relação àquelas empregadas em países desenvolvidos, pro- pondo abordagens focadas em software em vez de hardware. Essa recomendação é devido ao fato de que grande parte do SDEE de países emergentes não é composta por smart grids. 22 Figueroa et al. (2018) ressaltaram a escassez de pesquisas sobre o balanceamento das classes antes da aplicação de classificadores. Dada a significativa disparidade entre o nú- mero de UCs regulares e irregulares frequentemente observadas em datasets relacionados a furtos de energia, o estudo propôs a utilização de sobreamostragem da classe minoritária (UCs irregulares) e subamostragem aleatória da classe majoritária (UCs regulares). O balanceamento foi testado em diferentes proporções e aplicado nos classificadores support vector machine (SVM) com kernel Linear, SVM com kernel Radial Basis Function (RBF) e perceptron multi- camadas (PMC). A estratégia de balanceamento dos dados demonstrou resultados promissores, sendo avaliada por meio das métricas Receiver Operating Characteristic-Area Under the Curve (ROC-AUC), correlação de Matthews (MCC) e Fβ-score. Haq et al. (2021) utilizaram uma rede neural convolucional profunda para extrair as características mais significativas de um banco de dados, enquanto um classificador SVM foi empregado para identificar UCs irregulares. A eficiência da abordagem foi validada por meio de métricas derivadas da matriz de confusão, além da análise das curvas ROC e AUC, que evidenciaram a robustez da metodologia proposta. No estudo de Ghori et al. (2020), diversos modelos de machine learning foram ava- liados para classificação de PNTs utilizando uma base de dados conformada por 80 mil registros de UCs, cada um com 71 características. Aproximadamente 4% dos registros referiam-se a PNTs. A base foi dividida em 80% para treinamento e 20% para validação. Para reduzir a com- plexidade computacional, aplicou-se o índice de Gini, que realizou a seleção das características mais significativas, resultando na seleção de 14 características. Os classificadores foram avali- ados a partir de métricas extraídas da matriz de confusão, como precisão, recall e F1-Score. Dentre os 15 classificadores avaliados, o CatBoost e o PMC apresentaram melhor desempenho. 23 3 MACHINE LEARNING 3.1 REDES NEURAIS ARTIFICIAIS PERCEPTRON MULTICAMADAS As redes neurais artificiais (RNAs) surgiram para representar matematicamente o processamento de informações em sistemas biológicos. Esse conceito é amplamente utilizado em modelos de reconhecimento de padrões, inspirados na maneira como os sistemas biológicos processam informações. Bishop (2006) observa que uma RNA pode ser interpretada como uma sequência de regressões logísticas aplicadas em camadas sucessivas. A literatura apresenta diversas arquiteturas de RNAs, entre as quais destaca-se a PMC, apresentada na Figura 6, amplamente difundida para aplicação em diversos problemas, tanto de classificação quanto de predição. Neste trabalho, a PMC será aplicada em um problema de classificação supervisionada, o que envolve as etapas de treinamento e teste do modelo. Figura 6 – Arquitetura da rede neural perceptron multicamadas. Fonte: Silva et al. (2016). O processo de aprendizagem da RNA PMC é baseado no algoritmo de retropropa- gação (backpropagation), proposto por Rumelhart et al. (1986). Esse método, amplamente uti- lizado em redes neurais, permite que o modelo ajuste os pesos de cada camada de neurônios de forma a minimizar o erro entre os valores previstos e os reais. O treinamento da RNA PMC envolve duas etapas, nas quais os fluxos de informa- ção ocorrem em sentidos opostos. Na primeira etapa, chamada de propagação (forward), cada amostra com suas respectivas features passa pelas camadas da rede até a saída. Nesse fluxo, os neurônios processam as entradas, aplicam as funções de ativação e produzem uma saída que representa a predição do modelo. Em seguida, a predição é comparada com o valor esperado, 24 resultando em um erro para essa amostra específica. Na segunda etapa, conhecida como retro- propagação (backward), o erro calculado é transmitido de volta pelas camadas da rede. Esse processo ajusta os pesos sinápticos de cada neurônio, de maneira a reduzir progressivamente o erro (Bishop, 2006; Haykin, 2001; Silva et al., 2016). A Figura 7 apresenta uma RNA com arquitetura perceptron, proposta por McCul- loch e Pitts (1943) composta por um único neurônio artificial. Essa estrutura será utilizada para explicar o funcionamento de um neurônio e sua representação matemática. Para cada variável há um peso associado onde {𝑥1, 𝑥2, … , 𝑥𝑛} representam os sinais de entrada, para cada uma des- sas variáveis há um conjunto variável de pesos sinápticos {𝑤1, 𝑤2, … , 𝑤𝑛}, que ponderam a im- portância de cada entrada. Figura 7 – Representação do neurônio artificial de McCulloch-Pitts. Fonte: Silva et al. (2016). O processo de combinação linear é mostrado em (3) e inclui uma variável de viés 𝜃 (comumente chamada de bias) que adiciona um valor constante ao resultado. Após a soma, o valor calculado (potencial de ativação) representa o domínio de uma função de ativação 𝑔(⋅), como ilustrado em (4) (Silva et al., 2016). A imagem da função de ativação representa a saída �̂� da rede neural. Resumidamente, o processo de aprendizado na arquitetura PMC consiste em ajustar os pesos sinápticos da rede neural para que a rede capture o padrão associado aos dados de forma que as previsões da rede se aproximem dos valores reais. Essa característica permite que o conhecimento seja distribuído nos pesos de cada neurônio, o que é fundamental para o de- sempenho da rede. 𝑢 = ∑ 𝑤𝑖 ⋅ 𝑥𝑖 𝑛 𝑖=1 − 𝜃 (3) �̂� = 𝑔(𝑢) (4) 25 3.2 MATRIZ DE CONFUSÃO A matriz de confusão é amplamente utilizada como uma ferramenta fundamental para avaliar o desempenho de algoritmos de classificação. Seu principal propósito é comparar a classe predita pelo modelo com a classe real de cada amostra, quantificando assim os acertos e erros do algoritmo. Na sua forma básica, a matriz de confusão é ideal para problemas de classificação binária, nos quais existem apenas duas classes, sendo, portanto, adequada para o problema abordado neste trabalho. É importante destacar que também existem variações da matriz de confusão para problemas de classificação multiclasse e multirrótulo, como descrito por Heydarian et al. (2022) A Tabela 3 apresenta os elementos da matriz de confusão adaptados ao contexto das PNTs. Nela, 𝑄𝑉𝑃 representa a quantidade de verdadeiros positivos, ou seja, o número de unida- des consumidoras (UCs) irregulares corretamente classificadas. 𝑄𝐹𝑁 refere-se à quantidade de falsos negativos, que corresponde ao número de UCs irregulares erroneamente classificadas como regulares. 𝑄𝐹𝑃 indica a quantidade de falsos positivos, isto é, o número de UCs regulares incorretamente classificadas como irregulares, enquanto 𝑄𝑉𝑁 representa a quantidade de verda- deiros negativos, ou seja, o número de UCs regulares corretamente identificadas (GEEKS FOR GEEKS, 2024c; Silveira et al., 2022). Tabela 3 – Matriz de confusão. Matriz de Confusão Classe Predita Irregular Regular Classe Real Irregular 𝑄𝑉𝑃 𝑄𝐹𝑁 Regular 𝑄𝐹𝑃 𝑄𝑉𝑁 Fonte: Elaboração do próprio autor. Em problemas de classificação, especialmente em conjuntos de dados desbalance- ados, como no caso das PNTs, convém utilizar métricas adequadas para avaliar o desempenho dos classificadores. Embora a acurácia seja uma métrica amplamente utilizada, ela pode ser enganosa em cenários onde as classes estão desbalanceadas. Por isso, além da acurácia, outras métricas como precisão e recall oferecem uma visão mais completa sobre o desempenho dos classificadores, especialmente ao lidar com falsos positivos e falsos negativos, fatores críticos na identificação de PNTs (Faria et al., 2012). 26 3.2.1 Acurácia A acurácia, descrita em (5), é comumente utilizada para avaliar sistemas classifica- dores. Ela mede a proporção de classificações corretas em relação ao total de amostras, sendo amplamente utilizada em diversos cenários de aprendizado supervisionado. No entanto, em ce- nários de PNTs, essa métrica pode ser inadequada devido ao forte desbalanceamento entre as classes de UCs regulares e irregulares. Geralmente para cada nove UCs regulares, há em média apenas uma UC irregular (Faria, 2012). Desta forma, um classificador que não seja capaz de identificar corretamente as UCs irregulares, mas que classifique todas as UCs regulares de maneira precisa, ainda pode obter uma acurácia elevada, o que pode dar a falsa impressão de que o modelo é eficaz. Isso ocorre porque a acurácia não penaliza adequadamente o erro de classificação das UCs irregu- lares, que são as classes de interesse no contexto das PNTs. Portanto, embora a acurácia possa ser útil em outros contextos de classificação equilibrada, em problemas como a detecção de PNTs, onde o desequilíbrio entre as classes é significativo, a acurácia pode mascarar a verda- deira performance do modelo. 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑄𝑉𝑃 + 𝑄𝑉𝑁 𝑄𝑉𝑃+𝑄𝐹𝑁 + 𝑄𝐹𝑃 + 𝑄𝑉𝑁 (5) 3.2.2 Precisão Métricas como a precisão, apresentada em (6), são fundamentais para a avaliação em problemas com classes desbalanceadas. A precisão indica a confiabilidade do classificador em identificar UCs irregulares. Em outras palavras, ela avalia o quão bem o modelo evita clas- sificar indevidamente uma UC regular como irregular, sendo alta quando o número de falsos positivos (𝑄𝐹𝑃) é próximo de zero, ou seja, quando o modelo comete poucos erros de classificar UCs regular como irregular. Em problemas de PNTs, reduzir falsos positivos é essencial, pois a classificação incorreta de UCs regulares como irregulares resulta em inspeções desnecessárias pelas equipes de campo, aumentando os custos operacionais. Portanto, uma precisão alta no classificador não só melhora a eficácia do modelo em detectar as UCs irregulares, mas também contribui para a otimização dos processos operacionais, evitando desperdícios de recursos e tornando o sistema mais eficiente e sustentável. 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑄𝑉𝑃 𝑄𝑉𝑃+𝑄𝐹𝑃 (6) 27 3.2.3 Recall Por outro lado, o recall, descrito em (7), mensura a capacidade do classificador de identificar corretamente todas as UCs irregulares, ou seja, ele avalia a taxa de cobertura do modelo. Um recall alto, com falsos negativos (𝑄𝐹𝑁) próximo de zero, indica que o classificador tem uma alta taxa de cobertura, ou seja, consegue detectar a maioria das UCs irregulares da área de estudo. Em outras palavras, isso significa que comete poucos erros de classificar UCs irregulares como regular. Isso é especialmente importante em PNTs, onde a falha em identificar UCs irregulares resulta em perdas financeiras e operacionais para a distribuidora de energia. Seu comportamento é especialmente relevante no cenário de PNTs, pois contribui para a redução dos prejuízos financeiros, ao minimizar a chance de furtos não identificados e não inspecionados, que continuariam gerando custos adicionais para a distribuidora. 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑄𝑉𝑃 𝑄𝑉𝑃+𝑄𝐹𝑁 (7) 3.2.4 F1-Score O F1-Score, apresentado em (8), é a média harmônica entre a precisão e o recall, sendo uma métrica especialmente útil para avaliar o desempenho de classificadores em cenários desbalanceados, como os encontrados em PNTs, onde a disparidade entre as classes regulares e irregulares é significativa. Ao equilibrar essas duas métricas, o F1-Score fornece uma visão mais completa da eficácia do classificador. A precisão avalia a confiabilidade do modelo na identificação de UCs irregulares, enquanto o recall mede sua capacidade de detectar todas as UCs irregulares, o que é crucial para evitar perdas financeiras e operacionais significativas. Quando o F1-Score é baixo, significa que pelo menos uma das métricas (precisão ou recall) apresenta deficiências notáveis. Isso pode resultar em problemas como: inspeções desnecessárias de UCs regulares, o que acarreta custos extras; ou na falha em identificar UCs irregulares, o que leva a perdas de receita. Em contrapartida, um F1-Score elevado reflete um bom equilíbrio entre acurácia e eficiência operacional, indicando que o classificador é capaz de identificar corretamente a maioria das UCs irregulares enquanto minimiza os custos de inspeção. Esse equilíbrio é essencial para otimizar os processos e mitigar os impactos financeiros negativos no sistema de distribuição. 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2 ⋅ 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 ⋅ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑅𝑒𝑐𝑎𝑙𝑙 (8) 28 4 TÉCNICAS DE PRÉ-PROCESSAMENTO 4.1 ENGENHARIA DE ATRIBUTOS A engenharia de atributos, também conhecida como criação de novas features, é uma técnica de ciência dos dados que visa melhorar o desempenho e a generalização de modelos de machine learning. Ela envolve a criação de novos atributos a partir das variáveis existentes, com o uso de transformações matemáticas. Para dados categóricos, utiliza-se o one-hot enco- ding, enquanto, para variáveis numéricas, transformações estatísticas como médias e medianas são aplicadas (GEEKS FOR GEEKS, 2024d). No caso de séries temporais, fatores como condições meteorológicas introduzem ruídos nos dados. Avila et al. (2018) extraíram coeficientes wavelets e Fourier para reduzir tanto a dimensionalidade quanto os ruídos. Neste estudo, foram extraídos dezesseis atributos estatís- ticos a partir do histórico de consumo em kWh, conforme proposto em Ferreira (2008). Essas features, mais robustas e menos sensíveis a ruídos, capturam o perfil de consumo de cada UC, além de serem mais compreensíveis para os especialistas em PNTs. A Tabela 4 descreve os atributos extraídos. Tabela 4 – Atributos estatísticos baseados em regimes de consumo. Siglas Descrição das features REG Número de regimes ou patamares do histórico de consumo mensal em kWh. CV Coeficiente de variação. PQR Percentual de quedas em relação ao regime vigente. PAR Percentual de aumentos em relação ao regime vigente. NQR Número de regimes de queda. NAR Número de regimes de aumento. PMRI Percentual de meses no regime inicial da série de consumo mensal. PMRQ Percentual de meses em regimes de queda da série de consumo mensal. PMRA Percentual de meses em regimes de elevação da série de consumo mensal. NZ Número de zeros. NRFM Número de regimes na faixa média. NRABFM Número de regimes abaixo da faixa média. NRACFM Números de regimes acima da faixa média. NRFRI Números de regimes na faixa do regime inicial. NRABFRI Números de regimes abaixo da faixa do regime inicial. NRACRI Números de regimes acima da faixa do regime inicial. Fonte: Elaboração do próprio autor. 29 4.2 OUTLIER Outliers podem ser definidos como amostras que apresentam pouca similaridade com o restante dos dados de um conjunto. Um banco de dados pode conter outliers devido a erros de coleta ou entrada de dados, ou até mesmo por refletirem eventos reais, como variações inesperadas no consumo de energia elétrica de uma residência, influenciadas por fatores raros ou aleatórios. Embora esses valores possam ser verdadeiros, eles podem afetar negativamente a capacidade de generalização dos modelos de aprendizado de máquina. Nesse contexto, serão exploradas duas técnicas para detecção de outliers baseadas em conceitos estatísticos: o interquartile range (IQR) e o Z-Score. Adicionalmente, será apli- cada uma outra técnica de aprendizado de máquina, o isolation forest, que utiliza árvores biná- rias para isolar anomalias. 4.2.1 IQR O processo de exclusão de amostras consideradas outliers pela técnica do inter-quartile range (IQR) é fundamentado na análise estatística da mediana e da dispersão dos dados, utilizando os quartis para descrever a variabilidade e a centralidade dos conjuntos de dados. Para cada instância (feature), calcula-se a diferença entre o terceiro quartil (𝑄3) e o pri- meiro quartil (𝑄1), como mostrado em (9), onde há a definição do intervalo interquartil. A partir desse intervalo, determinam-se os limites inferior e superior, conforme (10) e (11), respectiva- mente. Após o cálculo desses limites para cada instância, são selecionadas apenas as amostras que se encontram dentro do intervalo [𝐿𝑖𝑛𝑓 , 𝐿𝑠𝑢𝑝] , e que representam o intervalo livre de outliers (Alabrah, 2023). 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 (9) 𝐿𝑖𝑛𝑓 = 𝑄1 − 1,5 ⋅ 𝐼𝑄𝑅 (10) 𝐿𝑠𝑢𝑝 = 𝑄3 + 1,5 ⋅ 𝐼𝑄𝑅 (11) 4.2.2 Z-Score O Z-Score é uma medida estatística que indica quantos desvios padrão uma amostra está distante da média de uma determinada instância (feature) em uma base de dados. Essa métrica é amplamente utilizada tanto para padronizar diferentes distribuições quanto para de- tectar outliers. No processo de detecção de outliers utilizando o Z-Score, a normalização de cada amostra original (𝑋𝑖) é feita por meio da fórmula do Z-Score, resultando em (𝑍𝑖), conforme (12), onde 𝜇 representa a média e 𝜎 o desvio padrão de uma instância da base de dados. 30 Os outliers são identificados ao comparar os valores normalizados com um limiar predefinido. Comumente, utiliza-se um limiar de três desvios padrão. Apenas as amostras que atendem (13) estarão dentro do intervalo livre de outliers (Anusha et al., 2019). 𝑍𝑖 = 𝑋𝑖 − 𝜇 𝜎 (12) |𝑍𝑖| < 𝑙𝑖𝑚𝑖𝑎𝑟 (13) 4.2.3 Isolation forest O isolation forest é projetado especificamente para identificar outliers, ou anoma- lias em dados de alta dimensionalidade, utilizando um modelo que isola explicitamente os ou- tliers. A premissa central do isolation forest é que as anomalias são escassas e significativa- mente diferentes tanto das amostras normais quanto entre si. O algoritmo utiliza árvores binárias para separar as amostras. A lógica subjacente é que amostras de outliers geralmente exigem menos partições para serem isoladas, resultando em uma menor profundidade na árvore. Em contrapartida, amostras normais tendem a precisar de mais partições, o que implica em uma maior profundidade. Essa característica permite que o modelo calcule uma pontuação de anomalia, com amostras isoladas rapidamente recebendo pontuações mais altas e sendo detectadas como outliers de forma explicita. Além de sua eficácia na detecção de outliers, o isolation forest é notável por sua simplicidade operacional, apresentando apenas dois parâmetros de ajuste: o número de árvores a serem construídas e o tamanho dos subconjuntos (Liu et al., 2008). 4.3 BALANCEAMENTO Não é incomum encontrarmos conjunto de dados com classes mais frequentes que possuem um número de amostras significativamente maior que outras em problemas de classi- ficação. Bases de dados com essa característica são chamadas de desbalanceadas. No contexto de PNTs, estima-se que apenas cerca de 10% das UCs pratiquem algum tipo de ação que gere PNTs (Faria et al., 2012). Por conta dessa disparidade, as bases de dados criadas pelo processo de inspeção serão um reflexo dessa estimativa, apresentando um balanceamento significativo. Esse fenômeno de desbalanceamento é comum em diversos outros contextos, como nos dados de diagnóstico de câncer, onde a maioria dos participantes apresenta um resultado negativo; em fraudes de pagamento, que ocorrem com menor frequência em relação às transações legítimas; e até mesmo em caixas de spam, onde a maior parte dos e-mails recebidos são válidos (Azank e Gurgel, 2020). 31 Em problemas de classificação binária, a classe com menor número de amostras é chamada de minoritária, enquanto a de maior número é denominada classe majoritária. Esse desbalanceamento pode dificultar o treinamento e a validação de modelos supervisionados, jus- tificando a necessidade da aplicação de técnicas de pré-processamento. Em casos onde o des- balanceamento é pequeno, essa diferença pode ser insignificante e, por vezes, ignorada. De forma simplificada, as técnicas de balanceamento podem incluir: sobreamostra- gem, que consiste em aumentar o número de amostras da classe minoritária, e subamostragem, que reduz o número de amostras da classe majoritária. Há também técnicas híbridas que com- binam essas duas abordagens (Sharma et al., 2021). Figueroa et al. (2018) destacam a escassez de estudos sobre o balanceamento de classes em dados de PNTs e propõem a utilização de sobreamostragem para UCs irregulares (classe minoritária) e subamostragem para UCs regulares (classe majoritária), ambas de forma aleatória. O procedimento é realizado em diferentes proporções de balanceamento e apresenta resultados promissores, mostrando que datasets mais balanceados podem gerar melhores resul- tados quando comparado a versões menos balanceadas. 4.3.1 SMOTE O synthetic minority over-sampling technique (SMOTE) é uma técnica amplamente utilizada para lidar com problemas de dados desbalanceados, sendo especialmente aplicada para a sobreamostragem da classe minoritária. Seu objetivo é gerar novas amostras sintéticas da classe com menos amostras, de modo a equilibrar o conjunto de dados. O processo de sobreamostragem do SMOTE consiste em criar amostras "sintéticas" da classe minoritária, aumentando seu tamanho para balancear a base de dados. O método fun- ciona selecionando aleatoriamente os k-vizinhos mais próximos (onde k pode ser pré determi- nado) no espaço de características e, em seguida, gerando novas amostras que são combinações lineares entre a amostra original e seus vizinhos. Esse procedimento é repetido de forma itera- tiva até que o conjunto de dados estejam balanceado ou até que o número de amostras da classe minoritária atinja um valor pré-determinado (Chawla et al., 2002). Uma das principais vantagens do SMOTE é que ele evita a criação de amostras duplicadas, como ocorre em técnicas mais simples, onde a classe minoritária é replicada dire- tamente até atingir o balanceamento. No entanto, uma das principais limitações do SMOTE é a possibilidade de overfitting, pois as novas amostras são geradas a partir da combinação linear de amostras existentes. Isso pode resultar em amostras sintéticas enviesadas que não capturam 32 a complexidade total dos dados originais, especialmente se os dados forem muito dispersos ou ruidosos. Por fim, o SMOTE é frequentemente combinado com outras técnicas, como a su- bamostragem da classe majoritária, para melhorar a eficácia em cenários com desbalancea- mento extremo, onde a diferença entre as classes é muito grande. 4.3.2 ADASYN O adaptive synthetic sampling approach for imbalanced learning (ADASYN) é uma técnica de sobreamostragem similar ao SMOTE, mas com uma abordagem adaptativa. Sua estratégia baseia-se em gerar amostras sintéticas da classe minoritária de acordo com a dificul- dade de aprendizado de cada região dos dados. Assim, mais amostras sintéticas são criadas para as áreas onde as amostras da classe minoritária são mais difíceis de classificar, enquanto menos amostras são geradas em regiões onde o aprendizado é relativamente simples. O procedimento do ADASYN começa pela determinação do grau de desbalancea- mento entre as classes. A partir disso, define-se quantas amostras sintéticas precisam ser geradas para balancear o conjunto de dados. O próximo passo é determinar o nível de equilíbrio dese- jado entre as classes, seguido pela identificação dos k-vizinhos mais próximos, usando a distân- cia euclidiana. Com base nessa proximidade, o ADASYN decide a distribuição das novas amos- tras sintéticas a serem criadas. A quantidade de amostras geradas para cada amostra minoritária é calculada de ma- neira adaptativa, usando a distribuição da classe minoritária. Essa distribuição mede a dificul- dade de classificação de uma amostra minoritária, levando em conta o número de vizinhos da classe majoritária ao seu redor. Amostras em regiões mais complexas (com maior número de vizinhos da classe majoritária) recebem mais amostras sintéticas, enquanto as amostras em áreas mais fáceis de classificar recebem menos, tornando o processo adaptativo e automático, sendo este uma das vantagens da técnica. Entretanto, uma possível limitação do ADASYN é sua maior complexidade com- putacional, especialmente ao lidar com grandes volumes de dados, em comparação ao SMOTE. Além disso, como a técnica se baseia nos k-vizinhos mais próximos, a escolha do valor de k pode influenciar significativamente seu desempenho, tornando-se mais um parâmetro a ser ajustado durante o processo de modelagem (He et al., 2008). 33 4.3.3 Random under sampler A técnica random under sampler realiza a subamostragem de forma aleatória, re- movendo amostras da classe majoritária com o objetivo de balancear o conjunto de dados. Trata-se de uma técnica simples e eficiente, tanto em termos de implementação quanto de de- sempenho computacional. Entretanto, uma de suas limitações é a possibilidade de eliminar amostras impor- tante da classe majoritária, podendo resultar na perda de informações relevantes para o modelo. Apesar disso, o random under sampler é amplamente utilizado por sua rapidez e facilidade, especialmente em bases de dados com grande desbalanceamento e dimensionalidade, situação em que técnicas mais complexas podem não ser viáveis (Lemaître et. al, 2017). 4.3.4 NEARMISS A técnica NEARMISS, proposta por Zhang e Mani (2003), realiza a subamostragem da classe majoritária com base nas distâncias Euclidianas entre as amostras das classes, sendo também uma técnica baseada no conceito de k-vizinhos mais próximos. O processo de seleção das amostras da classe majoritária para balancear o conjunto de dados pode ser feito por meio de três variantes do algoritmo: ❖ NearMiss-1: Seleciona o número necessário de amostras da classe majoritária que estão mais próximas de cada amostra da classe minoritária; ❖ NearMiss-2: Seleciona as amostras da classe majoritária que estão mais distantes de cada amostra da classe minoritária; ❖ NearMiss-3: Seleciona as amostras da classe majoritária cujos k-vizinhos mais próximos são exclusivamente amostras da classe minoritária. Ou seja, mantém as amostras da classe majoritária que estão em regiões predominantemente cercadas por amostras minoritárias. 4.4 FEATURE SELECTION A etapa de feature selection é fundamental em projetos de aprendizado de máquina, pois envolve a seleção das características mais representativas de um conjunto de dados com base em determinados critérios. O objetivo é aprimorar o desempenho do modelo, reduzindo o overfitting e melhorando sua capacidade de generalização, além de diminuir o tempo de treina- mento. Os métodos de seleção de features são geralmente classificados em três grupos: métodos de filtro, métodos wrapper e métodos incorporados (Geeks For Geeks, 2024b). 34 Os métodos de filtro utilizam técnicas estatísticas para avaliar a relevância de cada feature de forma independente do modelo, apresentando baixo custo computacional, sendo efi- cazes na remoção de features redundantes ou correlacionadas. No entanto, esses métodos não eliminam a multicolinearidade, pois avaliam cada feature isoladamente. Os métodos wrapper consistem em treinar o modelo com diferentes subconjuntos de features, avaliando o desempenho a cada variação. A vantagem principal desses métodos consiste em encontrar o conjunto de features mais adequado ao modelo específico. Contudo, eles são computacionalmente custosos. Neste estudo, não foi utilizado nenhum método com essa abordagem. Por fim, os métodos incorporados integram a seleção das features mais relevantes ao próprio processo de aprendizado do algoritmo. Esses métodos combinam as vantagens dos anteriores, pois levam em conta as interações entre as features durante a seleção (Geeks For Geeks, 2024a). 4.4.1 Random forest O random forest ou floresta de decisão aleatória, é um modelo de machine learning baseado em um conjunto de árvores de decisão. Ele funciona construindo uma “floresta” com várias árvores de decisão que tomam decisões de forma independente, cada uma treinada com um subconjunto aleatório dos dados. No final, o modelo combina as previsões de todas as ár- vores (por exemplo, pela média ou voto majoritário), gerando uma resposta final mais robusta e precisa (Breiman, 2001; Louppe, 2015). A qualidade das divisões nas árvores do random forest é geralmente medida pelo índice de Gini, onde valores mais baixos indicam maior separação entre as classes. A diminui- ção média de impurezas ou mean decrease in impurity (MDI) reflete a contribuição média de cada feature para melhorar essa qualidade ao longo de todo o modelo (Soman, 2023). Breiman (2001) aponta que o processo de seleção de características é intrínseco aos modelos random forest, sendo uma medida derivada diretamente do impacto das features na redução de impureza dos nós. Features que, ao serem utilizadas em divisões, resultam em uma grande diminuição de impureza (avaliada pela MDI) são consideradas mais importantes. Assim, quanto mais frequentemente uma feature é utilizada e maior sua contribuição para reduzir a impureza, maior será sua importância. Essa característica do random forest permite identificar as features mais relevantes para a separação de classes, possibilitando a simplificação do próprio modelo e o aproveita- mento desse processo de seleção de features em outros modelos de machine learning. 35 4.4.2 ANOVA f_classif O ANOVA f_classif é um método de seleção de features baseado na análise de va- riância (ANOVA), que calcula o valor do teste F para cada feature em relação à variável alvo. Esse teste é usado para avaliar se existem diferenças significativas entre as médias de classes para uma determinada feature. Em bases de dados onde se assume linearidade entre as classes, o método apresenta vantagens significativas devido ao seu baixo custo computacional, sendo útil especialmente quando o objetivo é apenas reduzir o número de features no modelo. No entanto, em conjuntos de dados mais complexos, ele pode não ser a melhor escolha para selecionar as features mais representativas. 4.4.3 Mutual info classif Por fim, o mutual info classif estima a informação mútua entre as variáveis, funda- mentando-se na teoria das probabilidades e na teoria da informação. Ele quantifica o quanto uma variável aleatória contém informação sobre outra. No contexto da seleção de características, essa métrica permite medir a quantidade de informação compartilhada entre cada feature e a variável alvo na base de treinamento, identificando assim as características ou variáveis mais relevantes para a previsão (Kraskov et al., 2004). A informação mútua é especialmente útil porque pode capturar relações não lineares entre as features e a variável alvo, oferecendo vantagens em conjuntos de dados mais complexos em comparação com métodos baseados em correlação, que se restringem a relações lineares. 36 5 RESULTADOS Neste capítulo são apresentados os resultados deste estudo. Primeiramente, são des- critas as especificidades do conjunto de dados utilizado. Os dados são tratados em uma etapa de pré-processamento e, por fim, avalia-se o desempenho do classificador rede neural PMC. Todas as simulações deste estudo foram realizadas em um computador pessoal com sistema operacional Windows 64 bits, processador Intel i5 (2,40 GHz, 9ª Geração), 32 GB de RAM e um SSD de 520 GB. 5.1 PARÂMETROS PARA IMPLEMENTAÇÃO DOS MODELOS A implementação deste trabalho foi realizada inteiramente em python, uma lingua- gem de programação de código aberto amplamente utilizada em ciência de dados (Van Rossum; Drake, 2009). As etapas iniciais de filtragem dos dados foram conduzidas utilizando as biblio- tecas pandas e numpy, conhecidas pela sua eficiência no tratamento e manipulação de dados (Harris et al., 2020; McKinney, 2010). Para a visualização dos dados, foram empregadas as bibliotecas matplotlib, seaborn e geopandas, permitindo tanto a criação de gráficos quanto a visualização e a manipulação de dados geoespaciais (Hunter, 2007; Jordahl et al., 2020; Was- kom, 2021). As etapas de pré-processamento, essenciais para a preparação dos dados, foram executadas com o auxílio das bibliotecas numpy, scikit-learn e imbalanced-learn, cada uma com funcionalidades específicas para manipulação e balanceamento de dados. O modelo de aprendizado de máquinas utilizado foi implementado com as ferramentas disponibilizadas pela scikit-learn (Harris et al., 2020; Lemaître et al., 2017; Pedregosa et al., 2011). Todo o desenvolvimento do código foi realizado no ambiente de programação jupyter notebook, integrado ao visual studio code, proporcionando uma interface prática para a escrita e execução dos scripts (Kluyver et al., 2016; Visual Studio Code, 2022). 5.2 ANÁLISE EXPLORATÓRIA DOS DADOS A base de dados original contém informações de aproximadamente 80 mil UCs de uma cidade com cerca de 200 mil habitantes, localizada no interior de São Paulo, Brasil. Os dados pertencem a uma concessionária de energia elétrica, inclui informações confidenciais e abrange o histórico de consumo mensal em kWh ao longo de três anos e a classe referente ao furto de energia, sendo elas regular e irregular. Esse intervalo foi escolhido por representar o tempo máximo permitido por lei para que a concessionária possa realizar a cobrança retroativa das UCs, conforme estabelecido por Monyelle et al., (2019, p. 49). 37 Figura 8 – Taxa de furto por setor censitário. Fonte: Elaboração do próprio autor. A taxa de furtos, definida como a razão entre o número de UCs irregulares e o total de UCs em uma determinada região, foi calculada por setor censitário da cidade. Para a avalia- ção proposta neste estudo, foi realizada uma redução no número de amostras mantendo a hete- rogeneidade da taxa de furtos próxima aos dados originais em cada área, conforme mostrado na Figura 8. A redução no número de amostras eliminou instâncias com dados faltantes ou in- formações inconsistentes, uma vez que apenas as amostras com features de consumo completas foram selecionadas, resultando em uma base de dados reduzida com 12792 UCs. Dessa forma, garantiu-se que todas as amostras presentes estavam devidamente preenchidas, facilitando as análises subsequentes. 5.3 CONJUNTO DE TREINAMENTO E VALIDAÇÃO O processo de separação entre os conjuntos de treinamento e teste foi realizado logo após a conclusão da análise exploratória para garantir que as mesmas combinações de técnicas de pré-processamento sejam aplicadas de forma consistente e que o conjunto de dados utilizado para treinar o modelo seja distinto daquele utilizado para validá-lo. A proporção escolhida foi de 70% dos dados para treinamento e 30% para teste, o que é uma prática comum em problemas de aprendizado supervisionado. Essa divisão foi considerada adequada, pois garante um número suficiente de dados para o treinamento do modelo, sem comprometer a avaliação em dados novos. Em situações onde a base de dados é muito pequena, uma divisão 80:20 pode ser mais apropriada para au- mentar o volume de dados de treinamento, enquanto em bases de dados muito grandes, uma proporção como 90:10 pode ser considerada adequada para avaliação (Nguyen et al., 2021). 38 Essa padronização na divisão dos dados nos conjuntos de treinamento e de teste garante que todas as técnicas de pré-processamento e suas respectivas combinações sejam apli- cadas de forma idêntica aos mesmos dados de treinamento, assegurando uma base comparativa justa para a avaliação das técnicas de pré-processamento. Além disso, essa separação antecipada evita o problema conhecido como "data leakage" (vazamento de dados), que ocorre quando informações do conjunto de teste "vazam" para o conjunto de treinamento, oferecendo ao mo- delo informações que não estariam disponíveis em um cenário real. Um erro comum, por exemplo, é normalizar ou preencher valores faltantes de forma sintética na base de dados antes de dividi-lo, o que faz com que os dados de teste influenciem na etapa de pré-processamento dos dados de treinamento, e vice-versa. Essa abordagem garante que o desempenho do modelo seja avaliado de forma justa, simulando melhor a capacidade de generalização de modelos em dados desconhecidos. 5.4 CRIAÇÃO DO REPOSITÓRIO DE DADOS O processo de criação da base de dados foi realizado por meio da combinação das técnicas de pré-processamento, conforme ilustrado na Figura 9. Para a detecção de outliers e feature selection foram aplicadas três técnicas, enquanto no balanceamento, foram utilizadas quatro técnicas. Além disso, para cada tipo de técnica, foi considerado um cenário base no qual essas técnicas não foram aplicadas, o que adicionou uma configuração extra em cada etapa. Assim, o total de datasets criados pode ser facilmente calculado pela combinação dessas técnicas, levando em conta as configurações adicionais, pelo seguinte cálculo: (3 + 1) ⋅ (4 + 1) ⋅ (3 + 1) = 80. Dessa forma, o repositório contém 80 datasets, resultantes da combinação de todas as opções de pré-processamento disponíveis. Esse volume de dados possibilita testar e comparar o impacto de diferentes combinações de técnicas em cenários diversos. Essa abordagem não só permite uma análise detalhada das técnicas de pré- processamento aplicadas, mas também oferece uma base robusta para avaliar estatisticamente como cada técnica influencia o desempenho do algoritmo de classificação. Assim, é possível identificar as melhores combinações de técnicas para lidar com os desafios apresentados pelos dados e otimizar os resultados obtidos. 39 Figura 9 – Fluxograma para criação do repositório do conjunto de dados. Fonte: Elaboração do próprio autor. 5.5 APLICAÇÃO DAS TÉCNICAS DE PRÉ-PROCESSAMENTO 5.5.1 Outlier Após a aplicação das técnicas de detecção de outliers discutidas na Seção 4.2, foi realizada uma análise para identificar quais amostras foram classificadas como outliers por cada método. A Figura 10 ilustra esses resultados em um diagrama de Venn, onde a técnica IQR removeu 4.296 UCs do dataset (sendo 2.882, 1.215, 71 e 128), enquanto o Z-Score eliminou 1.294 UCs (1.215, 71 e 8). Por fim, o isolation forest retirou 234 UCs (71, 128 e 35). É importante notar que o IQR foi responsável pela remoção de aproximadamente 33,58% das amostras, o que pode impactar negativamente a capacidade de aprendizado dos modelos de machine learning. Essa significativa exclusão de dados poderá ser um dos fatores que contribuem para resultados inferiores nos datasets onde essa técnica é aplicada. Ademais, é interessante observar que as técnicas de detecção de outliers podem ser utilizadas em conjunto. Por exemplo, ao selecionar as amostras identificadas como outliers por todos os três métodos, é possível refinar ainda mais o processo de filtragem. Nesse caso, a interseção das técnicas resulta em 71 amostras comuns (IQR ∩ Z − Score ∩ Isolation Forest), proporcionando uma abordagem mais robusta na identificação de outliers. 40 Figura 10 – Diagrama de Venn das UCs classificadas como outlier. Fonte: Elaboração do próprio autor. 5.5.2 Balanceamento O balanceamento dos dados foi realizado após a remoção dos outliers. A Tabela 5 apresenta o número de UCs restantes após essa etapa. Observa-se que os métodos de subamos- tragem, como o random under sampler e o nearmiss, reduziram drasticamente o número de amostras para treinamento. Isso pode ser problemático, especialmente quando combinado com técnicas de remoção de outliers como o IQR, a qual elimina um número significativo de dados, principalmente se essas amostras removidas pertencerem à classe minoritária de UCs irregula- res. Tabela 5 – Número de UCs após o balanceamento. Balanceamento Outlier UCs regulares UCs irregulares SMOTE Ausente 9014 9014 IQR 5888 5888 Z-Score 7929 7929 Isolation Forest 8100 8100 ADASYN Ausente 9127 9014 IQR 5888 5879 Z-Score 7957 7929 Isolation Forest 8104 8100 Random Under Sampler Ausente 935 935 IQR 59 59 Z-Score 527 527 Isolation Forest 854 854 NEARMISS Ausente 935 935 IQR 59 59 Z-Score 527 527 Isolation Forest 854 854 Fonte: Elaboração do próprio autor. 41 5.5.3 Feature Selection A etapa de seleção das features mais representativas foi realizada por último, inclu- indo datasets ausentes de pré-processamento ou previamente ajustados com remoção de outli- ers e balanceamento de classes. Em seguida, cada método de seleção de features foi aplicado nos 20 datasets gerados nas etapas anteriores. A Figura 11 apresenta a frequência de escolha de cada feature ao utilizar o algoritmo de random forest. A feature coeficiente de variação (CV) foi selecionada em todos os 20 da- tasets criados, sendo a mais frequente. Em segundo lugar, a feature percentual de quedas em relação ao regime vigente (PQR) foi escolhida 16 vezes, seguido pelo percentual de aumentos em relação ao regime vigente (PAR) e o número de zeros (NZ), cada uma presente em 15 dos 20 datasets criados. Figura 11 – Frequência de seleção de features com o algoritmo random forest. Fonte: Elaboração do próprio autor. O algoritmo ANOVA selecionou as features CV, PQR, PAR e NZ em 17 dos 20 datasets criados, conforme ilustrado na Figura 12. Observa-se que as features número de regi- mes (REG), número de regimes de aumento (NAR) e números de regimes acima da faixa do regime inicial (NRACRI) não foram selecionadas em nenhum dos datasets. As demais features apresentaram uma baixa frequência de seleção. Por outro lado, o algoritmo mutual info classif selecionou as features CV, PAR e NZ em 17 dos 20 datasets criados. Em seguida, a feature PQR foi escolhida em 16 dos 20 datasets, conforme apresentado na Figura 13. 42 Figura 12 – Frequência de seleção de features com o algoritmo ANOVA. Fonte: Elaboração do próprio autor. Figura 13 – Frequência de seleção de features com o algoritmo mutual info classif. Fonte: Elaboração do próprio autor. Por fim, observamos que as features CV, PQR, PAR e NZ foram selecionadas com maior frequência ao aplicar os métodos de feature selection propostos. Esse resultado sugere que a escolha das features mais representativas pode não apenas melhorar o desempenho dos modelos de aprendizado de máquinas, bem como torná-los mais simples, de modo a reduzir o esforço computacional necessário. Portanto, um conjunto otimizado de features pode ser fun- damental para alcançar uma boa relação custo-benefício nos modelos. 43 5.6 TREINAMENTO DA RNA PMC 5.6.1 Hiperparâmetros No aprendizado supervisionado, é comum a necessidade de ajustar hiperparâmetros. A RNA PMC utilizada para realizar a classificação dos datasets do repositório descrito na Seção 5.4, foi implementada pela biblioteca de código aberto scikit-learn (Pedregosa et al., 2011). A Tabela 6 apresenta os principais hiperparâmetros usados na etapa de treinamento, que foram os mesmos para todos os datasets do repositório. Essa padronização visa garantir uma base de dados para comparação justa no processo de avaliação das técnicas de pré-proces- samento. Tabela 6 – Hiperparâmetros adotados no processo de treinamento da PMC. Hiperparâmetros Descrição Valor activation Função de ativação dos neurônios relu alpha Taxa de regularização L2, que ajuda a evitar o overfitting penalizando os pesos com grandes magnitudes 10−4 batch_size Tamanho do lote utilizado na atualização dos gradientes auto solver Algoritmo de otimização baseado em gradiente estocástico proposto por Kingma e Ba (2015) adam beta_1 Influencia a suavização dos gradientes. Ele controla o quanto o otimizador vai considerar gradientes passados 0,9 beta_2 Ajusta a magnitude dos gradientes para cada parâmetro, para lidar com variações em diferentes direções de otimização 0,999 epsilon Pequena constante que evita divisão por zero no solver Adam 10−8 hidden_layer_sizes Número de neurônios em cada camada oculta 100 learning_rate Taxa de aprendizado constante – learning_rate_init Valor inicial da taxa de aprendizado 10−3 shuffle Realiza o embaralhamento dos dados em cada iteração (época) – Fonte: Elaboração do próprio autor. Vale destacar que seria possível realizar um ajuste fino dos hiperparâmetros (hyper- parameter tuning) utilizando técnicas como a busca exaustiva em grade (grid search), que testa todas as combinações possíveis de hiperparâmetros. No entanto, essa abordagem pode gerar um espaço de busca muito grande. Para mitigar esse problema, pode-se empregar a busca randô- mica (randomized search), que seleciona aleatoriamente combinações de hiperparâmetros, sendo uma técnica amplamente utilizada (Bergstra; Bengio, 2012). 5.6.2 Função de ativação As funções de ativação determinam como as saídas dos neurônios são calculadas nas RNAs e, consequentemente, como as informações são propagadas através da rede. No con- texto deste trabalho, a função de ativação utilizada é a rectified linear unit (ReLU), descrita 44 matematicamente em (14). A ReLU, mostrada na Figura 14, permite que as saídas sejam valores no intervalo [0, ∞), garantindo que os neurônios possam produzir respostas não lineares e con- tribuindo para a eficácia do aprendizado. Em um problema de classificação binária, como o que estamos tratando, as classes de UCs irregulares e regulares são codificadas, respectivamente, como um e zero. Isso implica que a última camada da rede contém apenas um único neurônio, cujo objetivo é prever a pro- babilidade de uma amostra pertencer a cada uma das classes. Para esse neurônio, a função de ativação utilizada é a sigmoide junto com a Heaviside deslocada (ou função degrau), que é expressa em (15) e é apresentada na Figura 15, onde �̂� representa a classe predita. A sigmoide retorna um valor no intervalo [0,1], interpretando-o como uma probabilidade (GEEKS FOR GEEKS, 2024e). ReLU(𝑥) = max(0, 𝑥) (14) 𝜎(𝑥) = 1 1 + 𝑒−𝑥 �̂� = 𝐻 = { 1, 𝜎(𝑥) ≥ 0,5 0, 𝜎(𝑥) < 0,5 (15) Figura 14 – Função de ativação ReLU. Fonte: Elaboração do próprio autor. 5.6.3 Normalização A normalização dos dados, tanto na etapa de treinamento quanto na etapa de teste, é uma prática recomendada no desenvolvimento de modelos de aprendizado de máquina. Esse processo consiste em ajustar cada feature do dataset de forma individual, de modo que todas compartilhem os mesmos valores de máximo e mínimo. Essa normalização é fundamental, pois 45 equilibra a importância de cada feature durante o treinamento, permitindo que todas sejam tra- tadas de maneira justa e evitando que variáveis com magnitudes maiores dominem a aprendi- zagem do modelo. Figura 15 – Função de ativação sigmoide e Heaviside. Fonte: Elaboração do próprio autor. A Figura 16 ilustra uma demonstração geométrica fundamentada no Teorema de Tales, evidenciando como a proporção entre segmentos permite o ajuste para diferentes escalas. Esse princípio é diretamente aplicável ao processo de normalização, o qual pode ser adaptado para trazer variáveis de diferentes escalas a uma mesma faixa, facilitando comparações e aná- lises. Figura 16 – Normalização: interpretação geométrica e teorema de Tales. Fonte: Silva et al. (2016). A escolha da técnica de normalização deve ser guiada pelas características especí- ficas do dataset, uma vez que diferentes tipos de dados podem exigir abordagens distintas. Além disso, o intervalo de saída gerado pela normalização deve ser compatível com as funções de ativação empregadas nos neurônios da RNA. Assim, a normalização utilizada é apresentada em 46 (16) e pode ser vista como um processo que garante uma junção adequada entre os dados e o modelo, assegurando que a informação seja utilizada de forma eficiente e eficaz ao longo do treinamento. 𝑥𝑖 ′ = 𝑥𝑖 − min(𝑿) max(𝑿) − min(𝑿) (16) Por fim, é essencial que a normalização aplicada ao dataset de teste utilize os valo- res de min(𝑿) e max(𝑿) apresentados em (16), extraídos do dataset de treinamento. Isso ga- rante consistência entre as etapas de treinamento e teste, uma vez que aplicar diferentes escalas de normalização pode introduzir distorções no modelo. Assim, o modelo será avaliado correta- mente com base nas mesmas condições de treinamento. 5.7 RESULTADOS DA FASE DE TESTES A etapa de teste avalia o aprendizado dos modelos de aprendizado de máquina, sendo diretamente influenciado pelos dados usados no treinamento. Essa etapa permite identi- ficar quais métodos de pré-processamento proporcionam o melhor desempenho da RNA PMC. Inicialmente, será analisado o caso base, no qual não foram aplicados os métodos de pré-processamento. A Tabela 7 apresenta os resultados das métricas descritas na Seção 3.2 nos datasets, onde apenas um método de pré-processamento é aplicado. O caso em que não houve a aplicação de nenhum método de pré-processamento, apresenta uma acurácia alta em comparação à literatura (Avila et al., 2018; Figueroa et al., 2018; Ghori et al., 2020). No entanto, no contexto das PNTs, a acurácia não reflete com precisão o desempe- nho do classificador, uma vez que o problema é naturalmente desbalanceado, com a classe alvo sendo minoritária. Por isso, a métrica F1-Score será o foco da avaliação. Ausente da aplicação de pré-processamento, o modelo apresentou um F1-Score de 0,88 e um tempo de execução de 10,93s, levantando dúvidas sobre a necessidade de aplicar tais técnicas para melhorar o desempenho. Entretanto, em datasets de maior dimensionalidade, essa abordagem pode resultar em um aumento significativo do tempo de execução, além de poten- ciais reduções no desempenho do modelo. Os resultados da aplicação isolada dos métodos de pré-processamento indicam que a seleção de características reduziu o custo computacional, mantendo um F1-Score aceitável, conforme mostrado na Tabela 7. 47 Tabela 7 – Desempenho das técnicas de pré-processamento isoladas. Pré-processamento Acurácia Precisão Recall F1-Score t_exec (s) Ausente 0,98 0,88 0,88 0,88 10,93 Outlier 0,98±0,01 0,90±0,09 0,55±0,44 0,57±0,44 8,48±1,95 Balanceamento 0,85±0,24 0,63±0,32 0,91±0,03 0,69±0,29 13,89±14,45 Feature Selection 0,97±0,01 0,86±0,01 0,81±0,06 0,84±0,03 6,75±2,82 Fonte: Elaboração do próprio autor. A combinação da Figura 17 e Figura 18 permite avaliar o desempenho de cada da- taset em relação aos métodos de pré-processamento aplicados, utilizando a distribuição do F1- Score para cada método de remoção de outliers, apresentada em boxplots. Observa-se que, quando aplicado o método de remoção de outliers e IQR ao dataset, conforme ilustrado na Figura 17, a PMC apresenta um F1-Score significativamente inferior em comparação às demais combinações de pré-processamento. Essa constatação, relevante para o problema, levanta a discussão abordada na Seção 5.5.1, pois a exclusão de cerca de 33,58% das amostras de treinamento pode ter comprometido a capacidade de aprendizagem do modelo, tornando os resultados pouco satisfatórios. É evidente que, ao aplicar o método de balanceamento nearmiss, o modelo apre- sentou um F1-Score de 0,2 ± 0,12, significativamente inferior à média geral de 0,49 ± 0,32, impactando negativamente a eficácia das técnicas de balanceamento, como apresentado na Fi- gura 17. Adicionalmente, a Figura 18 permite observar o F1-Score sob a perspectiva dos métodos de feature selection, sem indicar uma tendência clara, seja de redução ou aumento no desempenho dos modelos. Isso sugere que a escolha das features mais significativas pode ser benéfica quanto a simplificação de modelos de aprendizado de máquina, sem comprometer seu desempenho. A Figura 19 mostra a relação entre a métrica F1-Score e o tempo de treinamento da PMC para cada dataset do repositório com os três grupos principais de resultados: Na parte inferior esquerda, estão os casos com F1-Score e tempo de execução baixos, indicando desem- penho insuficiente. Na parte superior direita, os casos apresentam um bom F1-Score, mas com tempos de execução elevados, o que pode ser um fator limitante dependendo dos recursos dis- poníveis. Os resultados na parte superior esquerda mostram um alto F1-Score combinado com um tempo de treinamento reduzido, sendo esses os mais vantajosos pela eficiência e desempe- nho. 48 Figura 17 – Boxplot: outliers versus balanceamento. Fonte: Elaboração do próprio autor. Figura 18 – Boxplot: outliers versus Feature Selection. Fonte: Elaboração do próprio autor. Figura 19 – F1-Score versus tempo de treinamento. Fonte: Elaboração do próprio autor. 49 Em síntese, a aplicação dos métodos de pré-processamento gerou diversas relações entre desempenho e tempo de treinamento, evidenciando que o pré-processamento pode impac- tar os resultados dos modelos de aprendizado de máquina. Isso ressalta a importância de buscar empiricamente as melhores combinações, além de explorar novas metodologias. A Tabela 8 apresenta o grupo de resultados considerados mais vantajosos, com as 24 possibilidades de pré- processamento, incluindo o treinamento realizado ausente de métodos de pré-processamento. Tabela 8 – Grupo de resultados vantajosos e seus métodos de pré-processamento. Outlier Balanceamento Feature Selection Acurácia Precisão Recall F1-Score t_exec (s) Ausente Ausente Ausente 0,977 0,881 0,881 0,881 10,933 Random Forest 0,976 0,876 0,873 0,875 9,159 ANOVA f_classif 0,967 0,861 0,786 0,822 7,452 Mutual info classif 0,965 0,856 0,769 0,810 3,649 Random Under Sampler Ausente 0,957 0,721 0,908 0,804 1,836 Random Forest 0,934 0,606 0,893 0,722 1,567 ANOVA f_classif 0,935 0,612 0,900 0,728 1,824 Mutual info classif 0,933 0,603 0,898 0,721 1,633 Z-Score Ausente Ausente 0,976 0,823 0,798 0,810 8,176 Random Forest 0,978 0,828 0,824 0,826 5,693 ANOVA f_classif 0,966 0,743 0,721 0,732 4,713 Mutual info classif 0,965 0,728 0,734 0,731 4,360 Random Under Sampler Ausente 0,938 0,510 0,880 0,646 1,094 Random Forest 0,929 0,473 0,876 0,614 0,929 ANOVA f_classif 0,932 0,486 0,867 0,622 0,926 Mutual info classif 0,928 0,467 0,871 0,608 1,011 Isolation Forest Ausente Ausente 0,970 0,874 0,814 0,843 10,570 Random Forest 0,971 0,873 0,827 0,849 6,157 ANOVA f_clas- sif 0,960 0,830 0,754 0,790 8,937 Mutual info classif 0,959 0,823 0,754 0,787 4,837 Random Under Sampler Ausente 0,951 0,706 0,872 0,780 2,258 Random Forest 0,937 0,634 0,859 0,730 1,621 ANOVA f_classif 0,937 0,637 0,859 0,731 1,604 Mutual info classif 0,937 0,634 0,861 0,730 1,445 Fonte: Elaboração do próprio autor. 50 Por outro lado, a Tabela 9 detalha os demais resultados obtidos, classificados como menos interessantes para utilização prática. É importante destacar que os resultados poderiam variar caso cada modelo, na etapa de treinamento, fosse submetido a uma otimização de hiperparâmetros. Além disso, a utilização de diferentes algoritmos de classificação pode impactar os resultados para cada dataset gerado pelas técnicas de pré-processamento. Isso sugere que combinações que apresentaram baixo desempenho para a RNA PMC podem ser mais adequadas quando aplicadas a outros algoritmos. Tabela 9 – Resultados para os demais métodos de pré-processamento aplicados. Outlier Balanceamento Feature Selection Acurácia Precisão Recall F1-Score t_exec (s) Ausente Ausente 0,973 0,843 0,888 0,865 21,172 SMOTE Random Forest 0,964 0,769 0,900 0,830 18,849 ANOVA f_classif 0,936 0,617 0,895 0,731 25,498 Mutual info classif 0,946 0,662 0,891 0,759 18,718 ADASYN Ausente 0,966 0,789 0,883 0,834 30,699 Random Forest 0,953 0,699 0,900 0,787 17,135 ANOVA f_classif 0,898 0,486 0,908 0,633 18,582 Mutual info classif 0,916 0,537 0,903 0,673 17,107 NEARMISS Ausente 0,491 0,154 0,951 0,265 1,836 Random Forest 0,526 0,163 0,946 0,278 1,625 ANOVA f_classif 0,573 0,178 0,951 0,301 1,602 Mutual info classif 0,561 0,174 0,949 0,294 1,630 IQR Ausente Ausente 0,990 1,000 0,037 0,071 6,701 Random Forest 0,989 0,000 0,000 0,000 2,837 ANOVA f_classif 0,989 0,000 0,000 0,000 1,196 Mutual info classif 0,989 0,000 0,000 0,000 2,770 SMOTE Ausente 0,968 0,065 0,148 0,090 12,769 Random Forest 0,920 0,016 0,111 0,028 11,350 ANOVA f_classif 0,855 0,017 0,222 0,031 10,472 Mutual info classif 0,873 0,019 0,222 0,036 10,539 ADASYN Ausente 0,971 0,057 0,111 0,075 12,242 Random Forest 0,919 0,011 0,074 0,019 11,893 ANOVA f_classif 0,869 0,022 0,259 0,040 10,775 Mutual info classif 0,845 0,016 0,222 0,029 10,245 Ausente 0,569 0,018 0,741 0,035 0,176 51 Random Under Sampler Random Forest 0,533 0,017 0,741 0,033 0,134 ANOVA f_classif 0,461 0,014 0,704 0,027 0,135 Mutual info classif 0,508 0,017 0,778 0,032 0,129 NEARMISS Ausente 0,191 0,012 0,889 0,023 0,173 Random Forest 0,187 0,010 0,778 0,020 0,125 ANOVA f_classif 0,175 0,010 0,778 0,020 0,126 Mutual info classif 0,228 0,011 0,778 0,021 0,126 Z-Score SMOTE Ausente 0,968 0,731 0,794 0,761 20,505 Random Forest 0,951 0,581 0,876 0,699 17,167 ANOVA f_classif 0,920 0,437 0,867 0,581 17,449 Mutual info classif 0,941 0,523 0,880 0,656 16,850 ADASYN Ausente 0,966 0,691 0,837 0,757 18,670 Random Forest 0,922 0,444 0,876 0,590 15,821 ANOVA f_classif 0,912 0,408 0,824 0,545 15,843 Mutual info classif 0,889 0,353 0,880 0,504 15,793 NEARMISS Ausente 0,417 0,094 0,931 0,170 1,259 Random Forest 0,446 0,098 0,927 0,177 1,039 ANOVA f_classif 0,448 0,099 0,940 0,180 1,091 Mutual info classif 0,476 0,103 0,927 0,185 1,080 Isolation Forest SMOTE Ausente 0,964 0,816 0,825 0,820 17,750 Random Forest 0,962 0,783 0,859 0,819 16,253 ANOVA f_classif 0,939 0,648 0,840 0,732 17,400 Mutual info classif 0,943 0,674 0,832 0,745 16,522 ADASYN Ausente 0,950 0,708 0,846 0,771 19,428 Random Forest 0,932 0,612 0,866 0,717 16,928 ANOVA f_classif 0,870 0,425 0,864 0,570 15,715 Mutual info classif 0,904 0,509 0,864 0,641 16,662 NEARMISS Ausente 0,512 0,162 0,932 0,275 1,701 Random Forest 0,587 0,183 0,908 0,305 1,694 ANOVA f_classif 0,593 0,184 0,903 0,306 1,654 Mutual info classif 0,607 0,191 0,908 0,315 1,754 Fonte: Elaboração do próprio autor. 52 6 CONCLUSÃO Neste trabalho, foi realizada uma análise comparativa de métodos de pré-processa- mento, incluindo a remoção de outliers, balanceamento de classes e a seleção das features mais representativas, aplicados ao problema de detecção de perdas não técnicas (PNTs) por meio de uma rede neural artificial (RNA) do tipo perceptron multicamadas (PMC). O objetivo foi clas- sificar as unidades consumidoras (UCs) como regulares ou irregulares em uma base de dados de uma cidade do interior de São Paulo com aproximadamente 200 mil habitantes. O desempenho da RNA PMC foi avaliado com diferentes datasets, criados a partir de combinações dos métodos de pré-processamento aplicados em etapas específicas. A eficácia dos modelos foi medida principalmente pelo F1-Score, métrica relevante para o problema de detecção de PNTs, além do tempo de treinamento da PMC para cada dataset. Para garantir uma avaliação justa, foi utilizado o mesmo dataset de teste para todos os modelos gerados. A criação do conjunto de dados inicial incluiu uma redução no número de amostras, mantendo a proporção de furtos por setor censitário próxima ao valor original. A etapa de engenharia de atributos gerou 16 features estatísticas, extraídas com base no consumo men- sal em kWh dos consumidores ao longo de três anos. Visando simplificar o treinamento da PMC, optou-se por não realizar o ajuste de hiperparâmetros para cada dataset. Embora essa decisão tenha facilitado a implementação e tornado a avaliação dos resultados mais igualitária, também limitou a possibilidade de alcançar melhores resultados. Na etapa de teste, tanto o modelo ausente de métodos de pré-processamento quanto algumas combinações desses métodos apresentaram F1-Score satisfatórios. Observou-se que a aplicação dos métodos de pré-processamento influenciou, nesse problema, principalmente na redução do tempo de treinamento, com pouca variação na capacidade de detecção das UCs regulares e irregulares. Ressalta-se que, em datasets maiores, a vantagem na redução do tempo de treinamento torna-se mais expressiva. Adicionalmente, essas técnicas podem também me- lhorar a precisão do modelo. O desempenho satisfatório alcançado por um subconjunto de modelos treinados evidencia a importância de utilizar múltiplas combinações de métodos de pré-processamento. Essa abordagem permite avaliar o custo-benefício de cada modelo e identificar aqueles que melhor se adequem à etapa de produção, onde o modelo será disponibilizado para a detecção de UCs irregulares e influenciará diretamente no processo de inspeção. 53 Por fim, a aplicação de aprendizado de máquina e ciência de dados, com o uso de métodos de pré-processamento para a detecção de PNTs, não elimina a necessidade de investi- mentos no desenvolvimento humano na área. Embora essas técnicas busquem automatizar a captura de padrões nos dados, a criatividade e a curiosidade dos profissionais são fundamentais para interpretar resultados, ajustar abordagens e explorar novos caminhos para a melhoria con- tínua, mantendo a ciência de dados como uma área sempre em evolução. 6.1 TRABALHOS FUTUROS ❖ Aplicação em outros algoritmos de classificação: Avaliar o desempenho do repositório de datasets desenvolvido quando aplicado a outros algoritmos de aprendizado de máquina, como árvores de decisão, ensemble methods (e.g., Random Forest e Gradient Boosting) e métodos baseados em deep learning (e.g., redes convolucionais e transformadores). Essa análise pode ampliar as comparações e identificar alternativas promissoras para a detecção de PNTs; ❖ Análise em datasets maiores: Aplicar as técnicas propostas em datasets mais amplos, que abranjam diferentes regiões e características de consumo, para avaliar a capacidade de generalização dos modelos em cenários variados; ❖ Combinação de técnicas de pré-processamento: Explorar o uso combinado de métodos de pré-processamento, como a remoção de outliers combinando os métodos disponível, tornando as etapas mais robustas e eficazes; ❖ Exploração de novas técnicas de pré-processamento: Pesquisar e avaliar novas abordagens para o pré-processamento de dados, ampliando as possibilidades de transformação e aprimoramento dos dados para a classificação. ❖ Aprimoramento das características extraídas: Investigar métodos avançados de engenharia de atributos, buscando extrair características mais representativas dos dados originais e reduzir a influência de ruídos. Exemplos incluem a aplicação de coeficientes de wavelets, transformada de Fourier e análise de séries temporais para enriquecer a representação dos dados; ❖ Otimização de hiperparâmetros: Implementar técnicas de otimização de hiperparâmetros, como busca em grade (grid search), busca randômica (randomized search) ou algoritmos evolucionários, para ajustar os modelos de classificação e alcançar melhores resultados de desempenho. 54 REFERÊNCIAS ALABRAH, A. An Improved CCF detector to handle the problem of class imbalance with outlier normalization using IQR method. Sensors, v. 23, n. 9, p. 1–14, 30 abr. 2023. ANEEL. PRORET 2.6: Perdas de energia. Disponível em: . Acesso em: 19 nov. 2024. ANEEL. ANEXO 1 AIR: Variáveis de faturamento das componentes tarifárias. Disponível em: . Acesso em: 21 set. 2024a. ANEEL. PRO