Pós-Graduação em Engenharia Elétrica LUCAS TELES DE FARIA ESTIMAÇÃO ESPAÇO-TEMPORAL DAS PERDAS NÃO TÉCNICAS NO SISTEMA DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA Ilha Solteira 2016 PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA LUCAS TELES DE FARIA ESTIMAÇÃO ESPAÇO-TEMPORAL DAS PERDAS NÃO TÉCNICAS NO SISTEMA DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA Tese apresentada à Faculdade de Engenharia – UNESP – Câmpus de Ilha Solteira, para obtenção do título de Doutor em Engenharia Elétrica. Área de Conhecimento: Automação. Orientador: Dr. Antonio Padilha Feltrin Ilha Solteira 2016 Dedico este trabalho a Deus, aos meus pais, José Maria (In memori- am) e Cinelândia, aos meus irmãos Luciana e Leandro e a minha que- rida namorada Andréia. AGRADECIMENTOS A Deus pela oportunidade de trabalhar em uma instituição pública de excelência. A minha família por estar sempre ao meu lado nesta etapa desafiadora da minha vida. A minha namorada Andréia pela paciência e compreensão devido ao tempo despendido para produção desta tese. Obrigado por tornar meus dias mais felizes! Ao professor Antonio Padilha Feltrin, por ter aceitado orientar-me no mestrado e no doutora- do, pela paciência e dedicação a este trabalho. Aos parceiros de pesquisa Joel David Trujillo Melo e Tiago Torres. Aos amigos e colegas do Laboratório de Planejamento de Sistemas de Energia Elétrica (LaP- SEE) pelo companheirismo. Em especial aos amigos e colegas: Marlon Borges, Renzo Var- gas, Mahdi Pourakbari, Juan Camilo, Fernando Cerna (“amiguinho”), Leonardo Henrique, Maria Nataly, Ozy Daniel, Roberto Pessoa (“café”), Ruben Ernesto, Silvia Mara, Carlos Sabi- llon, Darwin Alexis, Diogo Rupolo, Jeferson Back (“alemão”), Jônatas Leite, Katiani Pereira, Marcel Chuma (“braddock”), Patricia Fernanda (“paty girl”), Raiani Piacente, Thays Abreu, Cibele Trinca (“migucha”), Stefani Carolline, Eliane de Souza, Victor Garcia, Alejandra Ta- bares, Marcelo Semensato, Luciano de Souza (“carçu”), Esau Figueroa, Joel Villavicencio (“joelzinho”), Nelson Taquire (“el dragón”), Augusto Medina, John Fredy e tantos outros. As minhas companheiras de “república” Adriana Vieira (“Adrianinha”) e Fabiana Oliveira (“Fabi”). A UNESP, ao Departamento de Engenharia Elétrica da FEIS pela excelente estrutura ofereci- da para o pleno desenvolvimento deste trabalho. A CAPES pelo indispensável aporte financeiro. “Uma probabilidade razoável é a única certeza”. Samuel Gridley Howe. RESUMO Neste trabalho o espaço geográfico é incorporado ao estudo das perdas não técnicas. Os traba- lhos avaliados em perdas comumente não consideram a localização espacial das mesmas de forma explícita. No entanto, o estudo das características do lugar onde elas ocorrem pode tra- zer informações imprescindíveis para melhor compreensão do problema. O espaço é incorpo- rado via técnicas de análise espacial de dados geográficos. A saber: análise espacial de pa- drões de pontos e análise espacial de dados agregados por áreas. A localização das perdas é obtida através de dados de inspeções reais georreferenciados obtidos a partir de uma conces- sionária de energia elétrica. Os atributos socioeconômicos do censo demográfico e da rede de distribuição de energia do lugar onde ocorrem as perdas são considerados via técnicas de re- gressões espaciais. São elas: modelo aditivo generalizado (GAM) e regressão geograficamen- te ponderada (GWR). Esses atributos são as variáveis independentes das regressões espaciais e auxiliam na explicação da disposição das perdas no espaço geográfico do município em estudo. Essas regressões são combinadas com as cadeias de Markov para produção de mapas de probabilidades de perdas. Esses mapas indicam as subáreas do município que são mais vulneráveis às perdas em termos probabilísticos. Por meio deles, estima-se a evolução das perdas não técnicas no espaço geográfico do município ao longo do tempo. Os mapas de pro- babilidade de perdas são uma ferramenta gráfica, de fácil interpretação e que auxiliam no pla- nejamento de uma série de ações de prevenção e combate às perdas. Este estudo foi realizado em um município de porte médio do interior paulista com aproximadamente 81 mil unidades consumidoras, sendo que os resultados das simulações foram comparados com dados reais de inspeções em campo. A taxa de acerto para estimação das áreas vulneráveis às perdas via mo- delo aditivo generalizado (GAM) e cadeias e Markov foi superior a 80%. Palavras-chave – Perdas não técnicas. Perdas comerciais. Análise espacial de dados geográ- ficos. Regressões Espaciais. Sistema de distribuição de energia elétrica. ABSTRACT In this work the geographic space is incorporated into the study of non-technical losses. Stud- ies on non-technical losses do not often consider the spatial location of them explicitly. How- ever, the study of the characteristics of the place where they occur can provide essential in- formation to better understanding of the problem. The space is incorporated via spatial analy- sis techniques of geographical data; to know: spatial analysis of point patterns and spatial analysis of data aggregated by areas. The location of the losses is determined via georefer- enced inspections data obtained from an electrical power utility. Socioeconomic attributes of the census and the distribution network of energy of the place where the losses occur are con- sidered using the spatial regressions techniques; namely: generalized additive model (GAM) and geographically weighted regression (GWR). These attributes are the independent varia- bles of spatial regressions and assist in the provision of the explanation of the losses in the geographical space of the city under study. These regressions are combined with Markov chains to produce the loss probability maps. These maps show the city subareas that are more vulnerable to losses in probabilistic terms. Through them, the evolution of non-technical loss- es in the geographical area of the city over the time is estimated. The loss probability maps are a graphical tool, easy to interpret and to assist in planning a series of actions to prevent and combat to losses. This study was conducted in a medium-sized city of São Paulo with about 81,000 consumer units, and the simulation results were compared with real data ob- tained in field inspections. The hit rate for the estimation of areas vulnerable to losses via generalized additive model (GAM) and Markov chains surpasses 80%. Keywords – Non-technical losses. Commercial losses. Spatial analysis of geographical data. Spatial regression models. Electric power distribution system. LISTA DE FIGURAS Figura 1 – Distribuição das PNTs por classes consumidoras. _________________________________________ 24 Figura 2 – Mapa da cidade de Londres com óbitos por cólera e poços de água representados por pontos e cruzes, respectivamente. _____________________________________________________________________ 45 Figura 3 – Estimador de intensidade de distribuição de pontos. ______________________________________ 55 Figura 4 – Fluxograma do modelo para geração do mapa de probabilidade de perdas. ___________________ 62 Figura 5 – Matriz de ponderação espacial de primeira ordem normalizada. ____________________________ 66 Figura 6 – Fluxo de produção de conhecimento em análise espacial. __________________________________ 75 Figura 7 – Mapa neural bidimensional de Kohonen topologia hexagonal 6 × 6 – 36 neurônios. ____________ 80 Figura 8 – Classificação dos modelos para representar a dinâmica de fenômenos espaciais. _______________ 86 Figura 9 – Mapa da zona sul de uma cidade qualquer com destaque para uma de suas subáreas (em vermelho) que contém três pontos da base de dados casos-controles e quatorze subáreas vizinhas (em verde). ________ 89 Figura 10 – Matriz de transição dos estados de perdas por subáreas do município. ______________________ 90 Figura 11 – Histogramas das frequências relativas das variáveis socioeconômicas, técnicas e derivadas, por subáreas (a) Inspeções; (b) Densidade de Carga (kVA/km²); (c) UCs Irregulares; (d) Renda Média (em R$); (e) Taxa de Sucesso percentual e (f) %UCs Alugadas. ________________________________________________ 105 Figura 12 – Histogramas de frequências relativas das variáveis socioeconômicas, técnicas e derivadas por subáreas. (a) %Alfabetizados; (b) %UCs com Água Tratada; (c) Média de Moradores; (d) %UCs com Coleta de Lixo; (e) %UCs com Medidor Comum e (f) %UCs com pavimentação. _________________________________ 106 Figura 13 – Mapas temáticos com a distribuição espacial das variáveis por subáreas de 2009 a 2012. (a) Inspeções realizadas; (b) UCs Irregulares e (c) Taxa de Sucesso percentual das inspeções. ________________ 107 Figura 14 – Mapas temáticos com a distribuição espacial por subárea da (a) Densidade de Carga em kVA/km 2 ; (b) Renda Média em reais e (c) %UCs Alugadas. _________________________________________________ 108 Figura 15 – Mapas temáticos com a distribuição espacial por subáreas. (a) %Alfabetizadas; (b) Média de Moradores e (c) %UCs com Medidor Comum. ___________________________________________________ 109 Figura 16 – Mapas temáticos com a distribuição espacial por subáreas. (a) %UCs com Água Tratada; (b) %UCs com Coleta de Lixo e (c) %UCs com Pavimentação Asfáltica. _______________________________________ 110 Figura 17 – Mapas temáticos referentes à Taxa de Sucesso anualmente por subárea. (a), (b), (c), (d) Mapas referentes aos anos de 2009, 2010, 2011 e 2012, respectivamente. __________________________________ 115 Figura 18 – Mapas temáticos referentes ao número total de Inspeções anualmente por subáreas. (a), (b), (c), (d) Mapas de UCs inspecionadas em 2009, 2010, 2011 e 2012, respectivamente. _________________________ 116 Figura 19 – Mapas temáticos referentes ao número total de UCs Irregulares anualmente por subáreas. (a), (b), (c), (d) Mapas de UCs irregulares em 2009, 2010, 2011 e 2012, respectivamente. ______________________ 117 Figura 20 – Função 𝐺(𝑟) ou função de distribuição cumulativa de UCs com PNTs. ______________________ 119 Figura 21 (a), (b), (c) e (d) – Mapas de densidade espacial ponderada e normalizada de UCs irregulares em 2009, 2010, 2011 e 2012, respectivamente. As cruzes representam as localizações das inspeções realizadas. 120 Figura 22 – Distribuição espacial dos eventos Casos-Controles na região urbana do município sob análise. __ 123 Figura 23 – Mapa de probabilidades para a distribuição espacial das perdas não técncias. _______________ 125 Figura 24 – (a), (b) Estados de perdas atuais (via GAM) e estados de perdas previstos (via cadeias de Markov), respectivamente, por subárea. (c) Validação da metodologia via comparação entre o estado de perda previsto em (b) e o número de PNTs, por subárea, em 2012. _______________________________________________ 128 Figura 25 – Subáreas vizinhas ou semelhantes após execução do SOM. ______________________________ 132 Figura 26 – Correlação GW entre a variável dependente Taxa de Sucesso de Perdas e as variáveis explicativas Densidade de Carga (a); Renda Média (b) e %UCs Alugadas (c). Em (d) a correlação GW entre as variáveis explicativas Densidade de Carga e Renda Média. ________________________________________________ 133 Figura 27 – Coeficientes GWR para a variável independentes Densidade de Carga por subáreas. __________ 136 Figura 28 – Coeficientes GWR para a variável independente Renda Média por subáreas. ________________ 136 Figura 29 – Coeficientes GWR para a variável independente %UCs Alugadas por subáreas. ______________ 137 Figura 30 – Mapas de probabilidade de perdas no futuro via GWR e via cadeias de Markov. (a), (b) Distribuição espacial e histograma de frequência relativa; ambos, com respeito às UCs flagradas em irregularidades em 2012, respectivamente. (c), (d) Distribuição espacial e histograma de frequência relativa; ambos, com respeito às UCs irregulares estimadas ou previstas em 2012, respectivamente. (e), (f) Distribuição espacial e histograma de frequência relativa; ambos, com respeito ao erro absoluto entre as UCs irregulares reais e as UCs irregulares estimadas em 2012, respectivamente. _________________________________________________________ 138 Figura 31 – Mapeamento das amostras de entrada do espaço n-dimensional para o espaço bidimensional da grade neural – ℝ𝑛 ⇒ ℝ2. ___________________________________________________________________ 154 Figura 32 – Disposição geométrica dos vetores de pesos dos neurônios do SOM no espaço bidimensional após treinamento da rede neural. _________________________________________________________________ 155 Figura 33 – Mapa de contexto 4 × 4 para uma topologia bidimensional após treinamento do SOM. _______ 157 LISTA DE TABELAS Tabela 1 – Principais irregularidades em UCs pertencentes à base de clientes da distribuidora de energia. ___ 31 Tabela 2 – Síntese das causas mais recorrentes e medidas de prevenção e combate às PNTs no SDEE. _______ 33 Tabela 3 – Resumo da eficiência das principais estratégias para localização de UCs com PNTs. ____________ 36 Tabela 4 – Exemplos de perguntas que podem dar início ao procedimentos de análise espacial em GIS e categorias da análise espacial nas quais as mesmas estão associadas. ________________________________ 44 Tabela 5 – Tipos de representações geométricas em análise espacial. _________________________________ 47 Tabela 6 – Intervalos do coeficiente de correlação e magnitude da correlação. _________________________ 69 Tabela 7 – Requisitos para modelar a dinâmica ou a variação espaço-temporal de eventos espaciais. _______ 84 Tabela 8 – Classificação das principais estruturas temporais para modelagem dinâmica. _________________ 86 Tabela 9 – Distribuição das inspeções e irregularidades em UCs das principais classes consumidoras. ______ 100 Tabela 10 – Diagnóstico da concessionária de energia com respeito às inspeções realizadas ao longo de quatro anos. ____________________________________________________________________________________ 101 Tabela 11 – Descrições das variáveis analisadas por subáreas. _____________________________________ 101 Tabela 12 – Perfil socioeconômico do município sob análise e comparativo com o Estado de São Paulo (SP). 103 Tabela 13 – Valores das medidas de tendência central e de dispersão para as variáveis da Tabela 11 por subáreas: Média 𝑋; Moda (Mo); Mediana (Md); Desvio Padrão 𝜎; Coeficiente de Variação (CV); Coeficiente de Assimetria (S) e Curtose (kt). _________________________________________________________________ 111 Tabela 14 – Matriz simétrica de coeficientes globais de correlação de Spearman (𝑟𝑠) entre pares de variáveis. ________________________________________________________________________________________ 112 Tabela 15 – Estimativas, desvios padrão e significâncias estatísticas das variáveis independentes do GAM. _ 124 Tabela 16 – Estimativas, desvios padrão e significâncias estatísticas da variáveis do GAM. _______________ 129 Tabela 17 – Parâmetros para treinamento do mapa auto-organizável de Kohonem – SOM. ______________ 132 Tabela 18 – Estimativas, desvios padrão e significâncias estatísticas dos coeficientes das variáveis explicativas da regressão linear global. __________________________________________________________________ 134 Tabela 19 – Resumo dos coeficientes estimados das variáveis independentes do GWR. __________________ 135 Tabela 20 – Comparativo entre os modelos de regressões espaciais GAM e GWR. ______________________ 140 Tabela 21 – Algumas das funções R ® utilizadas neste estudo. _______________________________________ 141 LISTA DE SIGLAS ANEEL Agência Nacional de Energia Elétrica CAR Conditional Autoregressive Models CSR Complete Spatial Randomness GAM Generalized Additive Models GIS Geographic Information System GW Geographically Weighted GWMs Geographically Weighted Models GWR Geographically Weighted Regression HPP Homogeneous Poisson Process IPP Inhomogeneous Poisson Processes MGPs Modelos Geograficamente Ponderados NTL Non-Technical Losses PNTs Perdas Não Técnicas PTs Perdas Técnicas RGP Regressão Geograficamente Ponderada SAR Simultaneous Autoregressive Models SDEE Sistema de Distribuição de Energia Elétrica SIG Sistema de Informação Geográfica SOM Self Organization Maps UCs Unidades Consumidoras LISTA DE SÍMBOLOS Γ Autocorrelação espacial. 𝑤𝑖𝑗 Elementos da matriz de ponderação espacial entre as subáreas i e j. 𝑧𝑖 Variáveis espaciais aleatórias referentes à subárea i. 𝜉𝑖𝑗 Medida de correção entre as variáveis que representam as subáreas i e j. 𝑑𝑖𝑗 Distância Euclidiana entre os pontos i e j. n Número de pontos ou número de subáreas (ou setores censitários). 𝑆𝑖 Subárea i. Z Processo estocástico. A Área genérica do espaço geográfico ou conjunto de subáreas S. s Coordenadas geográficas (x,y). i, j Eventos arbitrários localizados no plano bidimensional do espaço geográfico. r Distância a partir de um ponto arbitrário. 𝐸{. } Operador esperança. C Covariância espacial. 𝜆 Intensidade do processo de pontos. h Distância Euclidiana entre dois pontos. b Largura de banda ou bandwidth. 𝜅(. ) Função de kernel. G(.) Função de distribuição cumulativa K(.) Função K de Ripley. 𝑛1 Número de eventos no conjunto de casos no estudo de casos-controles. 𝑛0 Número de eventos no conjunto de controles no estudo de casos-controles. 𝜆1 Intensidade dos casos no estudo de casos-controles. 𝜆0 Intensidade dos controles no estudo de casos-controles. 𝜌(𝑠) Risco relativo em s. �̂� Teste estatístico global do risco. x Variáveis explicativas ou independentes das regressões espaciais. y Variável dependente da regressão espacial. 𝛽 Coeficientes das variáveis independentes x em uma regressão espacial. 𝑃(𝑠, 𝑥) Probabilidade em função das coordenadas s e das variáveis explicativas x. 𝑔(𝑠) Função de suavização ou spline das coordenadas espaciais s. W Matriz de ponderação espacial, matriz de vizinhança ou matriz de proximidade espacial. 𝑟𝑠 Coeficiente de correlação de Spearman. 𝜖 Erros aleatórios com distribuição normal, média nula e variância constante. 𝜌 Coeficiente espacial autorregressivo utilizado na regressão SAR. 𝒙𝒌 Vetor das k amostras de entrada para treinamento do SOM. 𝜇(𝑧𝑖) Média GW na subárea i cujo atributo é 𝑧𝑖. 𝑠(𝑧𝑖) Desvio padrão GW na subárea i cujo atributo é 𝑧𝑖. 𝜌(𝑧𝑖, 𝑦𝑖) Coeficiente de correlação de Pearson GW na subárea i entre os atributos 𝑧𝑖 e 𝑦𝑖. 𝑐(𝑧𝑖, 𝑦𝑖) Covariância GW na subárea i entre os atributos 𝑧𝑖 e 𝑦𝑖. Π(𝑡) Estado de transição discreto no tempo t. P Matriz de transição de processos de Markov. �̅� Média aritmética simples – estatística descritiva. Mo Moda – estatística descritiva. Md Mediana – estatística descritiva. 𝜎 Desvio padrão – estatística descritiva. CV Coeficiente de variação – estatística descritiva. S Coeficiente de assimetria– estatística descritiva kt Curtose – estatística descritiva. SUMÁRIO 1 ESCOPO DO TRABALHO 20 1.1 CONTEXTO E JUSTIFICATIVA _____________________________________________ 20 1.1.1 Objetivos 23 1.1.2 Definição do Problema 23 1.1.3 Hipótese da Pesquisa 25 1.1.4 Contribuição Científica Pretendida 26 1.2 ESTRUTURA DA TESE ____________________________________________________ 27 2 PERDAS NÃO TÉCNICAS EM SISTEMAS DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA 28 2.1 INTRODUÇÃO ÀS PERDAS NÃO TÉCNICAS _________________________________ 28 2.1.1 Perdas Técnicas 30 2.2 MEDIDAS DE COMBATE E PREVENÇÃO ÀS PERDAS NÃO TÉCNICAS __________ 31 2.2.1 Varredura 34 2.2.2 Denúncias 34 2.2.3 Análise dos Dados dos Consumidores 34 2.2.4 Programas computacionais dedicados 35 2.3 REVISÃO BIBLIOGRÁFICA ________________________________________________ 36 2.4 CONSIDERAÇÕES FINAIS _________________________________________________ 41 3 ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS 42 3.1 INTRODUÇÃO À ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS ______________ 43 3.1.1 Tipos de Dados em Análise Espacial 46 3.1.2 Representação Computacional de Dados Geográficos 46 3.2 CONCEITOS BÁSICOS EM ANÁLISE ESPACIAL ______________________________ 47 3.2.1 Dependência Espacial 47 3.2.2 Inferência Estatística em Dados Espaciais 48 3.2.3 Estacionaridade e Isotropia 49 3.2.4 Modelos inferenciais 50 3.3 ANÁLISE ESPACIAL DE PADRÕES DE PONTOS ______________________________ 50 3.3.1 Análise Exploratória de Padrões de Pontos: Caracterização de Distribuições de Pontos 51 3.3.1.1 Aleatoriedade Espacial Completa 52 3.3.2 Análise Estatística de um Processo Espacial de Pontos 53 3.3.2.1 Processos de Poisson 53 3.3.2.2 Estimação da Intensidade: Kernel Não Paramétrico 54 3.3.3 Propriedades de Segunda Ordem 56 3.3.3.1 Função G: Distância para o Evento (ou Vizinho) mais Próximo 57 3.3.3.2 Função K 57 3.3.4 Processo Pontual Marcado: Estudo Casos-Controles 58 3.3.4.1 Estudo de Casos-Controles 58 3.3.4.2 Variação Espacial do Risco Relativo 59 3.3.4.3 Estimador de Regressão Binária 59 3.3.4.4 Teste Global do Risco 59 3.3.4.5 Regressão Binária via Modelo Aditivo Generalizado 61 3.3.4.6 Mapa de Probabilidade de Perdas 61 3.4 ANÁLISE ESPACIAL DE DADOS AGREGADOS POR ÁREAS ___________________ 63 3.4.1 Distribuição dos Dados em Áreas 65 3.4.2 O Problema da Unidade de Área Modificável e o Problema de Escala 65 3.4.3 Matriz de Ponderação, de Vizinhança ou Matriz de Proximidade Espacial 66 3.4.4 Análise Exploratória 67 3.4.4.1 Coeficiente de Correlação de Spearman 𝑟𝑠 68 3.4.4.2 Técnicas de Corte da Variável para Classificação e Construção de Legendas em Mapas Temáticos 69 3.4.5 Modelos de Regressão 70 3.4.5.1 Modelos de Regressões Espaciais Globais 72 3.4.5.2 Modelos de Regressões Espaciais Locais 73 3.5 CONSIDERAÇÕES FINAIS _________________________________________________ 74 4 MODELOS GEOGRAFICAMENTE PONDERADOS E MODELAGEM DINÂMICA 76 4.1 INTRODUÇÃO AOS MODELOS GEOGRAFICAMENTE PONDERADOS ___________ 76 4.1.1 Definição da Matriz de Ponderação Convencional 77 4.1.2 Redefinição da Matriz de Ponderação para o problema das PNTs: a Vizinhança Semântica 78 4.1.3 Análise Exploratória: Resumo Estatístico Geograficamente Ponderado 81 4.1.4 Regressão Geograficamente Ponderada 82 4.2 INTRODUÇÃO À MODELAGEM DINÂMICA _________________________________ 83 4.3 COMPONENTES PARA MODELAR A DINÂMICA DE FENÔMENOS ESPACIAIS ___ 84 4.3.1 Representação do Espaço 85 4.3.2 Representação do Tempo 85 4.3.3 Modelos de representação 86 4.4 MODELOS EMPÍRICOS ____________________________________________________ 87 4.4.1 Cadeias de Markov de Tempo Discreto 87 4.4.2 Metodologia para Estimação Espaço-Temporal das Perdas Não Técnicas via GAM e Markov 88 4.4.2.1 Vulnerabilidade às Perdas Não Técnicas no Presente 88 4.4.2.2 Vulnerabilidade às Perdas Não Técnicas no Futuro 90 4.4.2.3 Matriz de Transição 90 4.4.2.4 Determinação do Estado de Perda Futuro 91 4.4.3 Modelos de Regressão 92 4.4.4 Modelos Logísticos de Difusão 93 4.5 MODELOS DE SISTEMAS __________________________________________________ 94 4.5.1 Modelos de Simulação de Ecossistemas 94 4.5.2 Modelos de Simulação da Dinâmica Espacial 95 4.5.2.1 Autômatos Celulares 95 4.5.2.2 Sistemas Multiagentes 95 4.6 CONSIDERAÇÕES FINAIS _________________________________________________ 96 5 ESTIMAÇÃO ESPAÇO-TEMPORAL DAS PERDAS NÃO TÉCNICAS 98 5.1 CONSIDERAÇÕES INICIAIS ________________________________________________ 98 5.2 DADOS DE ENTRADA _____________________________________________________ 99 5.3 O PERFIL MUNICIPAL ____________________________________________________ 102 5.4 ANÁLISE EXPLORATÓRIA _______________________________________________ 104 5.4.1 Mapeamento Anual das Inspeções, Irregularidades e Taxa de Sucesso de Perdas 114 5.4.2 Propriedades da Informação Espacial 117 5.4.3 Função de Distribuição Cumulativa 118 5.4.4 Mapas de Densidade Anual de Perdas Não Técnicas 119 5.5 ESTUDO DE CASO 1: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DAS PERDAS NÃO TÉCNICAS via GAM _________________________________________________ 121 5.5.1 Estudo de Casos-Controles 122 5.5.2 Modelo Aditivo Generalizado (GAM) para Análise Espacial das PNTs 122 5.5.3 Mapa de Probabilidades de Perdas Não Técnicas 123 5.6 ESTUDO DE CASO 2: ESTIMAÇÃO ESPAÇO-TEMPORAL DAS PERDAS NÃO TÉCNICAS VIA GAM E CADEIAS DE MARKOV _____________________________ 126 5.6.1 Estimação da Variação Espaço-Temporal das Perdas Não Técnicas em um Município do Interior Paulista 126 5.6.1.1 Descrição das Variáveis utilizadas no Modelo Aditivo Generalizado 126 5.6.1.2 Validação da Metodologia 127 5.6.1.3 Variáveis com Significância Estatística 127 5.7 ESTUDO DE CASO 3: ESTIMAÇÃO ESPAÇO-TEMPORAL DAS PERDAS NÃO TÉCNICAS VIA GWR E CADEIAS DE MARKOV _____________________________ 130 5.7.1 Construção da Vizinhança Semântica 130 5.7.2 Resumo Estatístico Geograficamente Ponderado 131 5.7.3 Regressão Geograficamente Ponderada 134 5.8 CONSIDERAÇÕES FINAIS ________________________________________________ 139 6 CONCLUSÕES 142 6.1 PRINCIPAIS CONTRIBUIÇÕES DO TRABALHO ______________________________ 143 6.2 TRABALHOS FUTUROS __________________________________________________ 145 APÊNDICE A – MAPAS AUTO-ORGANIZÁVEIS DE KOHONEN 153 1 ESCOPO DO TRABALHO Este capítulo de apresentação visa fornecer uma introdução abrangente à proposta deste trabalho que consiste na incorporação inédita do espaço geográfico ao estudo do pro- blema das perdas não técnicas (PNTs) ou non-technical losses (NTLs); também denominadas perdas comerciais no sistema de distribuição de energia elétrica (SDEE). Ao final deste capí- tulo, é apresentada a estrutura do presente trabalho. 1.1 CONTEXTO E JUSTIFICATIVA As PNTs estão presentes na maioria dos SDEE e representam valores elevados para muitas distribuidoras brasileiras. A disseminação das redes inteligentes ou smart grids e dos medidores inteligentes contribuirão para uma redução significativa desses valores por eliminação de alguns tipos de perdas. No entanto, tais avanços tecnológicos deverão ser mais lentos e paulatinos nos países em desenvolvimento, justamente naqueles que possuem as mai- ores perdas. Portanto, a busca por técnicas mais eficientes para avaliação das PNTs faz-se necessária. O desvio de energia elétrica ou fraude é um problema internacional que prejudica a sociedade e acarreta aumento na tarifa de energia e injustiça social. As ligações irregulares na rede de distribuição de energia representam grande risco para a segurança pública, uma vez que modificam as características da rede de distribuição e podem causar sérios acidentes. Em Dantas (2006) apresenta-se um resumo dos principais danos à sociedade, oca- sionados pela existência das PNTs. A saber:  Insegurança: em geral, as ligações clandestinas são realizadas sem rigor técnico e sem um estudo prévio da rede elétrica local. As consequências são: acidentes gra- ves, redução do nível de tensão local e aumento das interrupções no fornecimento de energia para clientes regulares que compartilham a mesma rede.  Concorrência desleal: o furto de energia permite reduzir ilicitamente os custos de atividades comerciais ou industriais, gerando uma concorrência desleal em relação às empresas honestas. Tais empresas são, dessa forma, estimuladas a também ade- rir a essa prática fraudulenta por uma questão de sobrevivência no mercado.  Aumento tarifário: as empresas concessionárias de energia elétrica são concessões de serviço público e são regidas por uma política tarifária. Para determinar o per- centual de reajuste, a Agência Nacional de Energia Elétrica (ANEEL) considera a Capítulo 1 – Escopo do Trabalho 21 variação de custos das distribuidoras nos últimos doze meses. Na conta de consu- mo de energia elétrica de cada cliente, há uma parcela referente às PNTs que é medida em valores monetários e não em número de clientes irregulares. Nessa perspectiva, o consumidor regular irá pagar pela energia perdida por meio da ele- vação da tarifa, o que configura uma injustiça social.  Desperdício de energia: consumidores fraudadores não pagam a energia elétrica que consomem e, por isso, a tendência é de que eles não tenham hábitos de racio- nalização, o que ocasiona grande desperdício de energia. São comuns, nesses ca- sos, lâmpadas acesas durante todo o dia ou aparelhos de ar-condicionado ligados ininterruptamente.  Proliferação do furto de energia elétrica: a impunidade leva à proliferação de criminosos que oferecem uma forma ilícita de economia através da redução ou mesmo da anulação do valor da conta de energia elétrica.  Não arrecadação de impostos: a arrecadação de vários impostos é reduzida devi- do às fraudes e às ligações clandestinas. Tais recursos não arrecadados pelo Esta- do deixam de ser aplicados em benefício da sociedade.  Degradação ambiental: uma parcela considerável da energia elétrica consumida a nível mundial é gerada em usinas termoelétricas. Tais usinas utilizam combustí- veis fósseis cuja queima libera gases que ocasionam inúmeros impactos ambien- tais tais como: poluição do ar, chuva ácida, danos à camada de ozônio, aqueci- mento por intensificação do efeito estufa, etc. Logo, o aumento da eficiência ener- gética e redução das perdas elétricas contribuem para tornar o sistema de geração de energia mais eficiente e, consequente, redução dos impactos ambientais supra- citados. Ao contrário do estudo das perdas técnicas (PTs), apesar dos inúmeros prejuízos à sociedade supracitados, poucos trabalhos se dedicaram ao estudo das PNTs antes dos anos 2000. Acreditava-se que essas perdas eram ocasionadas majoritariamente devido à desorgani- zação dos processos internos da distribuidora de energia (erros de leituristas ou no cadastro de clientes, por exemplo) (COMETTI; VAREJÃO, 2005). A partir do início do século XXI, surgiram inúmeros estudos em PNTs. Citam-se Jiang (2002) e mais recentemente Rodrigues, Ramos e Papa (2015). Os estudos avaliados em perdas, em sua maioria, são focados na detecção das mesmas por meio de metodologias que empregam técnicas da área de sistemas inteligentes tais como: redes neurais, lógica fuzzy, algoritmos de aprendizado de máquina, etc. Capítulo 1 – Escopo do Trabalho 22 Neste trabalho, pretende-se complementar os trabalhos existentes em perdas. De posse dos dados de inspeções georreferenciados e dos dados cadastrais das unidades consu- midoras (UCs) de um município do interior paulista, desenvolve-se uma metodologia que permite a inclusão e o estudo das características socioeconômicas e da rede de distribuição de energia elétrica do lugar onde as perdas ocorrem. Parte-se do pressuposto de que as caracterís- ticas do lugar onde as perdas estão localizadas influem nas mesmas e, por isso, devem ser estudadas (SMITH, 2004). O resultado da metodologia será uma estimativa estatístico- probabilística da evolução das perdas no espaço geográfico de um município do interior pau- lista via mapas de probabilidades de perdas. Esses mapas são uma ferramenta gráfica, de fácil intepretação e que indicam as áreas do município com maior (e menor) vulnerabilidade às PNTs. Tais mapas podem ser utilizados como uma ferramenta para auxílio no planejamen- to de inúmeras ações de combate e prevenção às perdas como, por exemplo, a seleção otimi- zada das áreas que receberão mais (e menos) inspeções, a realização de campanhas educativas em locais específicos, etc. Dessa forma, os inúmeros prejuízos ocasionados pelas perdas, cita- dos em Dantas (2006), podem ser minorados via um combate mais eficaz às mesmas. Observa-se que a aplicação da metodologia proposta restringiu-se a um município do interior paulista devido à disponibilidade de dados para essa localidade. No entanto, ela pode ser estendida para outros municípios a partir dos dados de inspeções disponíveis e do estudo do perfil socioeconômico e da rede elétrica dos mesmos. Com relação à regulamentação, o atual regime de regulação para o setor de distri- buição de energia elétrica é o da regulação pelo preço-teto ou price-cap, que se caracteriza por ser uma regulação por incentivos. Nesse, o mecanismo que incentiva as empresas a busca- rem uma maior eficiência na gestão do seu negócio está na fixação, pelo regulador, de parâ- metros gerenciáveis durante um período de tempo (AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL, 2010). No caso das PNTs, o incentivo está na fixação do nível de per- das durante um período específico, e posterior avaliação dos resultados para assegurar que os ganhos de eficiência sejam repassados aos consumidores. A fixação do nível de perdas deve sinalizar por uma busca permanente de maior eficiência no combate às PNTs pelas empresas de distribuição de energia elétrica. A correta fixação deve considerar fatores não gerenciáveis, específicos de cada área de concessão, mui- tas vezes relacionados a questões socioeconômicas e, por outro lado, impedir que sejam re- passados às tarifas fatores relacionados à ineficiência das distribuidoras no combate às PNTs (ANEEL, 2011; ANEEL, 2013). Capítulo 1 – Escopo do Trabalho 23 1.1.1 Objetivos Os objetivos gerais deste trabalho consistem em incorporar o espaço geográfico ao estudo das PNTs e em estimar a evolução das mesmas ao longo do espaço geográfico de um município do interior paulista. Em termos específicos, pretendem-se localizar, espacialmente, as PNTs, explicar o porquê elas estão mais concentradas em determinadas subáreas do município e prever espa- cialmente, em termos probabilísticos, a localização das mesmas no futuro. Deseja-se respon- der a três questões fundamentais:  Onde estão as PNTs? Quais são as subáreas críticas do município onde se locali- zam um elevado número de UCs com PNTs ou de UCs irregulares?  Por que as PNTs ocorrem? As características socioeconômicas e da rede elétrica das subáreas onde ocorrem as PNTs contribuem ou explicam o aparecimento e o crescimento das mesmas?  Onde estarão as PNTs? Predizer quais regiões do município terão mais casos de perdas de maneira que ações de prevenção e combate as mesmas possam ser pla- nejadas com antecedência. Na Figura 1 apresenta-se a distribuição das PNTs por classes consumidoras. Essas perdas ocorrem tanto em clientes (UCs ativas) quanto em não clientes (UCs desligadas 1 e li- gações clandestinas) da concessionária de energia elétrica. Ocorrem perdas também na ilumi- nação pública devido, por exemplo, a sua expansão e a não atualização do cadastro da mesma. Entre os clientes do grupo B, existem as classes: residencial, comercial, industrial, rural, ser- viço público, poder público e consumo próprio da concessionária de energia elétrica. Neste trabalho, no estudo das PNTs, ênfase maior é dada às UCs ativas pertencentes às classes resi- dencial, comercial e industrial; classes nas quais ocorre a parcela majoritária das PNTs. 1.1.2 Definição do Problema As pesquisas avaliadas na área de PNTs comumente direcionam o estudo para a localização ou detecção pontual de UCs irregulares. Para tal finalidade, empregam inúmeras técnicas da área de sistemas inteligentes ou soft computing tais como: redes neurais, lógica fuzzy, algoritmos de aprendizado de máquina, mineração de dados e de texto, redes Bayesia- nas, etc. Os clientes suspeitos de fraudes são visitados pelas equipes de inspeção da concessi- onária de energia que procuram irregularidades em clientes da rede de distribuição. Essas téc- 1 O termo “UCs desligadas” refere-se àquelas UCs que foram desligadas da rede elétrica pela distribuidora de energia (por inadimplência, por exemplo) e que se autorreligam ilicitamente. Capítulo 1 – Escopo do Trabalho 24 nicas de sistemas inteligentes têm como dados de entrada a base de clientes da concessionária que incluem: dados cadastrais, dados de consumo mensal em kWh, histórico de inspeções, etc. Figura 1 – Distribuição das PNTs por classes consumidoras. Fonte: Elaboração do próprio autor. Os trabalhos avaliados em PNTs seguem a linha de pesquisa supracitada e, por isso, possuem algumas limitações que podem ser complementadas com este trabalho. Em primeiro lugar, em sua maioria, não consideram o lugar onde ocorrem as perdas. No entanto, em Smith (2004), relacionam-se as PNTs com as características socioeconômicas do lugar onde elas ocorrem. Portanto, as características das subáreas onde ocorrem as perdas podem auxiliar no entendimento do problema. Outra limitação refere-se à grande dificuldade em se detectar com precisão, pon- tualmente, quais são os clientes suspeitos. Isso é explicado em parte por deficiências da base de dados da concessionária. Há casos em que os dados cadastrais, por exemplo, encontram-se desatualizados e/ou incompletos. Ademais, os dados de consumo mensal em kWh são influ- enciados por inúmeros fatores de natureza estocástica (climáticos, sazonais, etc.) gerando, em muitos casos, falso-positivos. Essa situação ocorre quando clientes regulares possuem perfis de consumo de energia análogos a clientes fraudadores e, por isso, são rotulados erroneamente como tal por metodologias orientadas à detecção. Falso-positivos implicam em perda finan- Capítulo 1 – Escopo do Trabalho 25 ceira para a concessionária quando investem em equipes de inspeções que perdem tempo ao visitarem UCs regulares. Para o estudo das PNTs, é preciso extrair informações úteis a partir de uma grande base de dados. No entanto, essa é uma tarefa árdua que requer muito processamento computa- cional; frequentemente, os dados estão repetidos, incompletos ou inconsistentes. Como não há uma única metodologia para resolver esse problema, é necessário trabalhar em conjunto com a concessionária para se detalhar melhor os objetivos e entender todas as restrições do pro- blema no município em estudo. Em resumo, o problema das PNTs é altamente complexo e de natureza estocásti- ca. Envolve múltiplas variáveis de natureza diversa; variáveis socioeconômicas e variáveis elétricas como, por exemplo, o número de casas alugadas e a densidade de carga (em kVA/km²) em uma subárea, respectivamente. Nesse contexto, neste trabalho, utiliza-se uma abordagem espacial estatístico-probabilística. Por meio dela, investigam-se as perdas conside- rando o espaço geográfico no qual as mesmas estão inseridas. Segundo Ferreira (2014, p. 65), a estatística é, sobretudo, uma ciência da incerte- za. Ao utilizá-la talvez seja por que não se está totalmente seguro com relação ao conheci- mento do todo. A estatística parte do pressuposto de que não é possível se conhecer, com se- gurança e exatidão, o todo que se estuda; de que, pelo contrário, somente se sabe de maneira provável; e de que em toda certeza há um resíduo de inexatidão. Nessa perspectiva, com respeito ao problema das PNTs, dada a escassez de dados, a frequente não integridade total da base de dados da concessionária (histórico de consumo mensal, histórico de inspeções, dados cadastrais, etc.) e a multiplicidade das variáveis envol- vidas; são indicativos de que uma abordagem espacial estatístico-probabilística seja adequada para capturar a incerteza relacionada aos dados e a variação espaço-temporal do problema em estudo. 1.1.3 Hipótese da Pesquisa A hipótese principal da pesquisa é de que as características socioeconômicas e da rede de distribuição de energia do lugar onde ocorrem as PNTs influem diretamente nas mes- mas e; por isso, são imprescindíveis à completa compreensão do problema. Por meio dessas características, determina-se a variação espaço-temporal das perdas. Dessa maneira, será pos- sível explicar o porquê elas estão mais concentradas em determinadas regiões do município e detectar subáreas vulneráveis às perdas no presente e no futuro via mapas de probabilidades de perdas. Capítulo 1 – Escopo do Trabalho 26 Ressalta-se que neste trabalhão não há associação direta entre fraudes e pobreza. As fraudes ocorrem em todas as classes sociais e em todas as classes consumidoras – residencial, comercial, etc. O uso de variáveis socioeconômicas do censo demográfico do Ins- tituto Brasileiro de Geografia e Estatística, IBGE (2010) objetiva unicamente aproveitar in- formações úteis, confiáveis e que estão disponíveis publicamente. Observa-se que há poucas informações a respeito de cada UC; logo, o uso da base de dados do IBGE é uma forma de contornar essa limitação de dados e de melhor embasar as análises realizadas. 1.1.4 Contribuição Científica Pretendida A tese de doutorado de Oliveira (2009) foi pioneira na área de perdas na distribui- ção do Laboratório de Planejamento de Sistemas de Energia Elétrica (LaPSEE) na qual foi proposto um método simplificado para cálculo das perdas técnicas (PTs). Na sequência, com a dissertação de mestrado de Faria (2012), apresenta-se um trabalho orientado à detecção das PNTs nas UCs do SDEE. Nesse estudo, construiu-se um sistema inteligente híbrido intercomunicativo que combina um sistema de inferência fuzzy (SIF) com as redes neurais perceptron multicamadas (PMC) e os mapas auto-organizáveis de Kohonen ou self organization maps – SOM (KOHONEN, 2001). Neste trabalho pretende-se ampliar a discussão. Os trabalhos na área de PNTs comumente implementam metodologias da área de sistemas inteligentes visando a detecção de UCs irregulares ou com PNTs. Além de localizar as subáreas críticas da cidade com altas perdas no presente e no futuro, pretende-se também explicar o porquê das perdas através dos atributos socioeconômicos e da rede elétrica do lugar onde as mesmas ocorrem. Tais atributos podem auxiliar na compreensão do porquê as PNTs estão mais concentradas em determinadas subáreas da cidade. As PNTs são abordadas, neste estudo, no espaço geográfico da cidade do ponto de vista estatístico-probabilístico. Neste contexto, citam-se alguns trabalhos do LaPSEE que ser- viram como inspiração tais como: Carreño (2008), Melo (2010), Melo, Carreño e Padilha- Feltrin (2012). Tais trabalhos abordam o problema da previsão espacial de demanda conside- rando a dinâmica urbana da cidade. Em suma, considera-se que as características das subáreas onde ocorrem as perdas são importantes e serão abordadas neste trabalho. A partir delas, estima-se a dinâmica ou a variação espaço-temporal das PNTs de maneira a localizá-las, por subáreas do município, no tempo presente e predizer quais serão as subáreas críticas, com altas perdas no futuro. Capítulo 1 – Escopo do Trabalho 27 1.2 ESTRUTURA DA TESE Neste estudo apresenta-se a proposta e o desenvolvimento de uma nova metodo- logia que incorpora o espaço à análise do problema das PNTs no SDEE. O texto está dividido em seis capítulos. A saber:  no capítulo 2 abordam-se os conceitos teóricos que fundamentam o estudo e cuja revisão visa auxiliar na compreensão do leitor acerca do problema tratado e da so- lução proposta para o mesmo. Apresenta-se também uma revisão acerca da litera- tura consultada sobre as PNTs;  no capítulo 3 abordam-se os aspectos fundamentais da análise espacial, com ênfa- se à análise espacial de padrões de pontos e análise espacial de dados agregados por áreas. Abordam-se também um modelo aditivo generalizado ou generalized additive models (GAM) aplicado em uma base de dados de casos-controles que permite a inclusão de variáveis que caracterizam o lugar onde ocorrem as PNTs;  no capítulo 4 abordam-se uma família de modelos geograficamente ponderados (MGPs) com ênfase à regressão geograficamente ponderada (RGP) ou geographi- cally weighted regression (GWR); modelo utilizado para representar as perdas agregadas por áreas. Na segunda parte do capítulo, abordam-se alguns modelos para representar a variação espaço-temporal de fenômenos espaciais com ênfase às cadeias de Markov que serão utilizadas para representar a variação espaço- temporal das PNTs;  no capítulo 5 são apresentadas as simulações realizadas a partir de dados reais de inspeções e de dados públicos do censo demográfico (IBGE, 2010). Esse capítulo é dividido em três partes: na primeira, realiza-se uma análise exploratória nos da- dos de entrada (variáveis socioeconômicas e da rede elétrica) e uma análise do perfil do município sob estudo; na segunda, produz-se um mapa de probabilidade de perdas via GAM que leva em consideração os atributos de cada subárea do município; em último, realiza-se uma análise da variação espaço-temporal das PNTs via GAM e GWR; ambas regressões espaciais são combinadas individual- mente com as cadeias de Markov para produção de mapas de probabilidade de perdas no presente e no futuro;  no capítulo 6 apresentam-se as conclusões, principais contribuições da pesquisa e sugestões para trabalhos futuros. 2 PERDAS NÃO TÉCNICAS EM SISTEMAS DE DISTRIBUIÇÃO DE ENERGIA ELÉTRICA As perdas elétricas também denominadas perdas globais de energia na rede de distribuição são definidas como sendo a diferença entre a quantidade de energia comprada e distribuída pela concessionária e a quantidade de energia paga pelos consumidores. As perdas são agrupadas conforme sua origem em duas categorias: perdas técnicas e perdas não técni- cas. As primeiras são as perdas de energia por efeito Joule, por exemplo, durante o processo de transporte de energia, ocasionadas pelas resistências internas dos condutores e equipamen- tos elétricos de transmissão e de distribuição de energia. Tais perdas podem ser reduzidas através de investimentos na construção de novas redes, da correta manutenção e melhoria dos equipamentos elétricos e da melhoria dos processos de distribuição de energia elétrica (CO- METTI; VAREJÃO, 2005; OLIVEIRA, 2009). As PNTs englobam a energia comprada pela concessionária e não faturada a seus consumidores, descontadas as perdas técnicas. Ocorrem por variadas causas e envolvem todos os tipos de perdas com exceção das perdas técnicas. As causas mais comuns são: ligações irregulares, erros de leituristas, defeitos em equipamentos de medição de energia, diversas modalidades de fraudes, etc. Existe uma vasta literatura a respeito das perdas técnicas. Em contrapartida, o estudo das PNTs é mais recente e passou a ser estudado mais fortemente so- mente nos últimos anos do século XX. Neste capítulo, introduzem-se as PNTs no SDEE e uma revisão acerca das meto- dologias avaliadas para tratar o problema. 2.1 INTRODUÇÃO ÀS PERDAS NÃO TÉCNICAS O problema das PNTs é de cunho estocástico, não estacionário e é composto por múltiplos componentes individuais; ademais, seu estudo varia em função da região sob estu- do. O comportamento das PNTs é influenciado por múltiplos fatores temporais, sazonais, ale- atórios, socioeconômicos, criminalidade, corrupção, etc. Em geral, relacionam-se as PNTs, popularmente conhecidas como “gatos”, a áreas carentes, cuja população é mal assistida por serviços públicos essenciais como água tratada, esgoto, etc. Conforme Heppenstall et al. (2012, p. 406), a relação entre o risco de crime e o ambiente social não é trivial. Comunidades carentes, por exemplo, conforme supracitadas, normalmente possuem altas taxa de criminalidade; no entanto, o contrário também tem sido Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 29 encontrado. Em outras palavras, o crime de furto de energia ocorre tanto em regiões mais po- bres bem como em bairros nobres. O estudo das PNTs é influenciado pelas características da região na qual as perdas estão inseridas. Em cada cidade, há motivações diferentes para a realização de fraudes. Con- forme Oliveira (2013), na Inglaterra, por exemplo, um terço de toda energia elétrica furtada é destinada ao cultivo de maconha. Os produtores utilizam a eletricidade desviada para aquecer estufas que aceleram o crescimento das plantas. O prejuízo pode chegar a R$ 673 milhões anuais. Adicionalmente, tal prejuízo financeiro pode estar subestimado visto que os dados oficiais consideram somente os furtos de eletricidade comprovados, sendo de 25 mil casos em 2010. Os furtos são executados predominantemente via adulteração do medidor de energia elétrica. Com respeito aos medidores de energia, existem basicamente dois tipos: os analó- gicos e os digitais. A maior parte das UCs brasileiras ainda possuem medidores do tipo analó- gico. Sabe-se que engendrar fraudes em um medidor analógico requer menos conhecimento técnico do que em um medidor digital. Em alguns casos são realizadas fraudes grosseiras co- mo, por exemplo, a colocação de obstáculos físicos no disco do medidor analógico para im- pedir a rotação do mesmo. Devido a isso e também por razões financeiras (o medidor digital possui menor custo do que o medidor analógico), os medidores analógicos avariados estão sendo paulatinamente substituídos pelas distribuidoras de energia por medidores digitais (COMETTI; VAREJÃO, 2005). Nesse contexto, para fins de exemplificação, cita-se a distribuidora CPFL energia que iniciou, em 2015, um projeto para modernização do sistema de medição do consumo de clientes da baixa tensão (BT), incluindo os clientes residenciais. Segundo Magnabosco (2015), o projeto, avaliado em R$ 700 milhões, prevê a instalação de 2 milhões de medidores digitais “inteligentes” em um prazo de cinco a sete anos. Tal iniciativa já foi adotada em todos os 25 mil clientes pertencentes ao grupo A; indústrias e comércios atendidos em alta tensão (AT) e em média tensão (MT). Tais medidores “inteligentes” possibilitam a prestação de no- vos serviços. A saber: eventuais desligamentos são identificados imediatamente, o restabele- cimento do sistema pode ser executado em tempo real, o consumo de energia pode ser aferido remotamente (prescindindo leituristas), a concessionária pode oferecer novos serviços aos consumidores como o acionamento automatizado de aparelhos elétricos, por exemplo, etc. Na seção subsequente, destacam-se aspectos relevantes das perdas técnicas a fim de melhor elucidação das perdas elétricas no SDEE. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 30 2.1.1 Perdas Técnicas As perdas técnicas são ocasionadas pelas propriedades físicas dos equipamentos do sistema elétrico de potência (SEP). Referem-se a uma parcela da energia dissipada durante o transporte da energia. A perda nos condutores do sistema elétrico ou perda Joule é um dos exemplos. Ela decorre devido à resistência elétrica do condutor e é proporcional ao quadrado da corrente que o percorre. Todos os equipamentos presentes no sistema elétrico têm perdas técnicas que podem ser medidas e/ou estimadas (PENIN, 2008, p. 09). Mensurar precisamente as perdas técnicas é um problema complexo devido prin- cipalmente à grande quantidade de elementos que constituem o sistema, à grande quantidade de dados necessários, ao caráter aleatório das cargas elétricas e ao contínuo processo de ex- pansão das mesmas. Os cálculos das perdas técnicas são comumente executados por segmento do sis- tema elétrico de modo a conferir maior exatidão aos resultados. As perdas técnicas em siste- mas elétricos são calculadas comumente em três segmentos: alta, média e baixa tensão. As perdas no segmento de alta tensão são encontradas pela diferença de medição nas subestações. No sistema de distribuição de média tensão, as perdas são calculadas por meio de fluxo de carga. Já a metodologia para o cálculo das perdas técnicas em sistemas de baixa tensão varia entre as concessionárias. Em sua maioria, agregam os componentes da rede de distribuição por tipo (transformador, rede secundária, ramais de serviço e medidores) e realizam os cálcu- los baseados em curvas de cargas típicas de consumidores, totalmente independente dos dados de faturamento (DANTAS, 2006; OLIVEIRA, 2009). Além dos segmentos observados, há outras perdas técnicas que são classificadas como perdas diversas. Elas são estimadas como sendo um percentual das perdas técnicas to- tais calculadas. Tais perdas englobam as perdas nas conexões, efeito corona, fugas nos isola- mentos dos equipamentos e nas linhas de transmissão e distribuição, perdas nos bancos de capacitores e de regulares de tensão, etc. Devido à dificuldade de calculá-las de modo preciso, elas recebem um valor estimado entre 5% a 10% do valor total das perdas técnicas nos outros segmentos. Observa-se o impacto nas perdas técnicas devidos às PNTs. Embora sejam consi- deradas perdas técnicas tais perdas podem ser consideradas como uma parcela das PNTs de- vido à própria natureza dos cálculos elétricos das perdas técnicas que são realizados sobre cargas conhecidas. Como as cargas geradoras das PNTs não são conhecidas, desconsiderando- as há uma subdimensionamento das perdas técnicas. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 31 Conhecidas as perdas globais e as perdas técnicas, as PNTs são comumente obti- das pela diferença entre ambas. Logo, erros advindos desses cálculos e estimativas são incor- porados no valor estimado para a PNT. Essa é a prática usual do setor elétrico brasileiro (ANEEL, 2013). 2.2 MEDIDAS DE COMBATE E PREVENÇÃO ÀS PERDAS NÃO TÉCNICAS A detecção de todas as UCs irregulares em uma cidade de médio (ou grande) por- te é totalmente inviável. Isso se deve principalmente à grande e crescente quantidade de con- sumidores, ao custo elevado das inspeções, à informação insuficiente que se tem disponível principalmente com respeito aos clientes do grupo B, à grande diferença na quantidade de clientes regulares e de clientes com algum tipo de irregularidade – segundo Cometti e Varejão (2005), em média, para cada dez clientes regulares há um cliente com alguma irregularidade – e à diversidade de fraudes existentes. Tais fraudes podem compreender desde alterações sim- ples como desvios na instalação elétrica até mecanismos mais elaborados como violação de equipamentos de medição digitais, por exemplo. Segundo Dantas (2006), para a maioria das concessionárias, fraudes e defeitos na medição são as principais causas de PNTs. Na Tabela 1 são apresentadas as irregularidades mais recorrentes ocasionadas por fraudes e por defeitos na medição e que, por serem de ori- gem externa à concessionária, são de difícil localização. Tabela 1 – Principais irregularidades em UCs pertencentes à base de clientes da distribuidora de energia. Irregularidades por Fraudes Irregularidades por Defeitos na Medição Ponte no bloco de terminais Medidor com disco parado Ligação direta ou autorreligação Constante de medição errada Ligação invertida Consumidor não implantado Circuito de potencial interrompido Ligação executada com erro Desvio aparente antes do medidor Transformador de corrente (TC) danificado Desvio embutido na parede Medidor avariado Medidor com lacre violado Fonte: Adaptado de Bastos (2011). Em Oliveira (2009), relacionam-se diversas ações que visam à redução das PNTs. A saber: Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 32  identificação das localidades com maior risco de fraudes e desenvolvimento de campanhas educativas com o apoio dos líderes locais;  promoção de estratégias para participação social promovendo ações organizadas nas comunidades com cunho educativo alertando, por exemplo, para o prejuízo que as PNTs causam à sociedade e a divulgação do disque denúncia de fraudes;  regularização dos clientes clandestinos;  adaptação da rede de distribuição de energia elétrica com a instalação de cabos an- tifurto, redes compactas ou multiplexadas de média tensão; novos padrões de rede (rede secundária elevada e com cabos concêntricos ou pré-reunidos);  implementação de políticas de facilitação de quitação de débitos, cobrança prévia e políticas de cortes;  ações no sentido de redução do consumo de energia elétrica. Destacam-se: insta- lação gratuita de medidores de energia, instalação de aquecedor solar em substi- tuição aos chuveiros elétricos, etc. Na Tabela 2 apresenta-se uma compilação das causas mais recorrentes que influ- em diretamente no acréscimo das PNTs nas concessionárias brasileiras. Para cada causa asso- ciam-se medidas preventivas que poderiam ser adotadas pelas concessionárias como forma de minimização das PNTs. Observa-se que as causas estão agrupadas em internas e externas às concessionárias. As causas internas tais como erros do leiturista e erros no cadastramento de consumidores são mais facilmente combatidas e sua existência está relacionada ao mau ge- renciamento dos procedimentos internos da empresa concessionária. Logo, as PNTs de ori- gem interna são inaceitáveis e devem ser prontamente eliminadas através, por exemplo, das medidas de prevenção e combate da Tabela 2. Em contrapartida, todas as PNTs de origem externa às concessionárias tais como os inúmeros tipos de fraudes da Tabela 1 são mais difí- ceis de serem localizadas e requerem o desenvolvimento de programas dedicados. Para combate às perdas de origem externa realizam-se inspeções em UCs previa- mente selecionadas. As informações colhidas durante as inspeções são fundamentais para quantificação e qualificação das PNTs em uma dada região. Em geral, as inspeções são moti- vadas por campanhas de combate às PNTs, suspeitas de fraude, denúncias, etc. Dentre as principais estratégias para localização de UCs com PNTs estão: a varredura, denúncias, análi- se dos consumidores mais suspeitos e a utilização de programas computacionais que imple- mentam ferramentas sofisticadas para detecção de UCs suspeitas. O sucesso de cada uma das estratégias supracitadas é mensurado através da taxa de sucesso ou taxa de acerto das inspe- ções apresentada em (1): Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 33 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑆𝑢𝑐𝑒𝑠𝑠𝑜 = 100 × 𝑁º 𝑈𝐶𝑠 𝐼𝑟𝑟𝑒𝑔𝑢𝑙𝑎𝑟𝑒𝑠 𝐸𝑛𝑐𝑜𝑛𝑡𝑟𝑎𝑑𝑎𝑠 𝑁º 𝑈𝐶𝑠 𝐼𝑛𝑠𝑝𝑒𝑐𝑖𝑜𝑛𝑎𝑑𝑎𝑠 (1) Tabela 2 – Síntese das causas mais recorrentes e medidas de prevenção e combate às PNTs no SDEE. Distribuidora de Energia Origem Medidas de Prevenção e Combate às Perdas Clientes Interna: erro do leiturista; defeito ou obsolescência do medidor; erro na ligação; especificação inadequada da medição; engano no cadastro de clientes; funcionários desonestos, etc. Acompanhamento do processo de ligação e fatura- mento; atualização cadastral; treinamento do pesso- al que especifica o sistema de medição; inspeção nos medidores, etc. Externa: fraudes como des- vio embutido antes da medi- ção; circuito de potencial interrompido, medidor avari- ado, ponte nos terminais, etc. Inspeções; acompanhamento do histórico de con- sumo; instalação de medição fiscal; desenvolvimen- to de programas e ferramentas que auxiliem na identificação de desvios de consumo, melhorando a taxa de sucesso das inspeções; lacres no sistema de medição; uso de redes antifurto, etc. Não Clientes Ex-clientes desligados que se autorreligam. Adequação tarifária; políticas de subsídios; facili- dades para negociação de débitos; inspeção das UCs desligadas; lacres no sistema de medição; etc. Conexões ilegais: invasões, loteamentos irregulares, etc. Mapeamento de zonas de risco; realização de políti- cas sociais em conjunto com a prefeitura, polícia e justiça; opção pela rede antifurto, etc. Fonte: Adaptado de Bastos (2011). Por meio da taxa de sucesso, avalia-se a eficácia dos critérios internos das distri- buidoras de energia para seleção das UCs que devem ser inspecionadas. O resultado da metodologia proposta neste estudo será a construção de mapas de probabilidade de perdas. Por meio desses mapas, localizam-se as subáreas do município vul- neráveis às perdas. Esses mapas são uma ferramenta gráfica, de fácil interpretação e úteis em uma série de ações de prevenção e combate às perdas. Destacam-se, por exemplo, o mapea- mento das zonas de risco de fraudes (causas externas) melhorando a realização de políticas sociais e o direcionamento das inspeções para as regiões mais vulneráveis às perdas. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 34 Seguem nas seções subsequentes uma síntese a respeito dos principais critérios para localização de UCs irregulares. 2.2.1 Varredura A estratégia de varredura é uma das primeiras e menos eficiente para localização de clientes com PNTs. Nessa, identificam-se quais são os alimentadores (ou regiões) da rede de distribuição com as maiores PNTs através do cálculo das perdas globais descontadas as perdas técnicas. Em seguida, inspecionam-se todos os consumidores que são supridos por tal alimentador – ou que estão localizados em determinada área suspeita. Por ter de inspecionar todos os consumidores de uma região pertencentes a um alimentador (ou pertencentes a uma área) com altas perdas; essa estratégia tem alto custo fi- nanceiro e consome muito tempo das equipes de inspeções. As características supracitadas limitam a execução da operação de varredura a regiões nas quais a quantidade de fraudes é suficientemente grande para compensar os altos custos com a operação. Ademais, a operação de varredura é facilmente identificada pelos con- sumidores que podem mascarar suas fraudes momentos antes da realização da fiscalização. A taxa de sucesso da operação de varredura é baixa e oscila entre 10% a 12% em média (CABRAL et al., 2004; COMETTI; VAREJÃO, 2005; PERIM; DIAS; COMETTI, 2007). 2.2.2 Denúncias Em geral, realizam-se inspeções sempre que ocorrem denúncias. Embora a estra- tégia de denúncias tenha alto índice de acerto, o número de denúncias é muito pequeno frente à quantidade de inspeções que poderiam ser realizadas ao longo do tempo. A taxa de sucesso das denúncias é de 22%, aproximadamente (COMETTI; VAREJÃO, 2005). 2.2.3 Análise dos Dados dos Consumidores A estratégia de análise dos dados consiste em aplicar regras heurísticas simples para varrer a base de dados e selecionar clientes com histórico de consumo atípico e, devido a isso, tornam-se alvos das inspeções. A análise de dados é uma tarefa árdua que requer muito tempo e esforço por parte dos especialistas em perdas, os quais precisam varrer extensas bases de dados para identificar características suspeitas de cada consumidor. Uma regra comum é a regra do consumo nulo que seleciona clientes com consu- mo inferior a um valor limite durante um determinado período de tempo com exceção de resi- Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 35 dências desocupadas ou de áreas de veraneio que possuem índice de consumo abaixo do pa- drão (PERIM; DIAS; COMETTI, 2007). A análise de dados utiliza regras heurísticas baseadas na experiência do especialis- ta. No entanto, uma regra, após ser aplicada sucessivamente ao longo do tempo, tem sua efi- cácia reduzida. É preciso adaptá-las. Além disso, tais regras cobrem um pequeno número de consumidores. A taxa de sucesso dessa estratégia é moderada. A distribuidora de energia AES Eletropaulo obteve um índice de acerto de 19,8%, em média, nos anos de 2005 a 2007 (FER- REIRA, 2008). A eficácia dessa estratégia depende exclusivamente do conhecimento e experiên- cia do especialista. No entanto, abordagens dependentes exclusivamente do conhecimento do especialista podem impedir que padrões ocultos nos dados sejam encontrados, uma vez que o especialista não tem condições de imaginar todas as possíveis relações e associações existen- tes em um grande volume de dados. Por isso, recomenda-se a utilização de técnicas de análise dirigidas por computador as quais possibilitam a extração automática (ou semiautomática) de novos conhecimentos a partir de um grande repositório de dados. 2.2.4 Programas computacionais dedicados A seleção dos consumidores a serem inspecionados é realizada comumente atra- vés da busca exaustiva (ou varredura), denúncias ou por meio da análise da base de dados em planilhas eletrônicas por especialistas em perdas. No entanto, se a seleção dos consumidores ou da área a ser inspecionada for feita de maneira automática, através de um programa com- putacional dedicado, o custo com as inspeções pode ser reduzido, pois elas estariam restritas a pequenas regiões ou pontos bem determinados, aumentando a possibilidade de flagrantes de irregularidades (COMETTI; VAREJÃO, 2005). Nesse contexto, os programas computacionais para análise das PNTs possuem comumente sistemas classificadores baseados em técnicas de extração automática de conhe- cimento como a mineração de dados, por exemplo. A partir das fontes de dados disponíveis, tais sistemas computacionais classificadores são capazes de decidir com base nas característi- cas atuais de um determinado cliente se o mesmo deve ou não ser inspecionado. Fundamental para essa abordagem é a base de dados com o histórico de inspeções que permite gerar exem- plos de clientes regulares e irregulares (fraudadores, por exemplo) para serem utilizados para treinamento e teste do sistema classificador. Aliado a isso, tem-se a aquisição e a incorpora- ção do conhecimento dos especialistas ao sistema desenvolvido. Uma condição fundamental Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 36 para o desenvolvimento desses sistemas é torná-lo flexível para que os usuários possam fa- cilmente adaptá-lo a fim de aplicar novas regras heurísticas. Na Tabela 3 há um resumo da relação custo-benefício, tempo de planejamento, área de abrangência e taxa de sucesso das principais estratégias adotadas pelas empresas con- cessionárias de energia para combate às PNTs. Tabela 3 – Resumo da eficiência das principais estratégias para localização de UCs com PNTs. Estratégia 𝑹𝒆𝒕𝒐𝒓𝒏𝒐 𝑭𝒊𝒏𝒂𝒏𝒄𝒆𝒊𝒓𝒐 𝑪𝒖𝒔𝒕𝒐 𝒅𝒆 𝑬𝒙𝒆𝒄𝒖çã𝒐 Tempo de Planejamento Área de Abrangência Taxa de Sucesso Varredura Baixo Moderado Por Área 10% a 12% Denúncias Alto Baixo Pontual ≈ 22% Análise dos Dados Moderado Alto Pontual > 20% Software Dedicado Alto Alto Pontual/Área > 20% Fonte: Adaptado de Faria (2012). 2.3 REVISÃO BIBLIOGRÁFICA As PNTs eram relacionadas recentemente exclusivamente a uma provável de- sorganização dos processos internos administrativos e de treinamento dos funcionários das distribuidoras de energia. Apenas no fim do século XX, tal problema começou a ser pesquisa- do mais fortemente, externamente às distribuidoras. Segue uma retrospectiva histórica acerca dos trabalhos avaliados. Uma parcela importante das PNTs deve-se às fraudes no SDEE. Tais fraudes são um crime tipificado no código penal brasileiro (PENIN, 2008). Nesse contexto, inúmeros tra- balhos da área de criminologia levam em consideração o lugar onde ocorrem os crimes. Ci- tam-se, por exemplo, Heppenstall et al. (2012) e Ransford, Kane e Slutkin (2012). Esses são trabalhos na área de criminologia, que estudam os atributos do lugar onde ocorrem crimes comuns tais como: furtos a residência, a pessoa física, a veículos, etc. Tais estudos destacam a importância do lugar onde ocorrem os crimes cujas características podem estimulá-los ou ini- bi-los. No entanto, em contraposição aos trabalhos supracitados, os estudos avaliados em PNTs comumente não analisam explicitamente o lugar onde as mesmas ocorrem. Os poucos trabalhos encontrados que analisam alguns atributos locacionais, do lugar onde estão as per- das, tais como Francisco et al. (2010), fazem-no de forma preliminar, sem o emprego das téc- nicas de análise espacial de dados geográficos, por exemplo. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 37 Os estudos em perdas são focados, em sua maioria, na detecção ou na localização de UCs irregulares ou com PNTs. Os trabalhos que abordam a detecção das PNTs utilizam comumente técnicas da área de sistemas inteligentes ou soft computing. Destaque para as téc- nicas de mineração de dados e de texto, técnicas estatísticas, lógica fuzzy, algoritmos de aprendizado de máquina ou suport vector machine (SVM) e redes neurais como sendo os mé- todos com maior êxito nesse campo de pesquisa (GUERRERO; LEÓN; BISCARRI, 2010). Em Jiang (2002) é apresentada uma abordagem baseada em múltiplos classifica- dores e coeficientes wavelets para identificação de fraudes em clientes cujo consumo de ener- gia foi mensurado em intervalos de quinze minutos. Os resultados das simulações provam que o método é efetivo na identificação de fraudes na distribuição, com 78% de taxa de acerto para os dados de treinamento e 70% para os dados de teste. Em Cabral et al. (2004) utilizam-se conjuntos rústicos ou rough sets como técnica para redução do número de atributos utilizados na indução de um sistema de regras de decisão para detecção de fraudes em consumidores de energia elétrica. Smith (2004) faz uma abordagem qualitativa de grande relevância na qual se abordam aspectos sociais a nível mundial. Essa referência estimou o furto de eletricidade em 102 países de 1980 até o ano 2000. Ela reconhece a característica complexa e multifacetária do problema das PNTs e o relaciona a aspectos governamentais tais como: instabilidade polí- tica, baixa efetividade governamental, altos níveis de corrupção, alta taxa de natalidade, baixo índice de desenvolvimento humano (IDH), etc. Cometti e Varejão (2005) desenvolveram um sistema para identificação de clien- tes com PNTs e efetuaram uma análise comparativa entre diversas técnicas da área de siste- mas inteligentes. Tais técnicas foram comparadas em termos da especificidade e da confiabi- lidade negativa, dando maior ênfase à primeira. Seguem as técnicas empregadas em ordem decrescente de desempenho para detecção das PNTs: Naïve Bayes, redes Bayesianas, k- Nearest Neighbor (KNN), algoritmo C4.5 e redes neurais. Rauber et al. (2005) mostraram que a extração de novas características, a partir da série temporal de consumo mensal, melhora o desempenho do classificador que determinará a presença ou a ausência de PNTs. A partir dessa constatação, os autores realizaram a análise comparativa entre três metodologias para extração de atributos: coeficientes de Fourier, coefi- cientes wavelets e regressão polinomial. O primeiro método de extração gerou as característi- cas mais relevantes, seguido pelos coeficientes wavelets e pela regressão polinomial. Na dissertação de Dantas (2006) foi desenvolvido um software para quantificação e estratificação das PNTs por classe e por faixa de consumo no município de Salvador, Bahia. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 38 As UCs foram agrupadas em quatro categorias: irregular com fraude, irregular com defeito, irregular sem perda e normal. Esse trabalho possui embasamento estatístico e baseia-se na amostragem aleatória de dados levantados em campo. Perim, Dias e Cometti (2007) desenvolveram um sistema baseado em conheci- mento (SBC) composto por regras independentes escritas manualmente na linguagem XML baseadas no conhecimento do especialista. Os dados de entrada avaliados são alguns atributos estatísticos como a média e o consumo nulo que são extraídos a partir do histórico de consu- mo mensal de cada consumidor em kWh. Na dissertação de Ferreira (2008) foi avaliada uma combinação entre diferentes ferramentas de classificação e bases de dados para melhorar o índice de acerto das inspeções. As bases de dados são compostas pelo histórico de consumo mensal e por dados cadastrais dos clientes. Para tal, utilizam-se ferramentas de aprendizados de máquina tais como: redes neurais, o algoritmo indutor de árvore de decisão C4.5, aprendizado de máquina e Naïve Ba- yes. O trabalho efetua uma análise comparativa entre esses quatro classificadores a fim de detectar aquele que apresenta melhor poder preditivo em termos dos critérios de confiabilida- de negativa e de especificidade. O algoritmo C4.5 obteve os melhores resultados. Nizar, Dong e Zhang (2008) buscam detectar anormalidades em UCs que podem ser devidas às PNTs através da extração de regras em dados cadastrais. Utilizam técnicas de mineração de dados, detecção de clusters e técnicas de classificação para construção de um framework para detecção das perdas. Em Nizar, Dong e Wang (2008) foi implementada uma técnica de mineração de dados via extreme learning machine (ELM) para melhorar o processo de detecção de UCs com PNTs. Tal técnica utiliza a curva de carga dos consumidores para detectar comportamen- tos de consumo anormais ou suspeitos. Demonstrou-se, via inúmeros resultados, a superiori- dade do ELM frente a outras técnicas de classificação como SVM. Na tese de Bastos (2011) foi feito um diagnóstico ou prospecção das PNTs permi- tindo identificar suas diversas origens e quantificar as parcelas relacionando-as as causas da mesma entre os consumidores e classes de consumo em várias regiões. Utiliza-se para tal as redes Bayesianas. No trabalho de Guerrero, León e Biscarri (2010), objetiva-se explicar o compor- tamento muitas vezes anômalo e suspeito da curva de consumo mensal como sendo conse- quência das características de consumo do cliente como, por exemplo, de sua atividade eco- nômica. Os dados de entrada da metodologia são as informações textuais e em linguagem natural contidas na base de dados da concessionária de energia. São informações sobre a do- Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 39 cumentação, comentários dos inspetores e informações adicionais sobre a instalação elétrica dos consumidores. A metodologia é uma combinação das técnicas de mineração de texto, re- des neurais, técnicas estatísticas e experiência de especialistas a fim de extrair conhecimento a partir de informação não estruturada. Dessa forma, pretende-se aumentar a eficiência das campanhas contra perdas através da redução de falso-positivos, isto é, redução de clientes normais ou regulares que são erroneamente rotulados como irregulares pela metodologia em- pregada. Em Nagi et al. (2010) foi implementada a mineração de dados via support vector machine (SVM) para selecionar mais eficientemente clientes suspeitos de fraudes. O método extrai informações do histórico de consumo mensal. Os dados de entrada para o SVM são informações da curva de carga dos consumidores e informações adicionais relacionadas às PNTs. O método foi testado em uma distribuidora da Malásia e elevou a taxa de sucesso das inspeções de 3% para 60%. Em Nagi et al. (2011) continua-se o estudo realizado em Nagi et al. (2010) no qual implementa-se uma técnica de mineração de dados combinada com um fuzzy inference system (FIS) visando minorar os custos com inspeções. O FIS permite incorporar uma etapa de pós-processamento na metodologia e a inclusão do conhecimento de especialistas em per- das via regras fuzzy do tipo SE-ENTÃO. Com tal melhoria, houve um acréscimo na taxa de sucesso das inspeções de 60% para 72%. Em León et al. (2011) implementa-se um framework para detecção das PNTs o qual é dividido em quatro seções: seleção de dados, pré-processamento, descrição e minera- ção de dados. Apresentam-se dois estimadores estatísticos inovadores para considerar a varia- bilidade e a análise de tendências no histórico de consumo. Tal estudo apresenta também um modelo preditivo baseado em generalized rule induction (GRI). Por meio da análise preditiva descobrem-se regras em uma base de dados. Esse modelo é combinado com um outro método classificador de árvore de busca binária. Houve acréscimo na taxa de identificação de fraudes de 7% para 20%. Em Ramos et al. (2011) implementa-se uma técnica de reconhecimento de padrão via optimum path forest (OPF) para aperfeiçoar a detecção de UCs irregulares. Destaca-se a superioridade e maior simplicidade desta técnica frente a outras da área de sistemas inteligen- tes que são igualmente utilizadas para detecção de PNTs. A saber: artificial neural networks (ANN), SVM, genetic algorithms (GAs), artificial neural networks multilayer perceptron (ANN-MLP), self-organizing maps (SOM). Ao longo do estudo, apresentam-se inúmeros re- Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 40 sultados que demonstram a maior eficiência da técnica OPF desenvolvida pelos autores do estudo para detecção das perdas. Em Angelos et al. (2011) apresenta-se uma técnica computacional para detecção e identificação de anormalidades no consumo de UCs da rede de distribuição. Utiliza-se uma técnica de clusterização fuzzy C-means (FCM) para encontrar UCs com perfis de consumo similares. Após esta etapa, utiliza-se um sistema de classificação fuzzy utilizando matriz de pertinência fuzzy e a distância Euclidiana entre os centros dos clusters. Essa distância é nor- malizada e corresponde a um índice que possui valor elevado para potenciais fraudadores. A proposta foi validada com dados reais mostrando bom desempenho para consumidores resi- denciais e comerciais. A aplicação do método é totalmente viável. Ele requer o uso de apenas cinco variáveis de entrada disponíveis nas concessionárias de energia elétrica. De acordo com Ramos et al. (2012), no entanto, o foco não é na extração de carac- terísticas, mas na seleção daquelas que são mais representativas, que possuem maior poder preditivo e que serão as entradas das técnicas de reconhecimento de padrões também denomi- nados sistemas classificadores. Para tal, os autores empregam três algoritmos evolutivos: par- ticle swarm optimization (PSO), gravitational search algorithm (GSA) e harmony search (HS). Os testes a partir de oito características de clientes comerciais e industriais demonstram o melhor desempenho do sistema classificador OPF na detecção de clientes suspeitos quando antes é realizada a seleção das características mais relevantes. O método PSO-OPF superou HS-OPF e GSA-OPF, sendo o HS-OPF o algoritmo com menor tempo computacional. Em Huang, Lo e Lu (2013) emprega-se estimação de estados para se obter a dis- tribuição de carga nos transformadores da distribuição. A partir dessa distribuição, estimam-se alimentadores com mais PNTs. Em Porras et al. (2015) desenvolve-se um protótipo de um software para melhorar o processo de detecção das PNTs na região de Quindío, Colômbia. Nesse software, facilita-se a visualização das PNTs por transformadores, alimentadores, subestações, etc. Utilizam-se regras específicas da região sob análise. Por meio da visualização, é possível realizar análises preliminares a partir da visualização do lugar onde ocorrem as perdas. Em Rodrigues, Ramos e Papa (2015) busca-se detectar as PNTs no contexto das smart grids. Para tal, utiliza a técnica de otimização metaheurística black hole algorithm (BHA) para caracterização das UCs irregulares. Os resultados demonstram a importância de selecionar as características mais relevantes das UCs irregulares e comprovam a superioridade da técnica BHA em relação às técnicas HS, genetic algorithm (GA), PSO e OPF no reconhe- cimento do perfil de clientes irregulares. Capítulo 2 – Perdas Não Técnicas em Sistemas de Distribuição de Energia Elétrica 41 Por fim, em Trevizan et al. (2015), propõe-se um método para identificação das PNTs envolvendo o algoritmo optimum-path forest (OPF) e o estimador de estado da distri- buição ou distribution state estimator (DSE) em consumidores residenciais. Os consumidores são classificados em suspeito e em não suspeitos via OPF. Na fase de refinamento utiliza-se o DSE. O método foi testado em um sistema-teste do Institute of Electrical and Electronics En- gineers (IEEE) de 123 barras considerando um grupo de consumidores em cada barra. No melhor resultado, a taxa de sucesso das inspeções foi superior a 72,43%. 2.4 CONSIDERAÇÕES FINAIS Neste capítulo fez-se uma explanação abrangente a respeito da natureza do pro- blema das PNTs no SDEE. Destacaram-se as principais formas de prevenção e combate às perdas e uma retrospectiva histórica a respeito das referências relevantes avaliadas nesse te- ma. No capítulo subsequente abordam-se aspectos fundamentais da análise espacial de dados geográficos com ênfase à análise espacial de pontos e análise espacial de dados agrega- dos por áreas. Tais técnicas são fundamentais para incorporar o espaço geográfico de maneira original ao problema das PNTs. 3 ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS Neste trabalho, o espaço geográfico é incorporado ao problema das PNTs através das técnicas de análise espacial de dados geográficos ou estatística espacial. Por meio dessas técnicas, localizam-se as PNTs ou as UCs irregulares no espaço geográfico da cidade e relaci- ona-se a localização das mesmas aos atributos do lugar onde elas estão. Neste capítulo, objetiva-se abordar, de forma concisa algumas técnicas de análise espacial de dados geográficos de padrões de pontos e de dados agregados por áreas. A seguir, apresenta-se um excerto de Ferreira (2014, p. 65) a respeito da estatísti- ca espacial e da incerteza relacionada aos dados geográficos. A estatística é, sobretudo, uma ciência da incerteza. Ao utilizá-la talvez seja porque não se está totalmente seguro com relação ao conhecimento do todo. A estatística parte de um pressuposto surpreendente: de que não é possível se conhecer com segu- rança e exatidão o todo que se estuda; de que, pelo contrário, somente se sabe de maneira provável; e de que em toda certeza há um resíduo de inexatidão. Tal nível de desordem dos dados (principalmente nos dados geográficos) chama-se entropia 2 . Nada tão entrópico como mapas, distribuições espaciais, o território e as regiões. Da entropia deriva a incerteza. Incerteza de querer saber sobre o oceano, mas tendo à mão apenas alguns copos de água; de conhecer o deserto, mas a partir de alguns punhados de suas areias; de compreender a cidade por meio de uma amos- tra de suas casas; e porque não de entender uma região tendo como evidência parte de seus municípios. Esses exemplos carregam consigo certo grau de incerteza. Se na maioria das vezes restam amostras e fragmentos da totalidade quase infinita do es- paço, é com eles que devemos seguir em frente. A descrição supracitada está em conformidade com as características do problema das PNTs. As bases de dados das distribuidoras não são totalmente confiáveis; comumente, possuem registros incompletos de clientes, desatualizados ou cadastrados erroneamente. No entanto, conforme Ferreira (2014), “se na maioria das vezes restam amostras e fragmentos da totalidade (...) é com eles que devemos seguir em frente”. Portanto, a priori, é viável tratar as PNTs com a técnica estatística espacial de dados geográficos. Nesse contexto, introduz-se, neste capítulo, a análise espacial de dados geográfi- cos com foco na análise espacial de pontos e de áreas. Tal ferramenta é comumente utilizada em várias áreas do conhecimento como: epidemiologia, criminologia, geologia, agronomia, ecologia, etc. Busca-se levar em conta o lugar onde ocorre o fenômeno sob estudo. Neste tra- 2 A entropia é um conceito originalmente da termodinâmica que mensura a desordem das partículas de um sis- tema físico. Quanto maior a desordem de um sistema, maior será sua entropia. Neste texto, a entropia refere-se à desordem e a imprecisão sempre presente (em maior ou menor grau) nos dados provenientes de bases de dados georreferenciadas. Capítulo 3 – Análise Espacial de Dados Geográficos 43 balho, enfatiza-se a análise espacial de pontos e de áreas as quais serão utilizadas para incor- porar o espaço ao problema das PNTs. 3.1 INTRODUÇÃO À ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS A compreensão da distribuição espacial de fenômenos ocorridos no espaço geo- gráfico 3 é fundamental para compreensão de inúmeros problemas oriundos de diversas áreas do conhecimento tais como: saúde, geologia, agronomia, etc. Esses estudos são viabilizados e facilitados devido ao surgimento e popularização dos sistemas de informações geográficas (SIGs) ou geographic information system (GIS). Esses são programas computacionais com interface amigável e de baixo custo – alguns são livres, portanto, sem custo – que permitem a visualização espacial de variáveis tais como: população de doentes por região, renda, taxa de furto de veículos, etc. A partir de um banco de dados e de uma base geográfica (um mapa da região sob análise), o GIS permite a visualização do padrão espacial do fenômeno. Além da visualização do padrão espacial do fenômeno, podem-se analisar os pa- drões existentes via considerações objetivas e mensuráveis. Conforme Druck et al. (2004), a ênfase da análise espacial é mensurar propriedades e relacionamentos, levando em conta a localização espacial do fenômeno em estudo de forma explícita. Em outras palavras, ela per- mite a incorporação do espaço à análise que se deseja realizar. A análise espacial é composta por um conjunto de ferramentas – muitas delas já implementadas nos GIS – para explorar e modelar processos que se expressam através de uma distribuição no espaço. Tais processos são denominados fenômenos geográficos. Seguem alguns problemas que são comumente es- tudados com o uso da análise espacial.  Epidemiologistas coletam dados sobre ocorrência de doenças. A distribuição dos casos da doença estão dispostos em algum padrão no espaço? Existe associação com alguma fonte de contágio, algum local contaminado? Varia no tempo?  Deseja-se investigar se há concentração espacial na distribuição no furto de veícu- los. Tais furtos, que ocorrem predominantemente em determinadas áreas da cida- de, estão correlacionados com as características socioeconômicas das mesmas?  Geólogos desejam estimar a extensão de um depósito mineral em uma região a partir de algumas amostras. É viável estimar a distribuição do mineral na região a partir dessas amostras? 3 Fenômenos que ocorrem no espaço geográfico são aqueles representados por coordenadas geográficas (x,y). Capítulo 3 – Análise Espacial de Dados Geográficos 44  As UCs com fraudes estão dispostas em aglomerados? Existe alguma associação entre as fraudes e as condições socioeconômicas do lugar onde as mesmas ocor- rem? Variam com o tempo? O processo de modelagem em análise espacial é precedido por uma fase de análi- se exploratória na qual se incluem a apresentação visual dos dados em forma de gráficos e mapas e a identificação de padrões de dependência espacial do fenômeno sob estudo, ou seja, avaliar se as características do lugar onde ocorre o fenômeno exerce influência sobre o mesmo (DRUCK et al., 2004). Muitas das etapas de análise espacial realizadas em um GIS são iniciadas a partir de perguntas espaciais. As perguntas espaciais podem ser agrupadas em categorias conforme as técnicas de análise espacial envolvidas na construção dessas perguntas. As perguntas espa- ciais da Tabela 4 foram construídas em um contexto de investigação adaptado à área da epi- demiologia espacial. No entanto, podem ser ajustadas a outros contextos de pesquisa geográ- fica, substituindo a palavra tema de cada pergunta – os casos de dengue, por exemplo. Tabela 4 – Exemplos de perguntas que podem dar início ao procedimentos de análise espacial em GIS e categorias da análise espacial nas quais as mesmas estão associadas. Pergunta Espacial Categorias de Análise Espacial Localização Distribuição Associação Mudança Onde ocorrem casos de dengue? X Existe regularidade na distribuição espa- cial dos casos de dengue X Por que o padrão espacial da distribuição dos casos de dengue exibe regularidade? X Quais variáveis socioeconômicas estão associadas espacialmente aos casos de dengue em São Paulo? X Os casos de dengue ocorrem agrupados em regiões ou em clusters de municípios? X X Os casos de dengue sempre ocorreram neste mesmo lugar? X Fonte: Adaptado de Ferreira (2014, p. 60). Capítulo 3 – Análise Espacial de Dados Geográficos 45 Em Druck et al. (2004) e Fine et al. (2013), relata-se o trabalho pioneiro de John Snow que foi o primeiro a incorporar intuitivamente o espaço às suas análises. Em 1854, a cidade de Londres passava por mais uma epidemia de cólera. Pouco se sabia dos mecanismos causais da doença. Conforme se mostra na Figura 2, os locais dos óbitos por cólera e dos po- ços foram modelados como processos pontuais e identificados no mapa da cidade por pontos e cruzes, respectivamente. Observa-se visualmente uma maior concentração dos óbitos nos arredores de um poço localizado na Broad Street (região central) cuja água estava contamina- da pela bactéria transmissora da doença. Portanto, os óbitos estavam distribuídos espacial- mente em aglomerado ou cluster ao redor do poço contaminado. Esta é uma situação clara na qual a relação espacial dos dados contribuiu significativamente para melhor compreensão do fenômeno sob estudo. Figura 2 – Mapa da cidade de Londres com óbitos por cólera e poços de água representados por pontos e cruzes, respectivamente. Fonte: Druck et al. (2004). Capítulo 3 – Análise Espacial de Dados Geográficos 46 3.1.1 Tipos de Dados em Análise Espacial Os problemas em análise espacial são caracterizados por três tipos de dados.  Padrões pontuais: fenômenos expressos por ocorrências identificadas como pon- tos localizados no espaço – eventos pontuais. Exemplos: localização de crimes, ocorrência de doenças, localização de espécies vegetais, etc.  Áreas com taxas agregadas: dados associados a levantamentos populacionais co- mo censos demográficos e estatísticas de saúde que se referem a indivíduos loca- lizados em pontos específicos no espaço. No entanto, por razões de confidenciali- dade, tais dados são agregados em unidades de análise, delimitadas por polígonos fechados tais como: setores censitários 4 , município, etc.  Superfícies contínuas: estimadas a partir de um conjunto de amostras de campo – regular ou irregularmente distribuídas. Esses dados são comumente resultantes de levantamentos de recursos naturais representados, por exemplo, em mapas geoló- gicos, topográficos e ecológicos. A representação dos dados em superfícies contínuas pressupõe que os mesmos podem ocorrer em qualquer parte do espaço geográfico. Esse não é o caso das PNTs que po- dem surgir apenas onde existem UCs. Portanto, neste trabalho, os dados de perdas são carac- terizados via análise espacial em padrões pontuais e em áreas com taxas agregadas. 3.1.2 Representação Computacional de Dados Geográficos O GIS é um software que realiza o tratamento computacional dos dados geográfi- cos e armazena a geometria e os atributos dos dados georreferenciados que estão localizados na superfície terrestre e que são representados em uma projeção cartográfica (DRUCK et al., 2004). Os principais componentes que constituem um GIS se relacionam de forma hie- rárquica. No nível mais próximo do usuário, a interface define como o sistema é operado e controlado. No nível intermediário, o GIS possui ferramentas de processamentos de dados espaciais (entrada, edição, análise, visualização, saída). Internamente um banco de dados geo- gráficos armazena e recupera dados espaciais. O modelo de sistema de gerenciamento de banco de dados (SGBD) mais comum é georrelacional. Nesse, os atributos descritivos de cada objeto são organizados em tabelas cu- jas linhas e colunas correspondem aos dados e aos nomes dos atributos, respectivamente. Ca- 4 O setor censitário é a menor unidade territorial das cidades, um polígono com limites físicos identificáveis e com dimensão adequada para levantamento das informações do censo demográfico (IBGE, 2010). Capítulo 3 – Análise Espacial de Dados Geográficos 47 da linha da tabela contém valores associados a um evento ou objeto geográfico. Tais objetos possuem um identificador único que possibilita uma ligação lógica entre os atributos dos ob- jetos e suas representações geométricas. Na Tabela 5 apresentam-se os tipos de representações geométricas mais comuns em análise espacial que variam conforme os tipos de dados utilizados. Tabela 5 – Tipos de representações geométricas em análise espacial. Representação Descrição Pontos 2D Par ordenado (x,y) de coordenadas espaciais. Um ponto indica um local de ocorrên- cia de um evento. Polígonos Conjunto de pares ordenados {(x,y)} de coordenadas espaciais, sendo o último ponto idêntico ao primeiro, formando uma região fechada no plano. Amostras Pares ordenados {(x,y,z)} onde z indica o valor do fenômeno estudado na localização indicada pelas coordenadas espaciais (x,y). Grade Regular Matriz onde cada elemento está associado a um valor numérico. Em geral tal matriz representa uma região da superfície terrestre. Possui comumente espaçamentos regu- lares nas direções horizontal e vertical. Imagem Matriz onde cada elemento associa-se a um valor inteiro (de 0 a 255 no padrão RGB 5 ). Os valores numéricos da grade são escalonados para o intervalo de apresen- tação da imagem. Fonte: Adaptado de Druck et al. (2004). 3.2 CONCEITOS BÁSICOS EM ANÁLISE ESPACIAL 3.2.1 Dependência Espacial A noção de dependência espacial parte de Tobler (1979) que enuncia a primeira lei da geografia, segundo a qual, todas as coisas são parecidas; no entanto, coisas mais próxi- mas se parecem mais do que coisas mais distantes. Nesse contexto, Cressie (1991) afirma que a dependência espacial está presente em todas as direções e torna-se mais fraca à medida que se aumenta a dispersão na localização dos dados. Em termos gerais, diz-se que a maior parte dos fenômenos; quer sejam naturais, quer sejam sociais, apresentam uma relação que depende da distância. Por exemplo, se há um foco de criminalidade em uma região da cidade, é mais provável que locais próximos também tenham altos índices de violência. 5 Sistema de cores aditivas denominada escala RGB – red, green, blue. Capítulo 3 – Análise Espacial de Dados Geográficos 48 No caso das PNTs, nem sempre a lei de Tobler é obedecida. Se um cliente pratica fraude não necessariamente seu vizinho também praticará. Logo, não há evidência de que a presença de uma UCs com fraude estimule as UCs vizinhas na prática de igual delito. Uma subárea distante, por exemplo, pode exercer maior influência do que uma subárea fronteiriça. Portanto, a abordagem tradicional da análise espacial de considerar subáreas vizinhas como sendo apenas subáreas fronteiriças será adaptada a fim de melhor representar o problema das PNTs. A dependência espacial é representada computacionalmente por meio da autocor- relação espacial. A correlação é uma medida estatística com o intuito de mensurar o relacio- namento entre duas variáveis aleatórias. O prefixo “auto” indica que a correlação é realizada com a mesma variável aleatória medida em locais distintos do espaço. Verifica-se como varia a dependência espacial a partir da comparação dos valores de uma amostra e de seus vizinhos. Existem vários indicadores para mensurar a autocorrelação espacial como o índice de Moran (para análise espacial de áreas agregadas) e o variograma (para análise espacial de superfícies contínuas), por exemplo. Todos são casos particulares de uma estatística de produtos cruzados conforme (2). Γ = ∑ ∑ 𝑤𝑖𝑗(𝑑)𝜉𝑖𝑗 𝑛 𝑗=1 𝑛 𝑖=1 (2) Dada uma distância d, 𝑤𝑖𝑗 são os elementos da matriz de contiguidade espacial entre as variá- veis 𝑧𝑖 e 𝑧𝑗 informando, por exemplo, se elas estão separadas por uma distância inferior a d. 𝜉𝑖𝑗 fornece uma medida de correção entre estas variáveis aleatórias. Os valores obtidos são comparados com os valores que seriam produzidos se não houvesse associação espacial entre as variáveis. Valores significativos dos índices de autocorrelação espacial indicam dependên- cia espacial e, por isso, os modelos inferenciais, nesses casos, devem necessariamente consi- derar o espaço explicitamente. 3.2.2 Inferência Estatística em Dados Espaciais