MIQUEIAS LIMA DUARTE PREVISÃO DA SUSCETIBILIDADE À INCÊNDIOS E QUEIMADAS UTILIZANDO UM MODELO BASEADO EM INTELIGÊNCIA ARTIFICIAL E SISTEMA DE INFERÊNCIA FUZZY Sorocaba 2022 MIQUEIAS LIMA DUARTE PREVISÃO DA SUSCETIBILIDADE À INCÊNDIOS E QUEIMADAS UTILIZANDO UM MODELO BASEADO EM INTELIGÊNCIA ARTIFICIAL E SISTEMA DE INFERÊNCIA FUZZY Tese de doutorado apresentada como requisito para a obtenção do título de Doutor em Ciências Ambientais da Universidade Estadual Paulista “Júlio de Mesquita Filho” na Área de Concentração Diagnóstico, Tratamento e Recuperação Ambiental Orientador: Prof. Dr. Roberto Wagner Lourenço Sorocaba 2022 D812p Duarte, Miqueias Lima Previsão da suscetibilidade à incêndios e queimadas utilizando um modelo baseado em inteligência artificial e sistema de inferência fuzzy / Miqueias Lima Duarte. -- Sorocaba, 2022 130 p. : il., tabs., mapas Tese (doutorado) - Universidade Estadual Paulista (Unesp), Instituto de Ciência e Tecnologia, Sorocaba Orientador: Roberto Wagner Lourenço 1. Sensoriamento Remoto. 2. Método Boruta. 3. Aprendizagem de máquina. 4. lógica fuzzy. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca do Instituto de Ciência e Tecnologia, Sorocaba. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. UNIVERSIDADE ESTADUAL PAULISTA Câmpus de Sorocaba CERTIFICADO DE APROVAÇÃO TÍTULO DA TESE: Previsão da suscetibilidade à incêndios e queimadas utilizando um modelo baseado em inteligência artificial e sistema de inferência fuzzy AUTOR: MIQUEIAS LIMA DUARTE ORIENTADOR: ROBERTO WAGNER LOURENÇO Aprovado como parte das exigências para obtenção do Título de Doutor em CIÊNCIAS AMBIENTAIS, área: Diagnóstico, Tratamento e Recuperação Ambiental pela Comissão Examinadora: Prof. Dr. ROBERTO WAGNER LOURENÇO Departamento de Engenharia Ambiental / Instituto de Ciência e Tecnologia Campus de Sorocaba Unesp Prof. Dr. JOSÉ CARLOS DE SOUZA Departamento de Geografia / Universidade Estadual de Goiás - Campus Minaçu Drª. JOCY ANA PAIXÃO DE SOUSA Universidade Estadual Paulista (Unesp) Prof. Dr. ADMILSON IRIO RIBEIRO Engenharia Ambiental / Unesp - ICT Sorocaba Prof. Dr. Elfany Reis do Nascimento Lopes Universidade Federal do Sul da Bahia (UFSB) - Porto Seguro Sorocaba, 10 de fevereiro de 2022 Instituto de Ciência e Tecnologia - Câmpus de Sorocaba - Av Tres de Março, 511, 18087180, Sorocaba - São Paulo http://www.sorocaba.unesp.br/#!/pos-graduacao/pos-ca/pagina-inicial/CNPJ: 48031918003573. AGRADECIMENTOS Agradeço a Deus por ter me concedido vida, saúde, paz, alegria, motivação e força em continuar caminhando na jornada da vida, sem essa força divina, nenhuma conquista seria possível. A toda minha família, em especial minha mãe, Maria e meu pai Jaílson pelo apoio incondicional, pelo exemplo de vida, educação e incentivo para vencer na vida. A minha esposa Tatiana pelo apoio, paciência e incentivo irrestrito e fundamental durante estes anos, em especial durante a quarentena da Covid-19. Ao meu orientador Prof. Dr. Roberto Wagner Lourenço, pela orientação, ajuda e incentivo que refletiram no meu crescimento pessoal e profissional. Ao Laboratório de Geoprocessamento e Modelagem Matemática Ambiental (LABGEMM) do qual fiz parte nos últimos anos, principalmente aos amigos(as) Jocy, Bruna, Bruna II, Hetiany, Leticia, Camille, Rita, Amazonino. À Giovana pelo suporte técnico. Á Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES - pela concessão de bolsa de estudo. Ao Programa de Pós-Graduação em Ciências Ambientais da UNESP pela oportunidade de cursar o Doutorado. Aos professores integrantes do Programa de Pós-Graduação em Ciências Ambientais da UNESP pelo profissionalismo e alto nível de conhecimento compartilhado nas disciplinas que cursei. Em especial, aos meus amigos e professores da graduação, mestrado e doutorado, e a todos aqueles que de algum modo contribuíram direta ou indiretamente para a consolidação deste trabalho. Muito obrigado. EPÍGRAFE “Não venci todas batalhas que lutei, mas perdi todas que deixei de lutar” Cecília Meireles “O sucesso é ir de fracasso em fracasso sem perder o entusiasmo” Winston Churchill “Pois quanto maior a sabedoria, maior o enfado; e quanto maior o conhecimento, maior o desgosto” Eclesiastes 1:18 RESUMO Os incêndios florestais são eventos globais que causam perdas imensuráveis para o homem e para o meio ambiente. A previsão e mapeamento desses eventos pode ser uma importante medida, uma vez que possibilita desenvolver estratégias com vistas ao controle ou a prevenção. Nesse contexto, esta pesquisa teve por objetivo desenvolver uma metodologia para a previsão da Suscetibilidade à Incêndios e Queimadas (SIQ), a partir de dados de sensoriamento remoto, com uso de um método misto de aprendizagem de máquina, tendo como unidade de pesquisa a bacia hidrográfica do rio Sorocabuçu, no município de Ibiúna/São Paulo, Brasil. Foram utilizadas 14 variáveis potencialmente influenciadoras, sendo quatro fatores climáticos, dois antrópicos, quatro topográficos e quatro fatores relacionados às características da vegetação. Os fatores mais importantes foram selecionados com uso do algoritmo Boruta e, posteriormente, estes foram utilizados para compor um modelo de classificação com uso do Sistema de Inferência Fuzzy Híbrido (HFIS). O sistema foi implementado com base em dados de treinamento (70%) e avaliado com base em dados independentes (30%). Além disso, o sistema também foi implementado em dois períodos climáticos extremos (2020 e 2018). Os resultados obtidos mostraram que os fatores mais importantes estão relacionados às características da vegetação, seguido pelos fatores climáticos e antrópicos. A implementação do sistema HFIS mostrou que a função de associação fuzzy gaussiana com particionamento em cinco valores linguísticos apresentou os melhores ajustes. Considerando o conjunto de dados independentes, o modelo HFIS apresentou bom desempenho na predição para o ano de 2019 (Acurácia de 0,93 e índice Kappa de 0,86), apresentando um valor de AUC de 93,3%, o que representa boa capacidade de replicação do modelo proposto, uma vez que nos períodos climáticos considerados extremos, o modelo apresentou valores de AUC superiores a 90%. A aplicação do modelo HFIS mostrou que em 2019 cerca de 65,93% da área foi classificada com muito baixo e baixo SIQ, enquanto as áreas com maior SIQ foram minoritárias (16,18%) e, apesar disso, é neste último onde ocorrem cerca de 76,69% dos eventos de incêndios e queimadas. Estes resultados confirmam a eficiência do modelo proposto e sua capacidade em modelar problemas não lineares complexos. A implementação do sistema HFIS mostrou-se adequado para a previsão da SIQ, e os resultados obtidos podem ser utilizados para auxiliar os gestores públicos no seu planejamento, com vista à prevenção e mitigação dos eventos. Palavras-chave: Sensoriamento Remoto, Método Boruta, Aprendizagem de máquina, lógica fuzzy. ABSTRACT Forest fires are global events that cause immeasurable losses to man and the environment. The prediction and mapping of these events can be an important measure, since they allow us to develop strategies for either control or prevention. In this context, this research aimed to develop a method for the prediction of Susceptibility to Fires and Burnings (SFB) via remote sensing data, and using a mixed method of machine learning, for which the research unit was the basin of the Sorocabuçu River, in the municipality of Ibiúna, São Paulo, Brazil. We used fourteen variables of potential influence, which were four climatic factors, two anthropic factors, four topographic factors and four factors related to vegetation characteristics. The most important factors were selected using the Boruta algorithm, and these were subsequently used to compose a classification model using the Hybrid Fuzzy Inference System (HFIS). The system was implemented on the basis of training data (70%) and evaluated on the basis of independent data (30%). In addition, the system was implemented in two periods of extreme weather (2020 and 2018). The results showed that the most important factors are related to vegetation characteristics, followed by climatic and anthropic factors. The implementation of the HFIS system showed that the fuzzy Gaussian association function with partitioning in five linguistic values presented the best adjustments. Considering the set of independent data, the HFIS model showed good performance in the prediction for the year 2019 (accuracy of 0.93 and Kappa index of 0.86), and presented an AUC value of 93.3%, which represents good replication capacity for the proposed model, since in the climatic periods that are considered extreme, the model presented AUC values greater than 90%. The application of the HFIS model showed that in 2019 about 65.93% of the area was classified as having very low or low SFB, while the areas with higher SFB were the minority (16.18%) and, despite this, it is in the latter where about 76.69% of the events of fires and burnings occur. These results that confirm the efficiency of the proposed method and its ability to model complex nonlinear problems. The implementation of the HFIS model proved to be adequate for the prediction of SFB, and the results obtained can be used to assist public managers in their planning, with a view to prevention and mitigating events. Keywords: Remote sensing, Boruta method, Machine Learning, Fuzzy logic. LISTA DE FIGURAS Figura 1. Localização da bacia hidrográfica do rio Sorocabuçu. ....................................... 31 Figura 2. Etapas seguidas para identificação e mapeamento das cicatrizes de incêndios. . 35 Figura 3. Mapa índice das Cartas Topográficas utilizadas. ................................................ 42 Figura 4. Fluxograma das etapas seguidas para regularização dos dados. ......................... 47 Figura 5. Mapa de pontos balanceado de ocorrência e não ocorrência de focos de incêndios e queimadas. ........................................................................................................ 50 Figura 6. Algoritmo de seleção de recursos Boruta implementado. .................................. 51 Figura 7. Diagrama esquemático do método HFIS implementado para o mapeamento da suscetibilidade de incêndios e queimadas (SIQ). ................................................................ 53 Figura 8. Matriz de confusão para classificação. ............................................................... 55 Figura 9. Fluxograma da metodologia adotada. ................................................................. 57 Figura 10. Número de focos de incêndios e precipitação anual (a) e média mensal (b) observado entre 2002 a 2020 na bacia hidrográfica do rio Sorocabuçu. ............................. 58 Figura 11. Padrões temporais do SPI (a) e de focos de incêndio (b) padronizado (z-score) para a série histórica entre 2002 a 2020. ............................................................................. 60 Figura 12. Semivariograma ajustado para a precipitação (a), umidade do ar (b), temperatura (c) e umidade do solo (d). ................................................................................ 62 Figura 13. Mapas dos valores médios da precipitação (a), umidade do ar (b), temperatura (c) e umidade do solo (d). .................................................................................................... 63 Figura 14. Mapa hipsométrico (a), declividade (b), orientação de vertentes (c) e TWI (d). ............................................................................................................................................. 65 Figura 15. Mapa de cobertura e uso da terra (a), NDVI (a), NDWI (b) e SAVI (c) para o ano de 2019. ......................................................................................................................... 67 Figura 16. Mapa de distância (a) e densidade de rodovias (b) na área de estudo. ............. 69 Figura 17. Exemplo de áreas identificadas como cicatrizes de incêndios e queimadas em 2019. .................................................................................................................................... 71 Figura 18. Interseção entre focos de incêndios e queimadas e classes de uso e ocupação do solo. ..................................................................................................................................... 72 Figura 19. Gráficos boxplot e valores do teste Wilconxon para os atributos avaliados em áreas de ocorrência e não ocorrência de incêndios e queimadas. ........................................ 73 Figura 20. Correlação de Pearson entre as variáveis potenciais de previsão de incêndios e queimadas. ........................................................................................................................... 75 Figura 21. Importância relativa das variáveis potenciais para explicação dos eventos pelo método Boruta. .................................................................................................................... 77 Figura 22. Valores linguísticos adotado para as variáveis de entrada. ............................... 79 Figura 23. Curva ROC e AUC para os dados de treinamento (a) e teste (b) para previsão de ocorrência de incêndios e queimadas.............................................................................. 81 Figura 24. Mapa de SIQ obtido pelo método HFIS para o ano de 2019. ........................... 83 Figura 25. SIQ obtido pelo método HFIS para as sub-bacias do rio Sorocabuçu. ............. 85 Figura 26. Curva ROC e AUC para os dados de treinamento e teste para previsão de ocorrência de incêndios e queimadas. ................................................................................. 88 Figura 27. Mapa de SIQ obtido pelo método HFIS para os anos de 2018 (a) e 2020 (b). . 89 LISTA DE TABELAS Tabela 1. Características dos satélites e sensores utilizados no monitoramento de focos de calor. .................................................................................................................................... 33 Tabela 2. Principais características de dados de umidade do solo estimadas pelo SMAP/Sentinel. ................................................................................................................... 39 Tabela 3. Características principais e bandas do Sentinel-2. .............................................. 40 Tabela 4. Classes de uso da terra na área............................................................................ 44 Tabela 5. Descrição das características gerais do conjunto de variáveis utilizadas. .......... 48 Tabela 6. Classes do Índice Padronizado de Precipitação. ................................................. 56 Tabela 7. Estatística descritiva e geoestatística para as variáveis regularizadas. ............... 61 Tabela 8. Resultado do algoritmo Boruta para selecionar os fatores mais importantes com potencial de explicação dos eventos de incêndios e queimadas. ......................................... 76 Tabela 9. Métricas de desempenho para os dados de treinamento e teste. ......................... 82 Tabela 10. Área e número de focos de incêndios e queimadas por classe de Suscetibilidade de Incêndios e Queimadas-SIQ em 2019. ........................................................................... 84 Tabela 11. Área e número de focos de incêndios e queimadas por classe de SIQ nas sub- bacias. .................................................................................................................................. 86 Tabela 12. Métricas de desempenho para os dados de treinamento e teste. ....................... 88 Tabela 13. Área (hectares e percentual) e número de focos por classe de Suscetibilidade de Incêndios e Queimadas-SIQ para os anos de 2018 e 2020. ................................................. 89 LISTA DE ABREVIATURAS E SIGLAS ACC – Acurácia AUC - Area Under the Curve CF - Certeza Fuzzy CIIAGRO - Centro Integrado de Informações Agrometeorológicas DAAC - Distributed Active Archive Center FAO - Food and Agriculture Organization FLDAS - Famine Land Data Assimilation System FN - Falso Negativo FP - Falso Positivo GAM - Modelos Aditivos Generalizados GDE - Grau de Dependência Espacial GPM - Global Precipitation Measurement HFIS - Sistema de Inferência Fuzzy Híbrido IBGE – Instituto Brasileiro de Geografia e Estatística ICMBio - Instituto Chico Mendes de Conservação da Biodiversidade IG - Information Gain IGC - Instituto Geográfico e Cartográfico INPE – Instituto Nacional de Pesquisas Espaciais IR - Importância Relativa KO - Krigagem Ordinária MCUT - Mapeamento de Cobertura e Uso da Terra MDE - Modelo Digital de Elevação MODIS - Moderate-Resolution Imaging Spectroradiometer NASA - Administração Nacional da Aeronáutica e Espaço NB - Naive Bayes NBR - Normalized Burn Ratio NDVI – Índice de vegetação por Diferença Normalizada NDWI - Índice de Água por Diferença Normalizada NIR – Infravermelho Próximo ORQ - Ordered Quantile OSM - OpenStreetMap PMCRMAI - Plano Municipal de Conservação e Recuperação da Mata Atlântica do Município de Ibiúna RF - Random Forest RGB – Red Green Blue RMSE - Root-Mean-Square Error RNA - Redes Neurais Artificiais ROC - Receiver-Operating Characteristic SAVI - Soil Adjusted Vegetation Index SIG – Sistema de Informação de Geográfica SIQ - Suscetibilidade de Incêndios e Queimadas SMAP - Soil Moisture Active Passive SPF - Especificidade SPI - Standardized Precipitation Index SR – Sensoriamento Remoto SST – Sensitividade SVM - Suporte Vetor Machines SWIR – Infravermelho de Ondas Curtas TIN - Triangulated Irregular Network TWI - Topographic Wetness Index USGS - United States Geological Survey UTM - Universal Transversa de Mercator VN - Verdadeiro Negativo VP - Verdadeiro Positivo WMS - Web Map Service Sumário 1. INTRODUÇÃO .......................................................................................................................... 15 2. JUSTIFICATIVA ....................................................................................................................... 17 3. OBJETIVOS ............................................................................................................................... 18 4. REVISÃO BIBLIOGRÁFICA .................................................................................................. 19 4.1. QUEIMADAS E INCÊNDIOS ..................................................................................................... 19 4.2. RISCO E PERIGO DE INCÊNDIOS.............................................................................................. 19 4.2. FATORES INFLUENCIADORES ................................................................................................. 21 4.4.1. Aspectos climáticos ....................................................................................................... 21 4.2.2. Aspectos antrópicos ....................................................................................................... 22 4.2.3. Fatores topográficos ..................................................................................................... 23 4.2.4. Características da vegetação ........................................................................................ 24 4.3. SENSORIAMENTO REMOTO E SIG APLICADO À DETECÇÃO DE INCÊNDIOS E QUEIMADAS .... 25 4.4. TÉCNICAS DE MACHINE LEARNING APLICADO AO MAPEAMENTO DA SIQ ........................... 27 4.5. SELEÇÃO DE ATRIBUTOS RELEVANTES ................................................................................. 29 5. MATERIAIS E MÉTODOS ...................................................................................................... 31 5.1. CARACTERIZAÇÃO DA ÁREA DE ESTUDO .............................................................................. 31 5.2. IDENTIFICAÇÃO DE FOCOS DE INCÊNDIOS E QUEIMADAS E MAPEAMENTO DE CICATRIZES .. 32 5.3. AQUISIÇÃO E PROCESSAMENTO DE DADOS ........................................................................... 35 5.3.1. Precipitação .................................................................................................................. 36 5.3.2. Temperatura próximo a superfície (LST) ...................................................................... 37 5.3.3. Umidade do ar ............................................................................................................... 37 5.3.4. Umidade do solo ............................................................................................................ 38 5.3.5. Índices de vegetação ...................................................................................................... 40 5.3.6. Dados planialtimétricos ................................................................................................ 42 5.3.7. Cobertura e Uso da Terra ............................................................................................. 44 5.4. REGULARIZAÇÃO DE DADOS DE ENTRADA ............................................................................ 45 5.5. PREVISÃO DA SUSCETIBILIDADE DE INCÊNDIO E QUEIMADAS ............................................. 48 5.6. ANÁLISE DE QUALIDADE DOS MODELOS ............................................................................... 54 6. RESULTADOS E DISCUSSÃO ............................................................................................... 58 6.2. SAZONALIDADE DE INCÊNDIOS E QUEIMADAS ...................................................................... 58 6.3. DESCRIÇÃO DAS VARIÁVEIS DE ENTRADA ............................................................................ 61 6.4. ANÁLISE EXPLORATÓRIA DOS DADOS ................................................................................... 70 6.5. IMPORTÂNCIA DAS VARIÁVEIS .............................................................................................. 74 6.6. PREVISÃO DA SUSCETIBILIDADE DE INCÊNDIOS E QUEIMADAS (SQI) ................................. 78 7. CONCLUSÕES E RECOMENDAÇÕES ................................................................................ 91 REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................... 94 ANEXOS ....................................................................................................................................... 109 15 1. INTRODUÇÃO Os problemas causados por incêndios e queimadas são imensuráveis. Além de danos econômicos e os problemas relacionados à saúde pública que são comumente observados de imediato, esses eventos também contribuem com alterações no clima e ambiente em função de grandes quantidades de CO2 que são emitidos para atmosfera, contribuindo com o aumento do efeito estufa, distúrbios ecológicos, o que tem afetado o ciclo hidrológico, e o aumento da erosão do solo (MACHADO; LOPES, 2014; ARAGÃO et al., 2018; VENKATESH et al., 2020). No passado, a ocorrência de incêndios e queimadas esteve naturalmente relacionada a flutuações climáticas, tais como alterações na temperatura e precipitação. Nas últimas décadas, a atuação antrópica causou grandes mudanças no regime desses eventos (CHUVIECO et al., 2019), pois as alterações no uso e ocupação do solo associado às mudanças climáticas podem aumentar sua frequência e a gravidade (AQUILUÉ et al., 2020). Entretanto, a compreensão de sua distribuição espacial e temporal não é trivial (MACHADO; LOPES, 2014), pois inclui um conjunto de fatores dinâmicos, tais como a precipitação, temperatura, umidade do ar, uso e ocupação da terra (ARAGÃO et al. 2018; MOTA et al., 2019; POURGHASEMI et al., 2020). Os dados da Fire Information for Resource Management System - FIRMS indicam que entre 2000 a 2018 ocorreram cerca de 7,27 milhões de focos de incêndio e queimadas na América do Sul (NASA, 2020). No Brasil, o número de focos de incêndio e queimadas aumentaram significativamente nos últimos anos devido a uma série de fatores, tais como o desmatamento, atividades agropastoris e queima descontrolada (CAÚLA et al., 2015; BARLOW et al., 2019). Assim como na Amazônia e Cerrado, o bioma Mata Atlântica também experimentou um aumento (cerca de 60%) no número de incêndios e queimadas na última década (INPE, 2020). Para o gerenciamento efetivo desses eventos, é necessário um planejamento centralizado que envolvem diversas ações, dentre os quais o mapeamento da suscetibilidade e risco de incêndio e queimadas é um passo importante, pois podem ser utilizados para a prevenção e o gerenciamento de áreas críticas (EUGENIO, 2016; NÓBREGA et al., 2018), além de servir de base para o desenvolvimento de sistemas de alerta de incêndio com maior precisão, bem como para o desenvolvimento de um programa institucional consistente (ADAB et al., 2013; WHITE et al, 2016; BARLOW et al, 2019). Os métodos usualmente utilizados para o mapeamento da suscetibilidade e risco de incêndios e queimadas descritos na literatura incluem a integração de dados de 16 Sensoriamento Remoto e técnicas estatísticas em Sistema de Informações Geográficas-SIG (JAISWAL et al., 2002; ADAB et al., 2013; MOTA et al., 2019; POURGHASEM et al., 2020). Esses métodos, apesar de serem muito efetivos, exigem uma grande quantidade de variáveis de entrada que em muitos casos nem sempre estão disponíveis ou são de difícil aquisição, além de possuírem graus subjetivos de importância que normalmente são dependentes do contexto geográfico em que são utilizados (CARMO et al., 2011; GRALEWICZ et al., 2012). Na última década, os métodos de aprendizagem de máquina acompanhado pelo avanço tecnológico do sensoriamento remoto (ADIRI et al., 2020), tem sido utilizado com sucesso para previsão de suscetibilidade e riscos naturais, tais como deslizamentos de terra, inundações, apresentando resultados promissores e mostrando o potencial que essas abordagens podem oferecer nas aplicações de mapeamento de incêndios e queimadas, já que provou seu potencial em outros zoneamentos de suscetibilidade (TERMEH et al., 2018; CAO et al., 2020; NAPOLI et al., 2020; JAIN et al., 2020). Entretanto, como a modelagem de incêndios e queimadas requer a coleta de fatores influenciadores que possuem diferentes resoluções espaço/temporal, tais como aspectos climáticos, topográficos, antrópicos e uso da terra (POURGHASEM et al., 2020), neste caso, a dificuldade é trabalhar com as incertezas e imprecisões dos dados (BUI et al., 2017). Como resultado, esses modelos têm dificuldade em processar dados com imprecisões de informações em SIG devido a discrepâncias espaciais decorrentes de diferentes resoluções (BUI et al., 2017; MOAYEDI et al., 2020). Dessa forma, o desenvolvimento de novos modelos que possibilitem lidar com incertezas e imprecisões, melhorando a capacidade da previsão de incêndios e queimadas são necessários. Partindo desse pressuposto, essa pesquisa tem por premissa que é possível prever áreas com suscetibilidade de incêndios e queimadas de forma contínua dentro de um território, a partir de um modelo derivado de dados obtidos por sensoriamento remoto e técnicas de geoprocessamento, com uso de um sistema de inferência fuzzy integrado a aprendizagem de máquina. 17 2. JUSTIFICATIVA A ocorrência de incêndios e queimadas no bioma Mata Atlântica tornou-se comum e crescente nas últimas décadas (MENEZES et al., 2017; LOPES et al., 2018; GUEDES et al., 2020; SOUSA, 2021; INPE, 2021). Esses eventos causam perdas econômicas e emitem grandes quantidades de CO2 para atmosfera, contribuindo com o aumento do efeito estufa (ARAGÃO et al., 2018; VENKATESH et al., 2020), e com a fragmentação de habitats, constituindo um dos principais causadores do declínio da biodiversidade (LOPES et al., 2018; DRISCOLL et al., 2021; SOUSA, 2021). Nesse contexto, o conhecimento prévio da suscetibilidade e risco de incêndios e queimadas é de fundamental importância, pois possibilita direcionar medidas de gerenciamento em áreas mais suscetíveis, auxiliar na gestão e alocação de equipes de brigadistas, bem como propor práticas de manejo do solo e organização territorial, com vistas a minimizar os danos, caso esses eventos ocorram (WHITE et al., 2016; CORRÊA, 2020; TONINI et al., 2020). Dessa forma, esta pesquisa propõe um método para previsão da suscetibilidade de incêndios e queimadas que leva em consideração os fatores influenciadores intrínsecos da região, esses dados são processados com base em técnicas de geoprocessamento, em seguida, a previsão da suscetibilidade de incêndios e queimadas é realizada com emprego de um Sistema de Inferência Fuzzy Híbrido (HFIS). A integração de inteligência artificial e lógica fuzzy possibilita aprender os padrões do conjunto de dados, e ao mesmo tempo, lidar com a complexidade e subjetividade em que são intrínsecos (LOURENÇO et al., 2015; BRESSANE et al., 2020; LOPES et al., 2021). Os resultados obtidos são apresentados em forma de mapas que podem subsidiar o manejo constante de medidas de fiscalização nos locais mais suscetíveis. A definição de uma bacia hidrográfica como unidade de pesquisa deu-se em função de serem unidades básicas de planejamento do uso, da conservação e da recuperação dos recursos naturais, considerada unidade de conservação e planejamento ambiental, conforme definido pela Lei Federal n° 9.433/97. Dessa forma, a bacia do rio Sorocabuçu foi escolhida por fazer parte da Área de Proteção Ambiental Itupararanga (APA Itupararanga), que por sua vez, foi criada com objetivo principal de preservar, conservar e recuperar os recursos naturais, em especial os recursos hídricos e remanescentes florestais (BERNADI et al., 2020). Entretanto, essa unidade apresenta uma intensificação de uso antrópico nos últimos anos, causando a fragmentação florestal, bem como ocorrência de incêndios e queimadas (LOPES et al., 2021; SOUSA, 2021; TAKIKAWA, 2021). 18 3. OBJETIVOS 3.1. Geral Desenvolver uma metodologia para a previsão de áreas com suscetibilidade a incêndios e queimadas, a partir de técnicas de aprendizagem de máquina, lógica fuzzy e dados de sensoriamento remoto, na Bacia Hidrográfica do Rio Sorocabuçu. 3.2. Específicos ▪ Determinar as variáveis potencialmente explicativas de incêndios e queimadas com base em dados de Sensoriamento Remoto; ▪ Identificar as variáveis mais relevantes para a previsão da suscetibilidade de incêndios e queimadas; ▪ Implementar um sistema de Inferência Fuzzy Híbrido (HFIS) para prever a suscetibilidade de incêndios e queimadas na área de estudo; ▪ Mapear a suscetibilidade de incêndios e queimadas na área de estudo com base no modelo HFIS ajustado. 19 4. REVISÃO BIBLIOGRÁFICA 4.1. Queimadas e incêndios No que se refere a classificação dos eventos com presença de fogo em áreas rurais e/ou terrenos baldios no perímetro urbano, existem duas definições distintas na literatura as quais podem se enquadrar: as queimadas e os incêndios. Essas definições são encontradas de forma ampla na literatura, e em alguns casos utilizadas de forma generalizada. De acordo com Manual para Formação de Brigadista de Prevenção e Combate aos Incêndios Florestais do Instituto Chico Mendes de Conservação da Biodiversidade (ICMBio, 2010), o termo queimada controlada pode ser entendido como sendo uma prática agrícola ou florestal que utiliza o fogo de forma racional, isto é, com o controle de sua intensidade e limitado a uma área predeterminada; o termo incêndio florestal (também utilizado para definir incêndios em outros tipos de vegetação tais como capoeiras, campos e pradarias) é entendido como sendo a ocorrência de fogo sem controle que incide sobre qualquer forma de vegetação, podendo ser provocado de forma natural, intencional ou por negligência. Dessa forma, o termo incêndio pode ser entendido como sendo a ocorrência de queima não controlada, eventos que fazem parte da temática dos desastres naturais que ocorrem nas escalas local e regional, e podem ser originadas de forma natural (por meio de raios), acidental (fogos de artifício, estradas de ferro, fogueira de acampamento, queda de balões, rompimentos de cabos de alta tensão, dentre outros) ou criminosa (ANDRADE; FERREIRA, 2019; BERLINCK; BATISTA, 2020). Por outro lado, as queimadas são associadas a práticas de manejo, ou seja, práticas de queima controlada realizadas pela ação antrópica (DIAS, 2009; SALES et al., 2019). De todo modo, é conhecido que em ambos os casos ocorrem danos à biodiversidade, modificação da paisagem, afetando diretamente o equilíbrio dos ecossistemas (COSTAFREDA-AUMEDES et al., 2017; LOPES et al., 2018), além de emitir grandes quantidade de gás carbônico (CO2) para a atmosfera, contribuindo para as mudanças climáticas (BERLINCK; BATISTA, 2020; VENKATESH et al., 2020). 4.2. Risco e perigo de incêndios O termo risco e perigo muitas vezes são tratados como sinônimos no Brasil, entretanto, possuem significados distintos (CORRÊA, 2020). Para diferenciá-los, este estudo toma como base as definições adotadas pelo manual de terminologia sobre Redução de Riscos e Desastres da United Nations Organization - ONU (ISDR, 2009), e o Guia para 20 Gerenciamento de Incêndios da Food and Agriculture Organization of the United Nations (FAO, 2009). Segundo a definição do ISDR (2009), o termo perigo pode ser entendido como um fenômeno, evento ou atividade humana potencialmente danosa que pode causar perda de vidas, ferimentos ou outros impactos à saúde, danos materiais, perdas de meios de subsistência e serviços, perturbação social e econômica ou dano ambiental. Por outro lado, risco é definido como sendo a combinação da probabilidade de que um evento possa ocorrer e suas consequências negativas associadas. Para a FAO (2009), o termo perigo de incêndio é entendido como sendo a presença de material combustível que, através de sua natureza, localização, condição de arranjo, ou qualquer combinação desses fatores, pode ser queimado e, caso ocorra, pode criar um risco a vida humana, propriedade/benfeitorias e ao ambiente. Já o risco de incêndio é definido como sendo uma real ou potencial probabilidade de ocorrência de incêndio, ou outra combustão orgânica ou inorgânica de materiais que pode pôr em perigo a vida humana, propriedade/benfeitorias e o ambiente. Em termos gerais, o perigo de incêndio é utilizado especificamente para representar a predisposição/suscetibilidade que uma determinada área possui para ocorrência desse evento (HARDY, 2005; MICHAEL et al., 2021), enquanto o risco de incêndio refere-se a chance/probabilidade de um incêndio ocorrer em função da sua predisposição (FINNEY, 2005; CORRÊA, 2020; POURGHASEMI et al., 2020). Dessa forma, Corrêa (2020) cita que a incidência espacial do perigo é representada pela suscetibilidade, sendo avaliado através da predisposição para ocorrência dos processos ou ações, de forma a indicar a propensão de uma área a determinado evento perigoso, ou seja, a ocorrência de incêndios e queimadas. O mapeamento da suscetibilidade de incêndios e queimadas (SIQ) possibilita identificar os locais com predisposição de ocorrência do evento, permitindo direcionar medidas de gerenciamento estruturais, tais como a construção de aceiros preventivos, construção de estradas de acesso em pontos estratégicos, reorganização de práticas de manejo do solo, delineamento de áreas prioritárias para a intensificação de fiscalização, alocação de equipes de brigadistas, bem como a organização de ações no combate (RIBEIRO et al., 2012; SILVEIRA et al., 2013; WHITE et al., 2016). 21 4.2. Fatores influenciadores A ocorrência e disseminação espacial de incêndios e queimadas é um processo não linear e complexo impulsionada pela interação de processos bióticos e abióticos que são dependentes da escala geográfica (CHUVIECO et al., 2019). Aponte et al. (2016) e Bui et al. (2017) descrevem que a ocorrência e distribuição desses eventos são influenciados por quatro fatores principais, sendo eles: aspectos climáticos e antrópicos, fatores topográficos e características da vegetação. A seguir, é apresentado uma descrição dos principais aspectos influenciadores de incêndios e queimadas citados na literatura. 4.4.1. Aspectos climáticos Os aspectos climáticos são reconhecidos como o principal determinante dos padrões do regime de incêndios e queimadas (MARLON et al., 2013), não por acaso que o relatório do Painel Intergovernamental sobre Mudanças Climáticas (IPCC, 2018) sugere que até 2040 as mudanças climáticas irão aumentar a frequência e severidade dos incêndios e queimadas em todo o mundo, principalmente devido ao aumento na temperatura associado a oscilações nas taxas de precipitação, fatores importantes no comportamento do fogo. Os fatores climáticos são importantes pois determinam a umidade do combustível morto (serapilheira, gramíneas secas e material lenhoso não vivo), que por sua vez irá representar o potencial de ignição e propagação do fogo. As condições que influenciam na umidade do combustível incluem a temperatura, precipitação, velocidade do vento, umidade do ar e umidade do solo (MARLON et al., 2013). De modo geral, a temperatura, precipitação e a umidade do ar podem afetar de forma direta a umidade do combustível, aumentando sua inflamabilidade, e a longo prazo, influenciam diretamente a disponibilidade da vegetação, estágios fenológicos e estresse hídrico (CHUVIECO et al., 2019; POURGHASEMI et al., 2020; VENKATESH et al. 2020), e da mesma forma, a umidade do solo que regula a umidade da vegetação em longo prazo (RAKHMATULINA et al., 2021). A relação entre esses parâmetros também é notória, por exemplo: a velocidade do vento influencia diretamente na propagação do fogo, além de modular a umidade do combustível de forma indiretamente por meio da evaporação do vapor de água (DONG et al., 2021), e com uma menor umidade do ar pode ocasionar o déficit de formação de nuvens, favorecendo uma maior incidência da radiação solar na superfície, e consequentemente, elevando a temperatura (MACHADO et al., 2014). 22 A sazonalidade também é um fator importante. Períodos de seca prolongadas, por exemplo, possuem forte correlação com incêndios e queimadas, porém, se a precipitação for uniforme durante o ano, sem uma estação seca bem definida, a suscetibilidade de incêndios é menor (FLANNIGAN et al., 2013; HANES et al., 2020), fazendo com que a precipitação seja um fator fundamental na identificação do início e término da estação de incêndios (FERREIRA, 2017). Chen et al. (2014) citam que as variações climáticas de longo prazo (escala decenal ou mais longas) podem ter grandes impactos sobre os tipos de cargas de combustíveis (produção e armazenamento de biomassa), e as variações climáticas interanuais provavelmente influenciam os regimes de incêndios através de seus efeitos na dessecação da vegetação. Em suma, a variabilidade climática influencia diretamente na ocorrência de incêndios e queimadas, visto que regula a disponibilidade de água no sistema solo/planta/atmosfera, fatores determinantes da acumulação e predisposição de material que pode ser queimado (ANDRADE et al., 2020; ABRAM et al., 2021). 4.2.2. Aspectos antrópicos De fato, as atividades humanas são um dos fatores básicos que afetam as ocorrências de incêndios, e a intensificação dessas atividades propicia uma maior possibilidade de ignição, seja acidental ou criminosa, o que configura maior risco de incêndio (ADAB et al., 2013). Dentre os aspectos antrópicos citados na literatura, podemos destacar a distância e densidade de rodovias e estradas vicinais e a densidade populacional. Estudos apontam que regiões próximas à atividades humanas, como estradas e assentamentos apresentam alto risco a incêndios (CAÚLA et al., 2015; NÓBREGA et al., 2018; VENKATESH et al., 2020). Entretanto, Marlon et al. (2013), descrevem que, de forma global, existe uma tendência de incêndios mais frequente em níveis intermediários de densidade populacional, ao passo que a ocorrência desses eventos é mais rara em áreas densamente povoadas (áreas urbanas) visto que a vegetação é mais limitada, com paisagem altamente fragmentada, e em áreas com baixa densidade populacional em função de condições climáticas adversas e baixa cobertura vegetal (áreas desérticas e polares), por outro lado, observa-se um aumento em 10% a 20% na frequência de incêndios apenas para áreas com até 0,1 pessoas por km² (KNORR et al., 2014). A densidade de rodovias e estradas vicinais, por sua vez, apresentam importante contribuição na ocorrência de incêndios em áreas com baixa acessibilidade como na região 23 Amazônica, pois contribuem na acessibilidade da área, abertura de novas áreas de exploração agropastoril e retirada de madeira, o que facilita a ocorrência de incêndios (RIBEIRO et al., 2012). Nessa região, o desmatamento-fogo ativo é correlacionado (ARAGÃO et al., 2018), o que contribui para que a densidade de rodovias apresente relação com os focos de incêndios (JÚNIOR et al., 2019; MOTA et al., 2019). Entretanto, com a dissociação do desmatamento-fogo ativo (ARAGÃO et al., 2018) é provável que a relação incêndios/queimadas/densidade de rodovias torne-se não linear, assim como observado por Zumbrunnen et al. (2011), ou seja, o aumento no número de habitantes e a expansão de áreas urbanizadas, e maior densidade de rodovias e estradas vicinais não necessariamente podem resultar em mais ocorrência de incêndios e queimadas, exceto se o aumento populacional e densidade de rodovias se der em áreas menos habitadas (ZUMBRUNNEN et al., 2011; TORRES et al., 2017). 4.2.3. Fatores topográficos As características da topografia representadas pela altitude, declividade e exposição, constituem um dos fatores importantes, pois conseguem modular aspectos da região, como as condições meteorológicas médias e a variabilidade espaço-temporal de aspectos climáticos, tais como a temperatura do ar, precipitação e radiação solar (CAÚLA et al., 2015; LEUENBERGER et al., 2018). Esses fatores controlam o ciclo de vida da cobertura vegetal e do uso e ocupações do solo, e consequentemente, possuindo influência na incidência de incêndios e queimadas (PARENTE; PEREIRA, 2016). A elevação, por exemplo, é uma variável fisiográfica crucial que modula a temperatura, umidade e velocidade do vento, tendo papel importante na propagação de incêndios, pois esse fator influencia na estrutura da vegetação, a umidade do combustível e umidade do ar (ADAB et al., 2013), já a declividade influencia a taxa de propagação do fogo, sendo que os incêndios se movem mais rapidamente para cima, e menos rapidamente para baixo (WHITE et al., 2016), e também tendem a ocorrem mais rapidamente em relevos mais ondulados do que aqueles com menor declividade (ADAB et al., 2013; CAMARGO et al., 2019). A orientação do terreno refere-se à direção para a qual as encostas do terreno estão voltadas. Este fator influencia na radiação solar incidente no terreno, e por consequência, interfere na umidade do solo, temperatura do ar e velocidade do vento, pois quanto mais direta é a incidência de radiação solar, maior será a temperatura do ar e menor a umidade, 24 influenciando diretamente no tipo e ressecamento do material vegetal que pode ser queimado (WHITE et al., 2016; EUGENIO et al., 2016; VENKATESH et al., 2020). O Índice de umidade topográfico (Topographic Wetness Index-TWI) também é um indicador citado na literatura que pode ser associado a ocorrência de incêndios, ele refere-se à tendência de água que se acumula na bacia hidrográfica devido à força gravitacional que move a água a jusante. Dessa forma, valores mais elevados de TWI indicam maior formação de fluxo de água na superfície e, consequentemente, maior saturação nestes ambientes (LEI et al., 2016; NÓBREGA et al., 2018). 4.2.4. Características da vegetação A dinâmica de uso e ocupação do solo também podem afetar a frequência e severidade dos incêndios e queimadas de uma região (MARLON et al., 2013), pois transformam os elementos da paisagem, alterando a disponibilidade da massa vegetal, grau de ressecamento, e consequentemente, sua inflamabilidade (FONSECA et al., 2019; GOMES et al., 2020). Um levantamento histórico desenvolvido por Badia et al. (2019) na Catalunha- Espanha mostraram que os incêndios ocorreram exclusivamente onde houve alteração da cobertura florestal, sendo que o ponto de ignição estava associado aos campos agrícolas. No bioma Cerrado no Brasil, Gomes et al. (2020) observaram que a taxa de propagação de incêndios, sua intensidade, calor liberado e consumo de combustível fino foram maiores em áreas ocupadas por pastagens e savanas do que em áreas ocupadas por floresta. De modo geral, a estrutura da paisagem e a forma com que os padrões de uso e ocupação da terra se organizam interferem na frequência e severidade dos incêndios, pois, além de refletir a carga de combustível disponível que pode ser queimada, a cobertura vegetal exerce influência no microclima local (AQUILUÉ et al., 2020). Em áreas naturais, como uma floresta densa ocorre a interceptação da radiação solar, o que reduz a temperatura do ar e do material combustível, além de servir como uma barreira, reduzindo a velocidade do vento em seu interior, diminuindo as taxas de evaporação, e consequentemente, dificultando a secagem do material combustível (NUNES et al., 2008; GOMES et al., 2020). Por outro lado, em áreas antropizadas, além de ocorrer a remodelagem de forma contínua da carga de combustível, as taxas de evaporação, temperatura de superfície são alteradas, e por consequência, a suscetibilidade de incêndio (AQUILUÉ et al., 2020; GOMES et al., 2020). 25 Dessa forma, em estudos relacionados à suscetibilidade de incêndios e queimadas, é comum o uso de índices de vegetação para a análise do teor de umidade do combustível, bem como mapas de uso e cobertura da terra que possibilitam avaliar as alterações da cobertura vegetal, fatores potencialmente explicativos da ocorrência de incêndios e queimadas (CHUVIECO et al., 2019; POURGHASEMI et al., 2020). 4.3. Sensoriamento Remoto e SIG aplicado à detecção de incêndios e queimadas Na literatura, existe uma descrição de várias formas de detectar/monitorar incêndios e queimadas, tais como por meio de postos de observação, vigilância terrestre, patrulhamento aéreo e/ou monitoramento por imagens de sensoriamento remoto. Entretanto, em áreas de grande extensão territorial, algumas dessas técnicas se tornam inviáveis (SZPAKOWSKI; JENSEN 2019; BARMPOUTIS et al., 2020). Devido a capacidade de obtenção de informações de forma remota (sensores acoplados em aeronaves ou satélites), o sensoriamento remoto constitui uma vantagem sobre as demais técnicas. Dessa forma, com seu advento, o uso de imagens obtidas por sensoriamento remoto passou a representar uma das formas mais viáveis para o monitoramento de incêndios e queimadas, devido sua rapidez, eficiência, periodicidade, baixo custo e uma visão de diversos aspectos, possibilitando o monitoramento em diversas escalas (BARMPOUTIS et al., 2020). Segundo Szpakowski e Jensen (2019), a utilização de imagens obtidas por sensoriamento remoto possibilita detectar focos de incêndio ativo, bem como estimar a área queimada e sua severidade, além do mapeamento do material combustível e demais características da superfície terrestre, viabilizando o desenvolvimento de estudos mais específicos, como o mapeamento da suscetibilidade e a previsão do risco de incêndios. Como os eventos de incêndios e queimadas produzem uma elevação de temperatura acima do normal observado no ambiente, esses eventos podem ser detectados por sensores remotos. Segundo Chuvieco et al. (2020), várias bandas do espectro eletromagnético possibilitam uma diferenciação entre um ponto quente (incêndio) e um ponto frio circundante em imagens, dessa forma, para detecção desses eventos comumente são utilizadas as bandas do infravermelho médio e térmicas. O Programa Queimadas do Instituto Nacional de Pesquisas Espaciais-INPE, utiliza sensores que operam na faixa do infravermelho (0,75 a 1.000 µm) para detecção de incêndios e queimadas. O INPE denomina esses eventos como “focos de calor”, sendo detectados pela 26 quantificação de energia (de fótons) que chega até o sensor (temperatura de brilho), obtidas a partir da irradiância espectral (INPE, 2021), possibilitando detectar os focos de calor ativo. Para fins de simplificação, neste estudo adotou-se o termo “incêndios e queimadas” para os casos da ocorrência de focos de calor identificados a partir de sensores remotos provenientes dos dados disponibilizados pela base do INPE, dado que, ao menos a priori, não é possível identificar a fonte causadora de ignição. Trabalhos de validação de campo realizados pelo INPE indicam que os satélites em órbita polar (NOAA, TERRA e AQUA) utilizados no programa DBQueimadas possibilitam detectar uma frente de fogo com área superior a 30 m², já os satélites geoestacionários (GOES e MSG-3), a frente de fogo precisa ter o dobro de tamanho para ser detectado, enquanto os satélites mais recentes (NPP-SOUMI e NOAA-20) conseguem detectar áreas bem menores (INPE, 2021). Vale ressaltar que a relação foco de calor/queimada não é direta, pois a existência de um foco de calor indica o evento em um pixel, que por sua vez, varia em função do satélite (que pode variar de 375x375 m até 5x4 km), ou seja, neste pixel pode haver uma ou várias ocorrências de queimadas ou incêndios ativo distintas, mesmo assim, será detectado um único foco de calor em função da limitação de resolução (INPE, 2021). Dessa forma, mapear a área de queimada e sua severidade é de suma importância, pois fornecem uma representação espacial precisa da extensão e perímetro do incêndio, bem como sua severidade (SZPAKOWSKI; JENSEN, 2019; CHUVIECO et al., 2020). Segundo Chuvieco et al. (2020), existem vários métodos para o mapeamento de área queimada, esses métodos se baseiam na análise das alterações de refletância causada pelo incêndio, tais como o GEMI‐Burn scar (Global Environment Monitoring Index Burn scar), NBR (Normalized Burn Ratio) que avaliam a proporção de refletância do infravermelho próximo e infravermelho de ondas curtas. Os dados obtidos por sensores remotos são processados com uso de Sistemas de Informações Geográficas (SIG). O SIG é um instrumento bastante adequado para a gestão desses eventos, pois permite capturar, armazenar, editar, consultar e analisar dados espacialmente georreferenciados, de modo que possibilita a integração de diferentes bases de dados, bem como a realização de modelagem espaço-temporal, além do mais, os SIGs podem ser utilizados para geração de mapas estratégicos para auxiliar no combate de incêndios, bem como para geração de mapas de risco de incêndios, indicando as regiões com maiores probabilidade de ocorrência dos eventos, permitindo respostas imediatas que otimizam os resultados de ações (CORRÊA, 2020; CHUVIECO et al., 2020). 27 4.4. Técnicas de Machine Learning aplicado ao mapeamento da SIQ A possibilidade de prever quais áreas são suscetíveis a um determinado tipo de desastre, incluindo deslizamentos de terra, alagamentos ou incêndios florestais é imprescindível para gestão desses eventos. Dessa forma, vários métodos para modelar espacialmente a ocorrência desses desastres foram desenvolvidos nas últimas décadas (SACHDEVA et al., 2018; CHUVIECO et al., 2019; POURGHASEMI et al., 2020). Estimar a probabilidade de ocorrência de incêndios e queimadas em uma área sob determinadas condições ambientais e antrópicas é uma ferramenta moderna para apoiar os planos de proteção e reduzir as consequências desses eventos (JAIN et al., 2020). Segundo Costafreda-Aumedes et al. (2017), os primeiros modelos utilizados para determinação da ocorrência desses eventos foram construídos com uso de regressão linear, e a partir da metade da década de 1980, os modelos de regressão logística e de Poisson foram introduzidos para esse fim, sendo ambos os métodos aplicados com frequência até os dias atuais devido sua facilidade de aplicação e simplicidade de compreensão. Nos anos subsequentes, os modelos evoluíram em paralelo às aplicações matemáticas, técnicas de análise e modelagem, poder computacional e maior disponibilidade de conjunto de dados espaciais em decorrência do advento do Sensoriamento Remoto, aumentando assim o número de estudos voltados ao mapeamento da suscetibilidade de ocorrência de incêndios (COSTAFREDA-AUMEDES et al., 2017). As técnicas mais complexas como Random Forest (RF), Redes Neurais Artificiais (RNA), Support Vector Machines (SVM) ou Modelos Aditivos Generalizados (GAM) foram introduzidos como alternativa aos métodos estatísticos tradicionais, especialmente quando se trata de grandes bancos de dados, padrões não lineares e variáveis que são altamente correlacionadas ou não distribuídas normalmente (COSTAFREDA-AUMEDES et al., 2017; JAIN et al., 2020). De modo geral, os resultados mais ou menos sofisticados são aplicados para combinar as variáveis predisponentes em um SIG, produzindo os mapas de suscetibilidade dos eventos (CHUVIECO et al., 2019). No caso de algoritmos de aprendizagem de máquina, os modelos produzem mapas de suscetibilidade baseados em dados de entrada (variáveis) sem a necessidade de conhecimento a priori dos fenômenos investigados, mas simplesmente aprendendo com a experiência, visto que o modelo é ajustado conforme os dados de 28 treinamento, permitindo gerar previsões sobre toda a área de estudo (COSTAFREDA- AUMEDES et al., 2017; LEUENBERGER et al., 2018). Vários estudos foram implementados utilizando aprendizagem de máquina associado a SIG (ZHENG et al., 2017; SACHDEVA et al., 2018; BUI et al., 2019; TANG et al., 2020; TONINI et al., 2020), com destaque ao desenvolvido por Pourghasemi et al. (2020) que utilizaram o Random Forest para o mapeamento da suscetibilidade de riscos múltiplos (inundação, deslizamento e incêndios florestais) em uma província no Irã. Segundo os autores, o resultado obtido no mapeamento da suscetibilidade de incêndio foi mais efetivo que para os demais riscos, pois atingiu uma taxa de acerto de 0,943%. Li et al. (2020) utilizaram Redes Neurais Artificiais e Máquina de Vetores de Suporte para o mapeamento da suscetibilidade de incêndios e queimadas na Região Autônoma de Guangxi, na China. Os resultados obtidos pelos autores mostram uma taxa de acerto de 92,16% para o método de Redes Neurais Artificiais, enquanto o método de Máquina de Vetores de Suporte apresentou cerca de 89,89%. Recentemente, a implementação de métodos mistos tem mostrado bons resultados quando comparado aos obtidos até então, como destacado por Eskandari et al. (2021) que utilizaram o método combinado GAM-MARS-SVM (Generalized Additive Model - Multivariate Adaptive Regression Spline - Support Vector Machine) para o mapeamento da suscetibilidade de incêndios na região norte do Irã, obtendo resultados consideravelmente melhores. Mohajane et al. (2021) utilizaram vários modelos combinados para prever o risco de incêndio no norte de Marrocos, os autores constataram que o modelo conjunto RF-FR (Random Forest-Frequency Ratio) apresentou o melhor desempenho dentre os métodos empregados. Entretanto, Bui et al. (2017) e Moayedi et al. (2020) destacam que poucos estudos se concentraram na exploração de métodos de aprendizagem de máquina otimizados, especialmente os baseados em lógica fuzzy. Para os autores, os métodos de aprendizagem de máquina integrados a lógica fuzzy podem ser úteis nessa abordagem, visto que os fatores influenciadores são múltiplos, além disso, não são lineares, e possuem graus de subjetividade que estão relacionados a distribuição espacial dos eventos, bem como incerteza em função da resolução espacial e temporal dos dados. Em suma, a utilização de lógica fuzzy associado a métodos de aprendizagem de máquina, tais como Random Forest (RF), Support Vector Machines (SVM), Artificial Neural Networks (ANN) Naive Bayes (NB), Genetic Algorithms (GA), dentre outros, para a otimização de modelos podem apresentar bons resultados, porém, no contexto de 29 mapeamento de suscetibilidade de incêndios e queimadas essas aplicações ainda são incipientes (JAIN et al., 2020; MOAYEDI et al., 2020). 4.5. Seleção de atributos relevantes Seja qual for o mecanismo de classificação da suscetibilidade e/ou risco de incêndios e queimadas, ele se materializa com base na observação de um conjunto de atributos do espaço geográfico. Nesse caso, um dos desafios é selecionar os atributos que são facilmente mensuráveis e que, ao mesmo tempo, possuam relação com o fenômeno. No que se refere à disponibilidade de dados, a facilidade de aquisição desses atributos contribui para a implementação do modelo, principalmente em regiões com baixa densidade de estações meteorológicas de superfície (JESUS et al., 2020), nesse caso, as informações obtidas por sensoriamento remoto constituem excelentes fontes de dados. Por outro lado, identificar uma quantidade de atributos que tenha contribuição significativa ao modelo, e, ao mesmo tempo, descartar os irrelevantes, minimiza os erros de previsão, pois os atributos não fidedignos ao evento podem se tornar uma fonte de ruído (HOSSEINI et al., 2020). Dessa forma, identificar um subconjunto de dados relevantes dentro do conjunto de dados é um dos grandes desafios na mineração de dados e aprendizagem de máquina (KUHN; JOHNSON, 2013; URBANOWICZ et al., 2018). Para cumprir esse propósito, existem uma grande variedade de metodologias disponíveis em softwares gratuitos e proprietários. Kuhn e Johnson (2013) classificam essas metodologias em dois grupos, os métodos de Wrapper e métodos de filtros. Os métodos de Wrapper avaliam vários modelos usando procedimentos que adicionam e/ou removem atributos para encontrar a combinação ideal que maximiza o desempenho do modelo. Esses métodos correspondem a algoritmos de pesquisa que tratam os atributos como as entradas e usam o desempenho do modelo como saída a ser otimizada (KOHAVI; JOHN, 1997). Por outro lado, os métodos de filtro avaliam a relevância dos preditores fora dos modelos preditivos, e posteriormente, consideram apenas os preditores que apresentam relevância (KUHN; JOHNSON, 2013). Como exemplo para os métodos de filtros podemos citar o método de ganho de informação (Information Gain - IG), qui-quadrado e Relief (URBANOWICZ et al., 2018). Já o método de Wrapper englobam uma gama de métodos em que empregam conjunto de dados de teste e validação, o que possibilita realizar pontuações quanto a importância dos atributos através de medidas de desempenho como Root-Mean-Square Error-RMSE, 30 Receiver-Operating Characteristic-ROC e Akaike Information Criterion (KUHN; JOHNSON, 2013; URBANOWICZ et al., 2018). Dentre estes métodos de Wrapper, Pourghasemi et al. (2020), Gholami et al. (2021) e Prasad et al. (2021) destacam o algoritmo Boruta por sua funcionalidade, adaptação às principais características de dados, sendo um método robusto que avalia os impactos das variáveis de forma combinada para encontrar as variáveis mais relevantes e ao mesmo tempo, identificar as variáveis não-redundantes, além de estar disponível em softwares gratuitos especializados. O algoritmo Boruta (nome originário de um deus da floresta na mitologia eslava) é construído com uso de classificação por meio de Random Forest (RF), ou seja, obtém-se a medida de importância de cada variável independente com base na média e desvio padrão para todas as árvores de decisão, sendo calculado o z-score de cada variável levando em consideração atributos “sombra” (réplicas embaralhadas das variáveis originais) gerados de forma aleatória (KURSA; RUDNICKI, 2010). De modo geral, no primeiro passo o algoritmo Boruta duplica e embaralha o conjunto de dados, no qual são denominados atributo “sombra” em seguida, ele treina um classificador de RF para verificar a importância de cada atributo, considerando as métricas de desempenho (z-score), em seguida, o algoritmo verifica os recursos de maior importância, ou seja, aqueles com z-score mais elevado do que o máximo z-score dos atributos “sombra”, de modo que a cada interação, o algoritmo compara os valores das cópias embaralhadas dos atributos e os seus respectivos originais (KURSA; RUDNICKI, 2010; PRASAD et al., 2021). A implementação do método Boruta para seleção de atributos relevantes é ampla em vários campos da ciência, dentre vários trabalhos, destaca-se os desenvolvidos por Candanedo et al. (2017) que utilizaram o método para identificar as variáveis mais importantes para previsão de consumo de energia elétrica; Grainger et al. (2018) utilizaram para selecionar os atributos mais importantes para explicar os fatores responsáveis pelo desperdício alimentar; Amiri et al. (2019) utilizaram para identificar os fatores mais importantes responsáveis por erosão do solo, além de aplicações em estudos voltados ao mapeamento da suscetibilidade de múltiplos riscos (POURGHASEMI et al., 2020; GHOLAMI et al., 2021; PRASAD et al., 2021). 31 5. MATERIAIS E MÉTODOS 5.1. Caracterização da área de estudo Este estudo foi realizado na Bacia Hidrográfica do Rio Sorocabuçu, localizado no município de Ibiúna, região sudeste do Estado de São Paulo. A bacia se localiza entre as coordenadas UTM de 274802 a 276156 m E, 7373205 a 7383470 m S, com área aproximada de 202 km² (Figura 1). O município de Ibiúna pertence a região metropolitana de Sorocaba, e possui uma população de 76.867 habitantes (SEADE, 2021). Figura 1. Localização da bacia hidrográfica do rio Sorocabuçu. Segundo a classificação climática de Köppen, o clima da região é do tipo subtropical de altitude (Cwb), com inverno seco e verão chuvoso. A temperatura média anual é de 20ºC, com mínima de 10ºC no mês de junho e máximas de 25ºC em fevereiro. A precipitação média anual é de 1.493 mm, sendo janeiro o mês mais chuvoso com precipitações médias de 248 mm, e agosto o mês mais seco com precipitações médias de 43 mm (CIIAGRO, 2021). Conforme descrito no Plano Municipal de Conservação e Recuperação da Mata Atlântica do Município de Ibiúna (PMCRMAI, 2021), a vegetação original da área era ocupada por Florestas Ombrófilas Densas, Florestas Ombrófilas Mistas e Florestas 32 Estacionais Semideciduais, fitofisionomias características do bioma Mata Atlântica. Entretanto, as atividades agrícolas desenvolvidas de forma intensiva correspondem ao principal tipo de uso e ocupação do solo na área, que se desenvolve por meio de lavouras temporárias, semiperenes e perenes, seguido por capoeira, silvicultura e pastagem (SILVA et al., 2016; SOUSA, 2021). A formação geológica predominante do município é o Grupo São Roque, seguido pelo Complexo Magmático Embu. A litologia do Grupo São Roque é constituída por metarritmitos, caracterizados por intercalações de metarenitos, filitos e pequenos corpos de metassiltitos, enquanto o Complexo Migmatítico Embu é constituído por metassedimentos com estrutura bandada, com intercalações de gnaisses, micaxistos, anfibolitos e quartzitos (ZAI, 2016). As principais classes de solos correspondem aos Argissolos Vermelho-Amarelo e Latossolos Vermelho-Amarelo, sendo que os Argissolos apresentam caráter distrófico, com horizonte superficial moderado, textura média/argilosa e argilosa. Do mesmo modo, os Latossolos também apresentam caráter distrófico, possuindo horizonte superficial moderado, com textura predominantemente argilosa (SOUZA, 2017). 5.2. Identificação de focos de incêndios e queimadas e mapeamento de cicatrizes Foram obtidos dados em formato shapefile sobre focos de incêndios e queimadas entre 2002 a 2020 junto ao Banco de Dados de Queimadas (BDQUEIMADAS) do Instituto Nacional de Pesquisas Espaciais (INPE, 2021). Atualmente, o INPE processa e distribui dados de focos de incêndios ativos de observação adquirido por dez satélites (satélites polares NOAA-18, NOAA-19, NOAA-20, METOP-B, METOP-C, MODIS-AQUA, MODIS-TERRA, NPP, e geoestacionários GOES-16 e MSG-3) que possuem sensores ópticos operando na faixa termal-média de 4 µm (INPE, 2021). Cada satélite polar produz ao menos dois conjuntos de imagens por dia, enquanto os geoestacionários geram seis imagens por hora, sendo que no total, são processadas mais de 200 imagens por dia para detectar focos de calor, as recepções são feitas nas estações de Cachoeira Paulista, em São Paulo, e em Cuiabá, no Mato Grosso (INPE, 2021). A Tabela 1 apresenta os principais satélites (inativos e ativos) utilizados para o monitoramento de incêndios e queimadas do programa do INPE. 33 Tabela 1. Características dos satélites e sensores utilizados no monitoramento de focos de calor. Satélite Sensor Data Lançamento Situação Resolução Espacial Resolução Temporal NOAA-12 AVHRR/2 14/05/1991 Inativo 1.000x1.000m Diário GOES-08 I-M 13/04/1994 Inativo 4.000x4.000m 40 minutos NOAA-14 AVHRR/2 30/12/1994 Inativo 1.000x1.000m Diário GOES-10 I-M 25/04/1997 Inativo 4.000x4.000m 15 minutos NOAA-15 AVHRR/3 13/05/1998 Ativo 1.000x1.000m Diário TERRA MODIS 18/12/1999 ativo 1.000x1.000m 1-2 dias NOAA-16 AVHRR/3 21/09/2000 ativo 1.000x1.000m Diário GOES-12 I-M 23/07/2001 Ativo 5.000x5.000m 30 minutos AQUA MODIS 04/05/2002 Ativo 1.000x1.000m 1-2 dias NOAA-17 AVHRR/3 24/06/2002 Inativo 1.000x1.000m Diário NOAA-18 AVHRR/3 20/05/2005 Ativo 1.000x1.000m Diário MSG-02 SEVIRI 25/12/2005 Inativo 3.000x3.000m 15 minutos GOES-13 I-M 24/05/2006 Ativo 6.000x6.000m 30 minutos NOAA-19 AVHRR/3 06/02/2009 Ativo 1.000x1.000m Diário NPP-375 VIIRS 28/10/2011 Ativo 375x375m Diário NPP-750 VIIRS 28/10/2011 Ativo 750x750m Diário MSG-03 SEVIRI 05/07/2012 Ativo 3.000x3.000m 15 minutos METOP-B AVHRR/3 17/09/2012 Ativo 1.000x1.000m Diário GOES-16 I-M 19/11/2016 Ativo 2.000x2.000m 15 minutos NOAA-20 AVHRR/3 18/11/2017 Ativo 1.000x1.000m Diário METOP-C AVHRR/3 11/07/2018 Ativo 1.000x1.000m Diário Fonte: Elaborado pelo autor a partir de dados do INPE (2021), NASA (2021). Os dados sobre focos pontuais de incêndios e queimadas disponibilizados pelo INPE serviram de base para a identificação e mapeamento das áreas de ocorrência dos eventos (cicatrizes de incêndios e queimadas). A partir dos dados pontuais, obteve-se a localização espacial dos incêndios e queimadas, e com base na Taxa de Queima Normalizada (Normalized Burn Ratio-NBR), foi realizado o mapeamento das cicatrizes de áreas onde esses eventos ocorreram. O NBR foi obtido utilizando a Equação 1 proposta por Key e Benson (2006). 34 𝑁𝐵𝑅 = 𝑁𝐼𝑅 − 𝑆𝑊𝐼𝑅 𝑁𝐼𝑅 + 𝑆𝑊𝐼𝑅 (1) Onde NIR refere-se a banda do infravermelho, e SWIR a banda do infravermelho de ondas curtas, sendo as bandas B8 e B12 do Sentinel-2A, respectivamente. O NBR foi obtido com resolução espacial de 30 m, dessa forma, as bandas do Sentinel-2A com resolução espacial de 10 e 20 metros foram reamostradas para 30 metros com uso do reduceResolution no Google Earth Engine. Valores altos de NBR (> 0,5) refletem áreas cobertas por vegetação saudável, enquanto valores baixos (< -0,5) indicam solo descoberto e áreas recentemente queimadas (MILLER; THODE, 2007), dessa forma, para diferenciar as áreas queimadas de solo descoberto, foi utilizado uma composição cor verdadeira e falsa cor com bandas do visível, infravermelho próximo e infravermelho de ondas curtas do Sentinel-2A (RGB – B04/B03/B02 - cor verdadeira, RGB - B12/B8A/B04 - falsa cor) com resolução espacial de 30m, neste caso, as bandas com resolução espacial divergente foram reamostradas, esse processo foi realizado com uso da plataforma Earth Observation Browser (EO Browser, 2021), por possibilitar realizar o processo em nuvem, e exportar apenas a área de interesse, em seguida, as cicatrizes identificadas foram vetorizadas com o software ArcGIS 10.5 (ESRI, 2016). A etapa de delimitação das cicatrizes fez-se necessário em virtude da relação entre foco de calor e os incêndios e queimadas não ser direta, pois um foco de calor identificado pelo satélite indica a existência de fogo em um pixel, que por sua vez, possui resolução espacial variando de 375 m é 6 km, ou seja, em um foco de calor identificado pelo INPE podem ocorrer vários incêndios e queimadas de pequeno porte, bem como em vários pixels podem detectar um único grande incêndio ou queimada (INPE, 2021). Além disso, como a localização do foco de calor se dá pelo ponto central do pixel (centro geométrico) onde ocorreu os incêndios, nesse caso, o ponto de indicação da ocorrência do evento pode apresentar um deslocamento em relação a sua ocorrência (deslocamento médios de 400 m em focos detectados com satélites com resolução superior a 1 km), conforme descrito em trabalhos de validação realizados pelo INPE (2021). Dessa forma, o mapeamento das cicatrizes corresponde uma etapa de suma importância, pois retifica a localização do evento, além de possibilitar identificar sua extensão. A Figura 2 apresenta a metodologia adotada para a identificação e delimitação das cicatrizes de incêndios e queimadas empregada neste estudo. Com a identificação das 35 cicatrizes de incêndios e queimadas, as áreas foram vetorizadas e contabilizadas como eventos de verdadeiro positivo para ocorrência de fogo. Figura 2. Etapas seguidas para identificação e mapeamento das cicatrizes de incêndios. 5.3. Aquisição e processamento de dados Visando a possibilidade de replicação deste estudo em áreas com baixa densidade de dados, foi utilizado variáveis obtidas por sensoriamento remoto disponibilizado em plataformas gratuitas. Dessa forma, dados como a precipitação da região foram obtidos a partir da missão de recuperação integrada de múltiplos satélites para a medição de precipitação global (GPM - Global Precipitation Measurement); enquanto os dados de temperatura de superfície foram obtidos a partir do MODIS (Moderate-Resolution Imaging Spectroradiometer); umidade do ar foi obtida a partir de dados do FLDAS (Famine Land 36 Data Assimilation System); umidade do solo pelo SMAP/Sentinel-1 (Soil Moisture Active Passive); NDVI (Normalized Difference Vegetation Index), NDWI (Normalized Difference Water Index), SAVI (Soil Adjusted Vegetation Index) e cobertura e uso da Terra com base em dados Sentinel-2; e a elevação, declividade, orientação das vertentes, Índice de Umidade Topográfica (Topographic Wetness Index - TWI), distância entre as rodovias e densidade da malha viária obtida com base em cartas topográficas (IGC, 1979), retificadas manualmente no Google Earth Pro (Versão 7.3.4). A seguir é apresentado a descrição detalhada e tratamento de cada fonte de dados utilizada. 5.3.1. Precipitação A precipitação da área de estudo foi obtida com base em dados da missão Global Precipitation Measurement - GPM disponibilizado pela National Aeronautics and Space Administration - NASA. A missão GPM foi desenvolvida em conjunto pela NASA e a Japan Aerospace Exploration Agency-JAXA. O projeto foi lançado em fevereiro de 2014, e fornece informações sobre chuva e neve a nível global por meio do algoritmo Integrated Multi- satellitE Retrievals for GPM - IMERG (HUFFMAN et al., 2020). Os dados do GPM possuem resolução espacial de ~10 km (0,1°), e resolução temporal de meia hora. O algoritmo IMERG é executado duas vezes em tempo quase real gerando três produtos: o multi-satélite “inicial” (Early Run) disponibilizado aproximadamente 4 horas após a observação, o produto multi-satélite “atrasado” (Early Late) disponibilizado aproximadamente 14 horas após a observação, e por fim, o produto “final” (Final Run) disponibilizado aproximadamente 3,5 meses após a observação, o que permite incorporar uma análise de medidor de superfície para melhorar as estimativas do satélite (TANG et al., 2016; HUFFMAN et al., 2019). Nesse estudo foram obtidos dados de precipitação em mm.mês-1 do produto Final Run para o ano de 2019 por meio da plataforma Google Earth Engine exportados em formato GeoTIFF com resolução espacial original (~10 km). A abrangência da área de interesse foi definida por polígono em forma de retângulo cobrindo a área da bacia do rio Sorocabuçu com buffer de raio de 20 km. O exemplo do script utilizado para exportação dos dados do GPM com uso do Google Earth Engine encontra-se disponível em anexo (Anexo A1). Esse método foi adotado com vista à simplificação e padronização das etapas de aquisição e subsequente processamento de dados. 37 5.3.2. Temperatura próximo a superfície (LST) Para a espacialização da temperatura de superfície na área de estudo, foram utilizados dados médios mensais do Moderate-Resolution Imaging Spectroradiometer - MODIS (MOD11A1 – Day time Land Surface Temperature - LST_Day_1km), disponibilizado pela United States Geological Survey – USGS. O instrumento MODIS11 é operado a bordo dos satélites Terra e Aqua, possui uma largura de faixa de visualização de 2.330 km com capacidade de revista a cada um ou dois dias, resolução espectral de variando entre 0,405 a 14,385 µm distribuídas em 36 bandas, e resolução espacial variando de 250, 500 e 1.000m (WAN et al., 2015). Os dados médios mensais para o ano de 2019 do MOD11 foram exportados via Google Earth Engine em formato GeoTIFF com resolução espacial original (1 km), com abrangência da área de interesse definida por polígono em forma de retângulo cobrindo a área da bacia do rio Sorocabuçu tendo por base um buffer de raio de 20 km. Esses dados são disponibilizados em número digital com escala de valores variando de 7.500 a 65.535. Para conversão dos números digitais em temperatura de superfície em °C foi utilizado a Equação 2. 𝑇𝑆 = (𝑁 ∗ 0,02) − 273,15 (2) Onde 𝑇𝑆 corresponde a temperatura de superfície, 𝑁 o valor médio mensal dos valores digitais das imagens obtidas pelo sensor, 0,02 a constante de conversão do número digital para Kelvin, e 273,15 a constante de conversão de Kelvin para Celsius, conforme descrito por Wan et al. (2015) e Padovanni et al. (2018). O exemplo do script utilizado para conversão de número digital em Kelvin, e de Kelvin para Celsius, seguido da exportação dos dados mensais do MOD11 com uso do Google Earth Engine encontra-se disponível em anexo (Anexo A2). 5.3.3. Umidade do ar Para a espacialização da umidade relativa do ar próximo à superfície, foram utilizados dados médios mensais provenientes do Sistema de Assimilação de Dados Terrestres Globais Famine Early Warning Systems Network (FEWS NET) Land Data Assimilation System (FLDAS). O FLDAS é um sistema de assimilação de dados terrestres proveniente de uma combinação do produto do Modern-Era Retrospective analysis for Research and 38 Applications, Version 2 MERRA-2, e dados do Climate Hazards Group InfraRed Precipitation with Station data – CHIRPS (MCNALLY, 2018) Este conjunto de dados contém uma série de parâmetros da superfície terrestre simulados pelo modelo Noah 3.6.1 do FLDAS (EK et al., 2003). Os dados possuem resolução espacial de ~10 km (0,1°) com cobertura global, e resolução temporal mensal de janeiro de 1982 até o presente (MCNALLY, 2018). A umidade específica do ar se refere à massa de vapor em uma dada região em relação à massa total de ar, em kg.kg-1. Já a umidade relativa do ar comumente utilizada em boletins climáticos é definida como a razão entre a pressão parcial do vapor de água no ar e a pressão do vapor de saturação de água sob a mesma temperatura, expressa em porcentagem (LAWRENCE, 2005), podendo ser determinada pela equação 3. 𝑈𝑅 = 100 ∗ ( 𝑊 𝑊𝑠 ) (3) Onde 𝑈𝑅 refere-se à umidade relativa do ar, 𝑊 a pressão parcial de vapor de água e 𝑊𝑠 a pressão de saturação do vapor de água. Nesse estudo, foram obtidos dados mensais de umidade específica (em kg.kg-1) para o ano de 2019, o exemplo do script utilizado para recuperação da umidade do ar na base de dados do FLDAS, seguido da exportação dos dados mensais com uso do Google Earth Engine encontra-se disponível em anexo (Anexo A3). 5.3.4. Umidade do solo A umidade do solo para a área de estudo foi obtida com base em dados da missão Soil Moisture Active Passive (SMAP) e do Radar de Abertura Sintética-SAR Sentinel-1A/B (Radiômetro/Radar) disponibilizada pela National Aeronautics and Space Administration - NASA. O projeto foi lançado em janeiro de 2015, e fornece informações a nível global sobre a umidade específica do solo (em uma profundidade aproximada de 0-5 cm) em cm3.cm-3 derivado de um modelo de transferência radiativa com base em dados de temperaturas de brilho obtidas pela banda L do radiômetro do SMAP e medições de retroespalhamento do SAR, banda C do Sentinel-1 (DAS et al., 2019). Os dados de umidade específica do SMAP/Sentinel-1 é derivado de um modelo de transferência radiativa proposto por Njoku e Entekhabi (1996) e implementado por Das et al. (2018), sendo disponibilizados pelo Distributed Active Archive Center (DAAC) da NASA. O monitoramento teve início a partir de 15 de abril e está em operação até os dias 39 atuais, possuem resolução espacial de 1 km e 3 km, com resolução temporal de 6 a 12 dias (NASA, 2021). O algoritmo SMAP ativo-passivo implementado por Das et al. (2014) pode ser representado pela Equação 4. 𝑇𝐵𝑝 (𝑀𝑗) = 𝑇𝐵𝑝 (𝐶) + 𝛽(𝐶) ∗ {[𝜎𝑝𝑝(𝑀𝑗) − 𝜎𝑝𝑝(𝐶)] + Г ∗ [𝜎𝑝𝑞(𝐶) − 𝜌𝑝𝑞(𝑀𝑗)]} (4) Onde 𝑇𝐵𝑝 (𝐶) corresponde a temperatura de brilho baseada no radiômetro, 𝜎𝑝𝑝(𝐶) e 𝜎𝑝𝑞(𝐶) referem-se ao retroespalhamento em dB agregado à resolução grosseira em co-pol (Vertical/Vertical - VV ou Horizontal/Horizontal - HH) e cross-pol (Vertical/Horizontal - VH ou Horizontal/Vertical - HV) respectivamente (~36km), 𝜎𝑝𝑝(𝑀𝑗) e 𝜌𝑝𝑞(𝑀𝑗) correspondem ao retroespalhamento do radar em alta resolução (1 km ou 3 km), β(C) em K/dB e Г correspondem a parâmetros do algoritmos em dB/dB, sendo que o primeiro refere- se a covariação entre 𝑇𝐵𝑝 (𝐶) e 𝜎𝑝𝑝(𝐶) do radiômetro SMAP e observações de radar, e o segundo parâmetro representa a heterogeneidade induzida pela vegetação dentro das células do radiômetro de resolução grosseira detectado por 𝜎𝑝𝑝(𝑀) e 𝜎𝑝𝑞(𝑀) respectivamente (ENTEKHABI et al., 2014). A Tabela 2 apresenta as características gerais dos dados obtidos. Tabela 2. Principais características de dados de umidade do solo estimadas pelo SMAP/Sentinel. Data Sat/Mode/Pol Número de Cena Resolução espacial 22/01/2019 1BIWDV 046W24S 1 e 3 km 26/02/2019 1AIWDV 048W24S 1 e 3 km 23/03/2019 1BIWDV 046W24S 1 e 3 km 27/04/2019 1AIWDV 048W24S 1 e 3 km 09/05/2019 1BIWDV 046W24S 1 e 3 km 02/06/2019 1AIWDV 048W24S 1 e 3 km 31/07/2019 1AIWDV 048W24S 1 e 3 km 26/08/2019 1BIWDV 046W24S 1 e 3 km 30/09/2019 1AIWDV 048W24S 1 e 3 km 25/10/2019 1BIWDV 046W24S 1 e 3 km 28/11/2019 1AIWDV 048W24S 1 e 3 km 22/12/2019 1AIWDV 048W24S 1 e 3 km “Sat/Mode/Pol” - Satélite/Modo/Polarização: 1A (Sentinel-1A); 1B (Sentinel-1B); IW (Interferometric Wide-swath); DV (Dual-polarization – Vertical/Vertical-VV ou Vertical/Horizontal - VH). A base de dados SMAP já foi incorporada ao catálogo Google Earth Engine, entretanto, o produto do SMAP/Sentinel-1 ainda não foi contemplado, dessa forma, os dados foram obtidos diretamente no portal EARTHDATA da NASA (NASA, 2021), sendo obtido 40 uma cena em cada mês para o ano de 2019 do produto SMAP_L2_SM_SP no formato HDF (Hierarchical Data Format). De posse dos dados SMAP_L2_SM_SP no formato HDF, foi selecionado o produto “Soil_Moisture_Retrieval_Data_1km” com resolução espacial de 1.000 m e em seguida, foram convertidas para o formato GeoTIFF e reprojetado para o Sistema de Projeções Geográfica e Datum SIRGAS 2000, Fuso 23 Sul com uso do software ArcGIS 10.5. 5.3.5. Índices de vegetação Nesse estudo, foram obtidos o Índice de Vegetação por Diferença Normalizada (Normalized Difference Vegetation Index-NDVI), Índice de Vegetação Ajustado ao Solo (Soil Adjusted Vegetation Index - SAVI) e Índice de Água por Diferença Normalizada (Normalized Difference Water Index-NDWI) com base em dados do Sentinel-2. A missão Sentinel-2 é composta por uma constelação de dois sensores (Sentinel-2 A e B), sendo que o Sentinel-2A foi lançado pela ESA em junho 2015, e o Sentinel-2B foi lançado em março de 2017, cada sensor possui um ciclo de 10 dias, que quando combinada, possibilita uma revisita de cinco dias (ESA, 2021). A Tabela 3 apresenta as especificações técnicas do Sensor Sentinel-2 utilizadas nesse estudo. Tabela 3. Características principais e bandas do Sentinel-2. Data de Lançamento Sentinel-2A: 23 de junho de 2015 Sentinel-2B: 7 de março de 2017 Tipo de Órbita Órbita sincrônica ao solo Tempo de revista 10 dias cada sensor Altitude Orbital ~786 km Complemento do sensor MSI (Multi Spectral Instrument) Banda Nome Comprimento central de onda S2A/S2B (nm) Largura de banda S2A/S2B (nm) Relação sinal ruído - Lref Resolução (m) B1 Aerossol 442,7/442,3 21/21 129 60 B2 Blue (Azul) 492,4/492,1 66/66 154 10 B3 Green (verde) 559,8/559,0 36/36 168 10 B4 Red (Vermelho) 664,5/665,0 31/31 142 10 B5 Red Edge 1 704,1/703,8 15/16 117 20 B6 Red Edge 2 740,4/739,1 15/15 89 20 B7 Red Edge 3 782,8/779,7 20/20 105 20 B8 NIR 832,8/833,0 106/106 174 10 B8A Red Edge 4 864,7/864,0 21/22 72 20 B9 Water vapor 945,1/943,2 20/21 114 60 B10 Cirrus 1373,5/1376,9 31/30 50 60 B11 SWIR 1 1613,7/1610,4 91/94 100 20 B12 SWIR 2 2202,4/2185,7 175/185 100 20 Fonte: Adaptado de SUHET (2013) e ESA (2021). 41 O Sentinel-2 é equipado por um Instrumento Multiespectral (MultiSpectral Instrument - MSI) que realiza a captura de dados em 13 bandas espectrais que vão desde o visível e infravermelho próximo (Visible and Near-Infra-Red - VNIR) até o infravermelho de ondas curtas (Short Wave Infra-Red - SWIR). A resolução espacial do satélite varia de 10 a 60 metros, sendo que quatro bandas apresentam resolução espacial em 10 metros (B2, B3, B4 e B8), seis bandas com 20 metros (B5, B6, B7, B8A, B11 e B12) e três bandas com 60 metros (B1, B9 e B10), apresentando resolução radiométrica de 12 bits (ESA, 2021). Os dados do Sentinel-2 disponibilizados pela ESA foram processados com uso da plataforma Google Earth Engine, sendo o NDVI e NDWI calculados utilizando as Equação 5 e 6, respectivamente, conforme proposto por Rouse et al. (1973) e GAO (1996), esse cálculo foi realizado com uso da função “image.normalizedDifference”, e para a determinação do SAVI, foi utilizado a Equação 7, conforme proposto por Huete (1998). Ambos os índices foram obtidos utilizando cenas selecionadas com uso do filtro “CLOUDY_PIXEL_PERCENTAGE” com 20% de tolerância para cobertura de nuvens. 𝑁𝐷𝑉𝐼 = 𝜌𝑁𝐼𝑅 − 𝜌𝑅𝑒𝑑 𝜌𝑁𝐼𝑅 + 𝜌𝑅𝑒𝑑 (5) 𝑁𝐷𝑊𝐼 = ρGreen − 𝜌𝑁𝐼𝑅 𝜌𝐺𝑟𝑒𝑒𝑛 + 𝜌𝑁𝐼𝑅 (6) 𝑆𝐴𝑉𝐼 = (𝜌𝑁𝐼𝑅 − 𝜌𝑅𝑒𝑑) ∗ (1 + L) 𝜌𝑁𝐼𝑅 + 𝜌𝑅𝑒𝑑 + 𝐿 (7) Onde 𝜌𝑁𝐼𝑅 é a reflectância da banda do infravermelho próximo, 𝜌𝑅𝑒𝑑 refere-se a reflectância da banda do vermelho e 𝜌𝐺𝑟𝑒𝑒𝑛 a reflectância da banda verde, sendo a banda 8, banda 4 e banda 3 do Sentinel-2 respectivamente. Já L corresponde o fator de ajuste, sendo adotado valor 0,5, visto que é o mais comumente utilizado em função da característica de densidade da vegetação da região (AMORIM et al., 2019; MARTINS; ROSA, 2019). Os dados sobre NDVI, SAVI e NDWI mensal para os meses de janeiro a dezembro de 2019 foram exportados em formato GeoTIFF com resolução espacial de 30 metros, neste caso, os índices obtidos foram reamostrados para 30 metros com uso do reduceResolution no Google Earth Engine, em seguida, foram exportados levando em consideração abrangência da área de interesse definida por polígono em forma de retângulo cobrindo a área da bacia do rio Sorocabuçu. O script utilizado para obtenção do NDVI, NDWI e SAVI encontra-se no Anexo A4, A5 e A6 respectivamente. 42 5.3.6. Dados planialtimétricos As informações planialtimétricas utilizadas neste estudo, tais como pontos cotados, curvas de nível, rodovias e estradas vicinais, cursos hídricos (unifilar e bifilar), foram obtidas a partir de dados de um Mosaico de Cartas Topográficas em escala 1:10.000 proveniente do levantamento sistemático realizado pelo Instituto Geográfico e Cartográfico (IGC) do Estado de São Paulo (IGC, 1979). A Figura 3 apresenta a articulação de folhas e suas respectivas nomenclaturas das 16 folhas utilizadas neste estudo. Figura 3. Mapa índice das Cartas Topográficas utilizadas. Fonte: Elaborado pelo autor. As Cartas Topográficas são disponibilizadas em formato padronizado Web Map Service (WMS) na base de dados de Infraestrutura de Dados Espaciais Ambientais do Estado de São Paulo (IDEA-SP), o Sistema Ambiental Paulista (DataGEO). Dessa base, foram 43 utilizadas ao total 16 Cartas Topográficas que cobrem a área de estudo, sendo realizado a vetorização em ambiente SIG de forma manual com uso do software ArcGIS 10.5. A partir das Cartas Topográficas disponibilizadas pelo IGC (IGC, 1979), obteve-se pontos cotados e curvas de nível que serviram de base para obtenção do Modelo Digital de Elevação (MDE), e a partir deste, foram obtidos a declividade do terreno, orientação das vertentes e o Índice de Umidade Topográfica (Topographic Wetness Index - TWI). As rodovias e estradas vicinais serviram de base para determinação da distância direta das áreas potenciais de incêndios e queimadas até a rede viária, bem como a densidade da rede viária. O MDE foi obtido através de interpolação por Triangulated Irregular Network (TIN) disponível no módulo 3D Analyst Tools. O método TIN foi empregado por ser adequado para representação espacial da superfície do terreno, sendo amplamente citado na literatura (TUCKER et al., 2001). A partir do MDE, foi obtido a declividade da área em percentual com uso da ferramenta slope disponível no módulo Spatial Analyst Tools no ArcGIS 10.5. E com base no MDE, foi obtido a orientação de vertentes com uso da ferramenta Aspect disponível no módulo Spatial Analyst Tools no ArcGIS 10.5. O TWI foi obtido pelo método TOPMODEL com uso da ferramenta Topographic Wetness Index - TWI disponível no módulo Terrain Analysis/Hydrology do software SAGA GIS 2.3.2. Levou-se em consideração a declividade e área de captação (Catchment Area) da bacia, sendo que a área de captação foi determinada pelo método Multiple Triangular Flow Direction com base no MDE (SEIBERT; MCGLYNN, 2007). Devido o ano de levantamento de rodovias e estradas vicinais das Cartas Topográficas, foi realizado um ajuste da malha viária com base em imagens do Google Earth (GOOGLE LLC, 2020) e dados mapeamento voluntário da OpenStreetMap (OSM Foundation, 2020). A partir da malha viária ajustada, foi determinada a distância euclidiana de rodovias e estradas vicinais na área de estudo com uso da ferramenta Euclidean Distance disponível no módulo Spatial Analyst Tools. Em seguida, obteve-se a densidade de rodovias e estradas vicinais com uso da ferramenta Line Density que calcula a densidade simples (densidade de linhas em km dentro de uma determinada área em km²) de feições lineares na vizinhança de cada célula do raster de saída, determinada por km/km² (ESRI, 2021). Ambos os produtos foram definidos com resolução espacial de saída de 30m. 44 5.3.7. Cobertura e Uso da Terra O Mapa da Cobertura e Uso da Terra na área de estudo para o ano de 2019 foi obtido por meio da classificação com base em imagens do Sentinel-2A, considerando o Sistema Básico de Classificação da Cobertura e do Uso da Terra (SCUT) da 3° Edição do Manual Técnicos de Uso da Terra do Instituto Brasileiro de Geografia e Estatística (IBGE, 2013). Essa classificação foi realizada tendo como base o mapeamento de uso da terra para o ano de 2010 obtido a partir de imagens de alta resolução (0,45 metro) do sensor Vexcel Ultracam disponibilizadas pelo IGC (IGC, 2010). Para a atualização do mapeamento de 2019 considerou as alterações no uso observadas com imagens do Sentinel-2 avaliadas em composição colorida (4R/3G/2B) e falsa cor (8R/4G/3B) sob a cena número T22KHU com data de imageamento em 08/08/2019. A atualização/edição foi realizada utilizando o conjunto de ferramentas de edição de polígonos com uso do software ArcGIS 10.5 (ESRI, 2016), sendo que essa classificação foi realizada através de interpretação visual. Levando em consideração as classes representativas identificadas na área com base nas imagens do Sentinel-2, foram consideradas neste estudo dez classes de uso da terra, contemplando uma adaptação da Subclasse II do SCUT, o que representa a um mapeamento da cobertura e uso em escala regional (IBGE, 2013). Em seguida, as classes de uso identificadas foram retificadas com base em imagens do Google Earth Pro. A Tabela 4 apresenta as características identificadas em cada unidade mapeada. Tabela 4. Classes de uso da terra na área. Cobertura e Uso da Terra 4R/3G/2B – Sentinel-2 RGB - Google Earth Áreas urbanizadas: Áreas ocupadas por edificações e sistema viário, onde predominam as superfícies artificiais não agrícolas. Incluem nessa categoria as cidades, vilas, áreas de rodovias, áreas industriais e comerciais. Área de Mineração: Áreas ocupadas por atividade de exploração ou extração de substância minerais comumente representadas por atividades de lavra e garimpo. Culturas temporárias: Áreas ocupadas por atividades agrícolas de curta duração, geralmente com ciclo vegetativo inferior a um ano, por exemplo: milho, feijão, trigo, soja, batata- inglesa, hortícolas e floríferas. 45 Culturas Permanentes: Áreas ocupadas por atividade de cultivo vegetativo de longa duração, que permitem colheitas sucessivas, sem necessidade de novo plantio, por exemplo: maçã, uva, laranja, café. Pastagens: Áreas destinadas à atividade pecuária de pequeno e grande porte, com solo normalmente coberto por vegetação de gramíneas ou leguminosas. Silvicultura: Área ocupada por atividade ligada a ações de composição, trato e cultivo de povoamento florestais (Eucalipto, pinus e outras espécies) para fins comerciais. Área Florestal: Áreas ocupadas por vegetação arbórea com altura superior a 5 metros constituídas por diversas fitofisionomias, incluindo remanescentes primários em estágios evolutivos de recomposição florestal. Corpos d’água: Áreas ocupadas por corpos de água naturais e artificiais representados por rios, canais, lagos, lagoas, represas e açudes. Área vegetacional perturbada: Áreas com processo de antropização ou abandonadas, ocupadas por vegetação herbácea rasteira e/ou alta podendo estar associado a cobertura arbustiva densa e/ou esparsa. Área de várzea: Áreas ocupadas por vegetação de porte variado sob influência fluvial e topográfica. Fonte: Classes adaptadas do SCUT (IBGE, 2013), imagens Sentinel-2 e Google Earth Pro. 5.4. Regularização de dados de entrada Os dados obtidos por sensores, tais como a precipitação proveniente do GPM, a temperatura do ar próximo à superfície obtida pelo produto MOD11, a umidade do ar estimada pelo Noah 3.6.1 do FLDAS e a umidade do solo determinada pelo modelo SMAP/Sentinel-1 foram processados para se tornar uma grade com resolução espacial regular conforme as demais variáveis utilizadas, tais como o uso e ocupação da terra, distância de rodovias e estradas vicinais que foram originalmente obtidos com resolução espacial de 30 m. 46 Dessa forma, os dados de precipitação e umidade do ar com resolução espacial original de ~10 km, bem como a temperatura do ar e umidade do solo com resolução espacial original de 1.000 m foram padronizados para 30 m, esse processo fez-se necessário para possibilitar a integração e comparação de conjuntos de dados com escala diferente. Nesse caso, foram considerados os valores do pixel central, resultando em uma grade de pontos com distribuição espacial coincidente com a resolução da fonte de dado de origem, ou seja, ~1 km e ~10 km respectivamente. A regularização da base de dados foi realizada com uso de krigagem ordinária. Dessa forma, os dados foram avaliados por meio de análise estatística descritiva e geoestatística com uso do software R (R Core Team, 2020). Para a realização da krigagem ordinária, foi testado a normalidade dos dados por meio do teste Kolmogorov-Smirnov com nível de significância de 5%, não observando a normalidade, os dados foram transformados pelo método Ordered Quantile (ORQ). Em seguida, foi realizada uma análise de dependência espacial através de semivariograma visando identificar a existência de autocorrelação espacial entre os pontos, conforme o semivariograma experimental estimado pela Equação (8). 𝑦∗(ℎ) = 1 2𝑁(ℎ) ∑ [𝑍(𝑋𝑖 + ℎ) − 𝑍(𝑋𝑖)]² 𝑁(ℎ) 𝑖=1 (8) Onde (ℎ) corresponde o valor da semivariância para uma dada distância ℎ; 𝑁(ℎ) o número de pares envolvidos no cálculo da semivariância; 𝑍(𝑋𝑖) o valor do atributo 𝑍 na posição 𝑋𝑖; 𝑍(𝑋𝑖 + ℎ) o valor do atributo 𝑍 separado da localidade 𝑋𝑖 pela distância ℎ (YAMAMOTO, 2020). Com o ajuste do modelo matemático calculado são definidos os coeficientes do modelo teórico para o semivariograma representados pelo efeito pepita (C0), variância (C1), patamar (C0 + C1) e alcance (a). Além disso, foi verificado a existência de anisotropia por meio da observação dos semivariogramas obtidos para diferentes direções, considerando as convenções direcionais de 0°, 45° 90° e 135°, conforme descrito por Yamamoto (2020). A escolha do semivariograma experimental (teórico) mais bem ajustado (por exemplo, esférico, exponencial e gaussiano), levou-se em consideração o menor valor de RMSE (Root Mean Squared Error) e o melhor valor de coeficiente de determinação (R²) por 47 meio da validação cruzada leave-one-out. Após o ajuste do modelo matemático, foi realizada a interpolação dos dados por krigagem ordinária. O Grau de Dependência Espacial (GDE) do semivariograma ajustado foi avaliado pelo efeito pepita relativo determinado pela Equação 9, sendo considerada forte dependência espacial GDE < 0,25%, moderado para valores entre 0,25 ≤ GDE < 0,75, e fraca dependência espacial se GDE ≥ 0,75, conforme classificação proposta por Cambardella et al. (1994). 𝐺𝐷𝐸 (%) = 𝐶0 𝐶0 + 𝐶1 x 100 (9) Onde 𝐺𝐷𝐸 refere-se ao grau de dependência espacial do modelo, 𝐶0 refere-se ao efeito pepita e 𝐶0 + 𝐶1 o patamar respectivamente. A Figura 4 apresenta um fluxograma das etapas seguidas para a regularização do conjunto de dados do GPM, FLDAS, MODIS e SMAP por krigagem ordinária. Figura 4. Fluxograma das etapas seguidas para regularização dos dados. *(I): aquisição da base de dados; (II): análise estatística; (III): análise geoestatística; (IV): validação cruzada e (V): krigagem ordinária. O ajuste dos semivariogramas foram realizados com uso do software R, sendo utilizados os pacotes raster (HIJMANS, 2020) e rgdal (BIVAND et al., 2020) para leitura e 48 espacialização dos dados, e o pacote gstat (PEBESMA, 2004) para a modelagem dos semivariogramas. O exemplo do script utilizado para regularização encontra-se disponível em anexo (Anexo B1). A Tabela 5 apresenta a relação das variáveis utilizados neste estudo, a respectiva fonte de aquisição, resolução espacial original e forma de processamento. Tabela 5. Descrição das características gerais do conjunto de variáveis utilizadas. Variáveis utilizadas Fonte/provedor Resolução Regularização Precipitação (mm) GEE/NASA ~10km KO (30m) Temperatura do ar (°C) GEE/NASA 1.000m KO (30m) Umidade do ar (kg.kg-1) GEE/NASA ~10km KO (30m) Umidade do solo (cm3.cm-3) NASA/ESA 1.000m KO (30m) NDVI GEE/ESA 30m - NDWI GEE/ESA 30m - SAVI GEE/ESA 30m - Elevação (m) Carta topográfica 30m - Declividade (%) MDE 30m - Orientação TWI Distância entre vias (m) Carta Topográfica/ OpenStreetMap 30m - Densidade de vias (k/km²) Cobertura e uso da Terra Sentinel-2/Google Earth Pro 30m - N° de Focos de incêndios INPE - Mapeamento de cicatrizes (30m) *NDVI: Normalized Difference Vegetation Index; TWI: Topographic Wetness Index; GEE: Google Earth Engine; KO: Krigagem Ordinária; DK: Densidade de Kernel. 5.5. Previsão da Suscetibilidade de Incêndio e Queimadas Na literatura, existem vários estudos que propõe a associação de fatores para indicar os locais com Suscetibilidade de Incêndios e Queimadas (SIQ) (JAISWAL et al., 2002; BONAZOUNTAS et al., 2005; PARENTE; PEREIRA, 2016; MOTA et al., 2019; POURGHASEMI et al., 2020). Entretanto, associar vários fatores para compor um método de previsão pode torna-se muito oneroso, além de apresentar graus de subjetividade regionais associados aos fatores climático