UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” FACULDADE DE CIÊNCIAS AGRÁRIAS E VETERINÁRIAS CAMPUS DE JABOTICABAL MAPEAMENTO DIGITAL DE SOLOS DA QUADRÍCULA DE RIBEIRÃO PRETO - SP PELO MÉTODO RANDOM FOREST Matheus Felipe Oliveira Geógrafo JABOTICABAL – SÃO PAULO – BRASIL 2016 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” FACULDADE DE CIÊNCIAS AGRÁRIAS E VETERINÁRIAS CÂMPUS DE JABOTICABAL MAPEAMENTO DIGITAL DE SOLOS DA QUADRÍCULA DE RIBEIRÃO PRETO - SP PELO MÉTODO RANDOM FOREST Matheus Felipe Oliveira Orientador: Prof. Dr. José Eduardo Corá Dissertação apresentada à Faculdade de Ciências Agrárias e Veterinárias – Unesp, Câmpus Jaboticabal, como parte das exigências para a obtenção do título de Mestre em Agronomia (Ciência do Solo). JABOTICABAL – SÃO PAULO – BRASIL 2016 Oliveira, Matheus Felipe O48m Mapeamento digital de solos da quadrícula de Ribeirão Preto - SP pelo método Random Forest / Matheus Felipe Oliveira. – – Jaboticabal, 2015 x, 112 p. : il. ; 28 cm Dissertação (mestrado) - Universidade Estadual Paulista, Faculdade de Ciências Agrárias e Veterinárias, 2015 Orientador: José Eduardo Corá Banca examinadora: Célia Regina Paes Bueno, Antonio Sérgio Ferraudo, Waldir de Carvalho Junior Bibliografia 1. Variáveis geomorfométricas. 2. Geoprocessamento. 3. Random Forest. I. Título. II. Jaboticabal-Faculdade de Ciências Agrárias e Veterinárias. CDU 528.7 Ficha catalográfica elaborada pela Seção Técnica de Aquisição e Tratamento da Informação – Serviço Técnico de Biblioteca e Documentação - UNESP, Câmpus de Jaboticabal. DADOS CURRICULARES DO AUTOR MATHEUS FELIPE OLIVEIRA – é natural de Ribeirão Preto, São Paulo. Possui graduação em Geografia (Licenciatura e Bacharelado) pela Unesp Campus de Ourinhos. No primeiro semestre de 2010 foi bolsista Prograd pelo grupo Cenpea (Centro de Estudos de Percepção e Educação Ambiental) realizando trabalhos de extensão no Parque Ecológico Municipal Bióloga Tânia Mara Netto Silva. Em 2011, passou a ser bolsista do grupo PET (Programa de Educação Tutorial) onde desenvolveu projetos de extensão na área de educação e começou sua iniciação científica na área de Bacias Hidrográficas, Uso e Ocupação do Solo, Geoprocessamento e Sensoriamento Remoto. Participa do grupo de pesquisa Centro de Estudo e Divulgação de Informações sobre Áreas Protegidas, Bacias Hidrográficas e Geoprocessamento (CEDIAP- GEO). No primeiro semestre de 2013, foi estagiário na empresa Engemap Geoinformação. No segundo semestre, já concluída sua graduação, ingressou no Mestrado no programa de Pós- Graduação em Agronomia (Ciência do Solo) da Faculdade de Ciências Agrárias e Veterinárias, Unesp Campus de Jaboticabal, sendo bolsista CAPES por 24 meses. Participa do projeto de extensão ECOS voltado para o ensino da formação e conservação de solos, além de ser autor do projeto de extensão Mapeamento das características físicas e químicas do solo em núcleos do assentamento Mário Lago, em Ribeirão Preto. "Se eu vi mais longe, foi por estar sobre ombros de gigantes." Isaac Newton A minha irmã Ana Paula e a minha companheira Tatiana por todas as formas de incentivo, além do simples fato de existirem na minha vida. Ofereço Aos meus pais Paulo e Beatriz, pela luta e pela dedicação que me fizeram alcançar meus objetivos. Dedico AGRADECIMENTOS À Professora Dr.ª Célia Regina Paes Bueno pela paciência, confiança e pelo apoio dado em toda minha trajetória no mestrado. Ao amigo Gabriel Damasceno por ter me encorajado nessa jornada além do apoio dado em todas as etapas, especialmente as mais difíceis. Ao amigo Rafael Crivelenti por me apresentar ao Mapeamento Digital de Solos. Aos amigos Leandro, Ronaldo e Bernardo seja pelo tempo de convívio ou pelas contribuições dadas. Aos amigos da República Boi Banguelo que me acolheram como um membro de família no momento em que mais precisei. Aos orientados da professora Célia: James, Marcelino, Raquel e Jasmine, pela amizade e pela ajuda nos trabalhos de campo. A bibliotecária Sueli Cristina dos Santos Pacheco, Instituto Agronômico de Campinas, pela atenção e pela vontade de ajudar pouco vista hoje em dia. Ao pesquisador Waldir de Carvalho Junior, da Embrapa Solos do Rio de Janeiro, pela disponibilidade e profissionalismo, que contribuiu de maneira muito importante neste trabalho. Aos funcionários do departamento de Solos e Adubos da Unesp Jaboticabal, em especial o técnico Dejair, por me acompanhar pelas longas viagens nos trabalhos de campo. Ao meu grande amor Tatiana por me apoiar e me incentivar, além de compreender os momentos em que estive ausente. Aos meus pais e minha irmã pelos conselhos que me deram baseados em suas incríveis experiências pessoais. x SUMÁRIO RESUMO................................................................................................................... xii ABSTRACT ............................................................................................................... xiii 1. INTRODUÇÃO ..................................................................................................... 1 2. REVISÃO DE LITERATURA ................................................................................ 2 2.1. Os levantamentos de solos ............................................................................... 2 2.2. Histórico do levantamento de solos no Brasil................................................ 4 2.3. Os métodos de levantamento de solos ......................................................... 6 2.3.1. O mapeamento convencional de solos .................................................. 6 2.3.2. O mapeamento digital de solos .............................................................. 8 2.4. Variáveis preditoras no Mapeamento Digital de Solos ................................ 10 2.5. O método Random Forest ........................................................................... 12 2.6. Avaliação da acurácia ................................................................................. 17 2.7. Escala efetiva ................................................................................................. 19 3. MATERIAIS E MÉTODOS ................................................................................. 21 3.1. Caracterização da área de estudo .............................................................. 21 3.1.1. Localização .......................................................................................... 21 3.1.2. Geologia............................................................................................... 22 3.1.3. Relevo .................................................................................................. 25 3.1.4. Clima, vegetação e hidrografia ............................................................ 28 3.2. Materiais utilizados ...................................................................................... 31 3.2.1. Base cartográfica digital ....................................................................... 31 3.2.2. Obtenção das variáveis........................................................................ 33 3.2.3. Processamento dos dados................................................................... 40 4. RESULTADOS E DISCUSSÃO ......................................................................... 42 4.1. Descrição das variáveis dos fatores s.c.o.r.p.a.n. ....................................... 42 4.1.1. Fator s .................................................................................................. 42 4.1.2. Fator r .................................................................................................. 45 xi 4.1.3. Fator p.................................................................................................. 54 4.2. Análise dos dados das amostragens .......................................................... 55 4.3. Avaliação dos modelos Random Forest ajustados ..................................... 60 4.4. Avaliação da predição das classes de solo ................................................. 62 4.5. Importância das variáveis ........................................................................... 68 4.6. Mapas das predições das classes de solos ................................................ 70 5. CONCLUSÕES .................................................................................................. 84 6. REFERÊNCIAS .................................................................................................. 85 xii MAPEAMENTO DIGITAL DE SOLOS DA QUADRÍCULA DE RIBEIRÃO PRETO - SP PELO MÉTODO RANDOM FOREST RESUMO – O presente estudo buscou desenvolver um modelo capaz de compreender as relações solo-paisagem para a predição de classes de solo das folhas do IBGE de Ribeirão Preto, Serrana, Cravinhos e Bonfim Paulista, que constituem a quadrícula de Ribeirão Preto. Para isto, foram utilizadas informações contidas em um mapa pedológico convencional semidetalhado na escala 1:100.000, um Modelo Digital de Elevação (MDE) com resolução espacial de 30 metros, além do mapa geológico na escala 1:50.000. Do mapa geológico foi obtida a litologia e do MDE, foram obtidas as variáveis geomorfométricas por meio de técnicas de geoprocessamento. Todas essas informações foram relacionadas em uma matriz, de onde foram selecionadas três amostragens estratificadas de acordo com a área das classes, extraindo-se dados para treino e teste, que foram utilizados para aplicação em modelos do método Random Forest e avaliação da acurácia. Foram testados diferentes ajustes, com aplicação dos modelos nas classes no segundo e terceiro nível categórico. Com uma amostragem que compreende apenas 0,43% do total da área, o modelo para o segundo nível categórico apresentou uma exatidão global de 62,5%, com o mapa digital de solos apresentando uma persistência de 70,63% das classes do mapa original, valores maiores do que os apresentados para o terceiro nível categórico, com exatidão global de 57,1% e persistência de 44,24%. As variáveis mais importantes na compreensão das relações solo-paisagem foram Litologia, Elevação, Declividade e Distância da rede de drenagem. O estudo mostrou que a metodologia empregada é capaz de contribuir para criação de mapas de solo, com a possibilidade de ser empregado em áreas onde não há informações de solos pré-existentes, de maneira rápida e menos onerosa, auxiliando o trabalho dos pedólogos. Palavras-chave: variáveis geomorfométricas, geoprocessamento, Random Forest. xiii THE DIGITAL SOIL MAPPING OF RIBEIRÃO PRETO - SP GRID BY RANDOM FOREST METHOD ABSTRACT – This study aimed to develop a model to understand the soil-landscape relationships to predict soil classes of topographic sheets of IBGE from Ribeirão Preto, Serrana, Cravinhos and Bonfim Paulista, constituting the grid Ribeirão Preto. For this, we used information included in a conventional semi-detailed soil map at 1:100,000 scale, a Digital Elevation Model (DEM) with a spatial resolution of 30 meters, in addition to the geological map at 1: 50,000 scale. From geological map was obtained lithology and from MDE were obtained the geomorphometric variables through geoprocessing techniques. All this information was linked in a matrix, from which they were selected three stratified sampling according to the area of classes, extracting data for training and testing, which were used for use in models of Random Forest method and evaluation of accuracy. Adjustments were tested with application of models in classes on the second and third categorical level. With a sample comprising only 0.43% of the total area, the model for the second categorical level had an overall accuracy of 62.5%, with the digital soil map showing a persistence of 70.63% of classes from original map, higher values than those presented for the third categorical level, with an overall accuracy of 57.1% and persistence of 44.24%. The most important variables in understanding the soil- landscape relationships were Lithology, Elevation, Slope Distance and drainage network. The study showed that the method is able to contribute to the creation of soil maps, with the possibility of being employed in areas where there is no pre- existing soil information quickly and less costly way, assisting the work of soil scientists. Keywords: geomorphometric variables, geoprocessing, Random Forest. xiv ÍNDICE DE TABELAS Tabela 1 - Níveis de detalhamento por escalas, área mínima mapeável e densidade de observações. Adaptado de IBGE (2007). ............................................................... 3 Tabela 2 - Matriz de confusão com proporções de observações dentro de c classes preditas i e classes observadas j. .............................................................................. 17 Tabela 3 - Escala de classificação do valor K. .......................................................... 19 Tabela 4 – Unidades geológicas, litologia, idade e área em hectares e porcentagem das respectivas classes no total da quadrícula. ........................................................ 25 Tabela 5 - Trecho da matriz de dados grid. ............................................................... 39 Tabela 6 - Tabela de conversão da classificação de solos antiga para atual do mapa semidetalhado da quadrícula de Ribeirão Preto, com a área de cada classe em hectares e porcentagem. ........................................................................................... 43 Tabela 7 - Indicadores e cálculo da escala efetiva para o mapa pedológico da quadrícula de Ribeirão Preto. .................................................................................... 44 Tabela 8 - Distribuição das classes de elevação por área na quadrícula de Ribeirão Preto. ......................................................................................................................... 46 Tabela 9 - Distribuição das classes de declividade por área na quadrícula de Ribeirão Preto de acordo com as classes definidas por Lepsch et al. (1991). .......... 47 Tabela 10 - Distribuição das classes de Aspecto por área na quadrícula de Ribeirão Preto. ......................................................................................................................... 49 Tabela 11 - Distribuição das classes de curvatura por área na quadrícula de Ribeirão Preto. ......................................................................................................................... 50 Tabela 12 - Distribuição das classes de distância da rede de drenagem por área na quadrícula de Ribeirão Preto. .................................................................................... 51 Tabela 13 - Distribuição da intervalo de classes de CTI por área na quadrícula de Ribeirão Preto. .......................................................................................................... 52 Tabela 14 - Distribuição da intervalo de classes de SPI por área na quadrícula de Ribeirão Preto. .......................................................................................................... 54 Tabela 15 - Distribuição da intervalo de classes de Litologia por área na quadrícula de Ribeirão Preto ...................................................................................................... 55 xv Tabela 16 - Quantidade de pontos para treino, teste e o total de cada amostragem aleatória..................................................................................................................... 55 Tabela 17 - Estatística descritiva dos conjuntos de amostragem e do grid da quadrícula. ................................................................................................................. 58 Tabela 18 - Matriz de confusão do modelo Random Forest com amostragem A2, ntree = 300 e mtry = 4 no segundo nível categórico. ................................................ 63 Tabela 19 - Matriz de confusão do modelo Random Forest com amostragem A2, ntree = 300 e mtry = 4 no terceiro nível categórico. .................................................. 67 Tabela 20 - Caracterização do ponto 3. .................................................................... 78 Tabela 21- Caracterização do ponto 5. ..................................................................... 79 Tabela 22 - Caracterização do perfil 1350................................................................. 80 Tabela 23 - Caracterização do perfil 1346................................................................. 81 Tabela 24- Caracterização do ponto 33. ................................................................... 82 xvi ÍNDICE DE FIGURAS Figura 1 - Representação esquemática de árvore de decisão onde Xi são as variáveis; a, b, c, d, e são os limites da regra de decisão; A, B e C correspondem as classes. ..................................................................................................................... 13 Figura 2 - Funcionamento do método Random Forest. Adaptado de OSHIRO (2013). .................................................................................................................................. 15 Figura 3 - Mapa de localização da quadrícula de Ribeirão Preto. ............................. 22 Figura 4 - Mapa geológico da quadrícula de Ribeirão Preto (adaptado de Sinelli et al., 1973). Sedimentos Aluvionares (Qa) – areias e argilas; Sedimentos Correlatos a Formação Itaqueri (KTii) – arenitos conglomeráticos; Formação Botucatu (JKb) – arenitos eólicos; Formação Pirambóia (TrJp), – arenitos fluviais; Formação Serra Geral (JKsg) – Basaltos e intercalações de arenitos intertrapeanos; Formações Superficiais (TQir) – areias inconsolidadas e Intrusivas Básicas (sill) (JK) – diabásios. .................................................................................................................. 24 Figura 5 – Vista do relevo testemunho tabuliforme. .................................................. 26 Figura 6 - Modelo tridimensional da quadrícula de Ribeirão Preto: a) visada NO-SE; b) visada NE-SO. ...................................................................................................... 27 Figura 7 - Balanço hídrico do município de Ribeirão Preto. Fonte: Sentelhas et al. (1999). ....................................................................................................................... 28 Figura 8 - Balanço hídrico do município de São Simão. Fonte: Sentelhas et al. (1999). ....................................................................................................................... 29 Figura 9 - Mapa da hidrografia da quadrícula de Ribeirão Preto. .............................. 31 Figura 10 - Funcionamento da ferramenta Fill. .......................................................... 34 Figura 11 - Combinações de curvatura (ESRI, 2014). ............................................... 35 Figura 12 – Exemplo de funcionamento do modelo D8 para o cálculo da direção de fluxo. .......................................................................................................................... 36 Figura 13 – Acumulação de fluxo. ............................................................................. 37 Figura 14 - Fluxograma da metodologia utilizada. ..................................................... 41 Figura 15 - Mapa Pedológico da Quadrícula de Ribeirão Preto (adaptado de Oliveira & Prado, 1987). ......................................................................................................... 44 Figura 16 - Mapa da elevação da quadrícula de Ribeirão Preto. .............................. 45 xvii Figura 17 - Mapa de declividade da quadrícula de Ribeirão Preto. ........................... 47 Figura 18 – Mapa do Aspecto da quadrícula de Ribeirão Preto. ............................... 48 Figura 19 - Mapa de curvatura da quadrícula de Ribeirão Preto. .............................. 50 Figura 20 - Mapa da distância da rede de drenagem. ............................................... 51 Figura 21 - Mapa de CTI da quadrícula de Ribeirão Preto. ....................................... 52 Figura 22 - Mapa de SPI da quadrícula de Ribeirão Preto. ....................................... 53 Figura 23 - Mapa da Litologia na quadrícula de Ribeirão Preto. ............................... 54 Figura 24 – Distribuição percentual das amostras nas diferentes amostragens de treino para cada classe em relação ao grid no segundo nível categórico. ................ 56 Figura 25 – Distribuição percentual das amostras nas diferentes amostragens de treino para cada classe em relação ao grid no terceiro nível categórico. .................. 56 Figura 26 - Histogramas das variáveis para o grid e para as amostragens A1, A2 e A3. ............................................................................................................................. 59 Figura 27 - Taxa de erro OOB pelo número de árvores no segundo nível categórico. .................................................................................................................................. 61 Figura 28 - Taxa de erro OOB pelo número de árvores no terceiro nível categórico. .................................................................................................................................. 61 Figura 29 - Distribuição da média das variáveis dos dados de treino entre as classes MT e RL (valores normalizados entre 0 e 1). ............................................................ 64 Figura 30 - Distribuição da média das variáveis dos dados de treino entre as classes LV, LVA, NV e RQ (valores normalizados entre 0 e 1). ............................................. 65 Figura 31 - Distribuição da média das variáveis dos dados de treino entre as classes CX, GM, GX e OX (valores normalizados entre 0 e 1). ............................................. 66 Figura 32 - Distribuição da média das variáveis dos dados de treino entre as classes LVd, LVdf, LVef, LVwf, NVef e RQo (valores normalizados entre 0 e 1). .................. 68 Figura 33 - Gráfico de importância das variáveis pelas estimativas MDA e MDG. a) segundo nível categórico; b) terceiro nível categórico. ............................................. 69 Figura 34 - Mapa de solos original (a) e mapa de solos digital (b) da quadrícula de Ribeirão Preto no segundo nível categórico. ............................................................. 70 Figura 35 - Comparação e variação da área das classes de solo entre o mapa original e o mapa digital no segundo nível categórico. .............................................. 71 xviii Figura 36 - Mapa da mudança ou persistência de classes no mapa digital em relação ao mapa original no segundo nível categórico. ......................................................... 72 Figura 37 - Porcentagem das classes dentro das associações fragmentadas no mapa digital para o segundo nível categórico. .......................................................... 73 Figura 38 - Mapa de solos original (a) e mapa de solos digital (b) da quadrícula de Ribeirão Preto no terceiro nível categórico................................................................ 74 Figura 39 - Comparação e variação da área das classes de solo entre o mapa original e o mapa digital no terceiro nível categórico. ................................................ 74 Figura 40 - Mapa da mudança ou persistência de classes no mapa digital em relação ao mapa original no terceiro nível categórico. ........................................................... 76 Figura 41 - Porcentagem das classes dentro das associações fragmentadas no mapa digital para o terceiro nível categórico. ............................................................ 77 Figura 42 - Perfil do Nitossolo Vermelho eutroférrico no município de Dumont - SP.78 Figura 43 - Localização do ponto 3 obtido em campo e sua comparação no mapa original e no mapa digital do terceiro nível categórico. .............................................. 79 Figura 44- Paisagem de ocorrência do Neossolo Quartzarênico órtico. ................... 79 Figura 45 - Localização do ponto 5 obtido em campo e sua comparação no mapa original e no mapa digital do terceiro nível categórico. .............................................. 80 Figura 46 - Perfil do Latossolo Vermelho acriférrico no município de Jardinópolis - SP. Fonte: Oliveira & Prado (1987). .......................................................................... 80 Figura 47 - Localização do perfil 1350 e sua comparação no mapa original e no mapa digital do terceiro nível categórico. .................................................................. 81 Figura 48 - Perfil do Neossolo Litólico distrófico no município de Luís Antônio - SP. Fonte: Oliveira & Prado (1987). ................................................................................. 81 Figura 49 - Localização do perfil 1346 e sua comparação no mapa original e no mapa digital do terceiro nível categórico. .................................................................. 82 Figura 50 - Localização do perfil 33 e sua comparação no mapa original e no mapa digital do segundo nível categórico. .......................................................................... 83 1 1. INTRODUÇÃO O Brasil possui uma grande diversidade de solos por conta de uma variedade biológica, climática, geologica e geomorfológica, proporcionadas pela sua extensão territorial de dimensões continentais. Esta diversidade de solos dá suporte a biomas de grande importância, centros urbanos e áreas rurais, sendo seu conhecimento imprescindível para sua conservação e preservação. Os mapas pedológicos que representam a distribuição espacial dos tipos de solos se tornam essenciais para o uso e manejo de maneira racional e sustentável. As informações contidas no mapa pedológico possibilitam ao poder público a criação de políticas, construção de instrumentos e leis que permitam a formulação de diretrizes de preservação, recuperação e desenvolvimento (CARVALHO, et al., 2013). De acordo com Oliveira (2005), os mapas pedológicos são também documentos muito úteis no planejamento inicial de cidades, ou em planos diretores, indicando locais mais apropriados para escavações, na seleção de áreas para estabelecimento de cinturão verde, cemitérios, aterros sanitários, entre outros usos, além de auxiliar na formulação de políticas de uso do solo. No Brasil existem extensas áreas que carecem de informação completa e em escala adequada para solucionar problemas de uso, manejo, conservação, prevenção e recuperação de áreas degradadas, agrícolas e não agrícolas (SANTOS, 2007). A cobertura de mapas de solos do Brasil é pouco detalhada (escala 1:1.000.000), realizadas pelo projeto RADAM (Radar na Amazônia) e pela Embrapa Solos (DEMATTÊ et. al, 2004). O estado de São Paulo foi pioneiro no levantamento sistemático de solos por quadrículas na escala 1:100.000, porém os mapeamentos realizados recobrem apenas 15% da área total do estado (CRIVELENTI, 2009). Os métodos de levantamento tradicionais para escalas detalhadas e semidetalhadas apresentam tempo de execução elevados. Métodos de mapeamento supervisionados por meios computacionais estão cada vez mais sendo trabalhados 2 e refinados para subsidiar esta falta de dados com maior detalhamento (COELHO, 2010). Parte-se da hipótese de que é possível criar um modelo capaz de compreender a relação solo-paisagem da área de estudo por meio do mapa pedológico semidetalhado, do mapa geológico e de variáveis geomorfométricas, utilizando uma baixa densidade de amostras em relação a área total, capaz de reproduzir o mapa original com certo grau de semelhança. O objetivo do presente trabalho é executar o mapeamento digital das folhas do IBGE de Ribeirão Preto, Serrana, Bonfim Paulista e Cravinhos, que constituem a quadrícula de Ribeirão Preto, avaliando o desempenho dos modelos Random Forest para as classes de solo segundo e terceiro nível categórico. 2. REVISÃO DE LITERATURA 2.1. Os levantamentos de solos Os levantamento de solos de acordo a Embrapa (1995), tem como objetivo identificar e separar unidades de mapeamento, que são grupos de áreas de solos criados para mostrar sua distribuição espacial, segundo uma unidade taxonômica. Um levantamento é constituído em sua forma final, por um mapa e um texto explicativo, que define, descreve e interpreta as classes de solos componentes de unidades de mapeamento. Uma unidade de mapeamento é o agrupamento de área de solos, estabelecido para possibilitar a representação cartográfica, distribuição espacial, extensão e limites dos solos (IBGE, 2007). Uma unidade de mapeamento pode ser constituída de uma única unidade taxonômica, conhecida como unidade simples, ou por várias unidades taxonômicas, conhecidas como unidades combinadas (EMBRAPA, 1995). Entre as unidades combinadas, encontram-se as associações, que são constituídas pelo agrupamento de duas ou mais unidades taxonômicas distintas, apresentando limites nítidos ou pouco nítidos entre si, podendo ser separadas por 3 levantamentos de maior detalhe. As associações são estabelecidas pela necessidade de generalizações cartográficas, em função da escala e do padrão de ocorrência dos solos em uma área. É designado no mapa pela junção dos nomes de duas ou mais classes ligados pelo sinal “+” (IBGE, 2007; EMBRAPA, 1995). Os levantamentos podem ser identificados como esquemático, exploratório, reconhecimento, semidetalhado, detalhado e ultradetalhado. Estes níveis se diferenciam em função da precisão, escala cartográfica e objetivo do trabalho. A densidade de observações que corresponde aos exames visuais e coletas de campo varia em função dos diferentes níveis (Tabela 1). Tabela 1 - Níveis de detalhamento por escalas, área mínima mapeável e densidade de observações. Adaptado de IBGE (2007). Níveis de detalhamento Escalas usuais Área mínima mapeável (ha) Densidade de observações (obs./ha) Ultadetalhado 1:500 - 1:5000 0,001 - 10 0,20 - 4 Detalhado 1:7000 - 1:20000 0,19 - 1,60 0,02 - 0,2 Semidetalhado 1:25000 - 1:50000 2,50 - 10 0,04 - 2 Reconhecimento 1:50000 - 1:750000 10 - 2250 < 0,04 Exploratório 1:750000 - 1:2500000 2250 - 25000 sem especificação Os levantamentos exploratórios são apropriados para grandes extensões territoriais, onde necessita-se de informações de natureza qualitativa do solo, identificando áreas de maior ou menor potencial, prioritárias ao desenvolvimento regional. Os levantamentos de reconhecimento são executados para avaliação qualitativa e semiquantitativa, visando a estimativa do potencial de uso agrícola e não agrícola (EMBRAPA, 1995). Os levantamentos semidetalhados são utilizados desde estudos ambientais para empreendimentos localizados, manejos e conservação do solo, microbacias, projetos agrícolas, além de outras propriedades importantes para fins de engenharia civil, considerando que os levantamentos semidetalhados podem ser necessários em áreas de diversas extensões (áreas especiais, microrregiões, bacias hidrográficas, municípios e estados). 4 Os levantamentos detalhados e ultradetalhados acumulam um grande número de características para individualização das classes de solos em níveis categóricos mais baixos. São utilizados em escalas grandes, para projetos de uso intensivo dos solos, em áreas relativamente pequenas no caso do levantamento detalhado e muito pequenas para o ultradetalhado. São utilizadas para decisões localizadas e solução de problemas específicos (EMBRAPA, 1995). 2.2. Histórico do levantamento de solos no Brasil No ano de 1934, os estudos de solos até então eram denominados estudos agrológicos e se iniciaram na região Nordeste, com o intuito de conter a seca de 1930 por meio da construção de açudes (CARVALHO, et al., 2013). O Instituto José Augusto Trindade, em Sousa na Paraíba, é considerado pioneiro em realizar estudos detalhados de solos. O mapa agrológico da bacia de irrigação do açude de São Gonçalo é considerado o primeiro mapa de solos do Brasil (IBGE, 2007). O conhecimento sobre o solo até então não estava organizado em um sistema taxonômico, mas o fato da agricultura constituir uma das principais bases da economia no Brasil criou a necessidade em se ter um maior conhecimento a respeito dos solos e seus potenciais agrícolas. Dessa forma, o governo passou a fomentar pesquisas para atender os anseios da economia nacional (CARVALHO, et al., 2013). Em 1950, o Instituto Agronômico em parceria com o Departamento de Água e Energia e o governo do estado de São Paulo, realizaram levantamentos detalhados na bacia de Taubaté, no vale do Rio Paraíba, para suprir a carência de dados sobre características físicas e químicas dos solos da região, sendo necessária para o planejamento geral de irrigação e drenagem. Estes esforços resultaram em três relatórios e três mapas na escala 1:10.000, onde são descritos os solos e suas principais características químicas e físicas (VERDADE et al., 1961). No ano de 1960 foi publicado o mapa de solos do Estado de São Paulo na escala de 1:500.000, trabalho realizado pelo Centro Nacional de Pesquisa de Solo, atual Embrapa Solos. Este mapa foi atualizado em uma parceria do Instituto Agronômico com a Embrapa Solos, projeto iniciado no ano de 1996, que contribuiu 5 para resolver antigos problemas e incorporar novos conhecimentos (ROSSI & OLIVEIRA, 2000). O esforço pioneiro do governo na década de 1970 para realizar pesquisas sobre os recursos naturais do território brasileiro resultou no projeto RADAM, organizado pelo Ministério de Minas e Energia. A princípio, priorizou-se a coleta de dados sobre recursos minerais, solos, vegetação, uso da terra e cartografia na faixa de influência da rodovia Transamazônica. Foi utilizado para as pesquisas, o radar de visada lateral (SLAR – sidelooking airbone radar), que superou a dificuldade na obtenção de imagens em condições de alta nebulosidade (OLIVEIRA, 2011). O êxito no trabalho resultou na expansão da série “Levantamento de Recursos Naturais” que incluía o mapa temático de solos na escala 1:1.000.000, recobrindo a partir de 1975 todo o território nacional, no qual passou denominar-se Projeto RADAMBRASIL (CARVALHO, et al., 2013). Devido ao reduzido número de profissionais e a escassez de recursos financeiros, os levantamentos realizados pelo projeto RADAMBRASIL eram de caráter exploratório, enquanto os levantamentos realizados pelo Centro Nacional de Pesquisa de Solos, atual Embrapa Solos, eram de reconhecimento (CHAGAS, 2006). Levantamentos semidetalhados de solos do estado de São Paulo na escala 1:100.000 foram realizados a partir de 1975, pela Seção de Pedologia (antiga seção de Agroecologia) do Instituto Agronômico (IAC), recobrindo uma área de apenas 15% do estado (SILVA, 2012). A realização de levantamentos pedológicos no Brasil contribuiu para diversos órgãos de assistência técnica, planejamento e execução de projetos na esfera federal ou estadual, para fins de seleção de áreas para colonização, estudos de viabilidade técnica de projetos de irrigação e drenagem, introdução de novas culturas agrícolas, planejamento regional e local, zoneamentos pedoclimáticos, assistência a áreas inundadas por represas hidrelétricas, seleção de áreas experimentais e atendimento de instituições de ensino (EMBRAPA, 1995). Apesar dessas contribuições, o levantamento de solos foi considerado como atividade não ligada diretamente a produção, sendo sua relação custo/benefício pouco compreendida e difícil de ser estimada. Houve uma série de restrições 6 orçamentárias que desacelerou a atualização progressiva do conhecimento de solos a partir de 1974, onde observa-se que vários estados da Federação são carentes de informações de solos (EMBRAPA, 1995). Recentemente, técnicas de sensoriamento remoto, estatística, modelagem, sistema de posicionamento global, o uso generalizado da informática e o acesso instantâneo a informação, transformaram radicalmente os procedimentos para levantamento e atualização das bases dos mapas e seus derivados (CARVALHO, et al., 2013). Novas oportunidades surgem para a ciência do solo, como o Mapeamento Digital de Solos, uma abordagem surgida em 1970 e que foi introduzida no Brasil na década de 2000, com estudos cada vez mais frequentes no país (TEN CATEN, 2012). 2.3. Os métodos de levantamento de solos 2.3.1. O mapeamento convencional de solos O método de Levantamento Pedológico convencional, ou também conhecido como método clássico, é baseado no conceito de solo como um corpo natural organizado, na qual é resultado da interação complexa de fatores pedogenéticos, que foi proposto por Dokouchaev. A partir deste conceito, o solo deixou de ser considerado simplesmente como um corpo inerte, resultado de uma rocha matriz, passando a ser identificado como um material que evolui no tempo, sob ação das interações entre a litosfera, atmosfera, hidrosfera e a biosfera (COELHO, 2010). O Levantamento convencional, é baseado no conceito de que o solo é resultado da interação de seu ambiente de formação (QI & ZHU, 2003). O processo de formação do solo proposto por Jenny (1941) relaciona os principais fatores identificados por Dokuchaev, exposto na equação 1 abaixo: (1) onde o solo (S) é resultado da interação dos fatores clima (Climate – cl), organismos (Organisms – o), relevo (Relief – r), material de origem (Parental 7 material – p) e tempo (Time – t), sendo esta última a única variável independente. Este método é conhecido como CLORPT, devido as iniciais dos fatores pedogenéticos levados em consideração. O modelo utilizado pelo pedólogo para determinar as classes de solo e delimitar seus limites, consiste na correlação entre os tipos de solos e o ambiente onde se encontram, baseados na abordagem CLORPT. Esta abordagem é considerada qualitativa, de natureza empírico-determinística, realizada por meio da análise fisiográfica da paisagem e pela interpretação de fotografias aéreas (MEDONÇA-SANTOS & MANZATTO, 2007). O Levantamento Pedológico convencional é baseado no modelo de representação conhecido como discreto, na qual os solos no campo são representados por meio de polígonos e mostram a distribuição de uma classe de solo particular, que é classificando de acordo com o sistema taxonômico vigente e estabelece limites entre as classes definidas no mapa, tendo como base o pressuposto que os fatores de formação (CLORPT) controlam a distribuição dos diferentes solos na paisagem (MEDONÇA-SANTOS & SANTOS, 2003; ZHU, 1997). O modelo de representação discreto limita o tamanho da unidade de mapeamento, sendo assim, unidades que apresentam tamanho menor do que o estabelecido acabam sendo ignoradas ou anexadas em unidades maiores, sendo criadas associações de solos que expressam a inclusão de diferentes solos no polígono (ZHU, 2001). O método convencional não considera a dependência espacial entre as unidades de mapeamento, principalmente em levantamentos detalhados ou áreas onde os limites entre os solos não são óbvios. Dessa forma, o modelo discreto, utilizado no mapeamento convencional não é realístico, por que os limites naturais na paisagem tendem a ser mais graduais que abruptos (MEDONÇA-SANTOS & SANTOS, 2003). As características e propriedades dos solos variam espacialmente, sendo esta variabilidade resultante da atuação do clima e organismos sobre o material de origem, sendo condicionadas pelo relevo e pelo tempo (SOIL SURVEY DIVISION STAFF, 1993). A desvantagem da abordagem CLORPT é a de não tratar 8 adequadamente as autocorrelações espaciais das propriedades dos solos, especialmente a nível local (MCBRATNEY et al., 2000). Os pedólogos interpretam as características locais de topografia e vegetação como indícios de combinações dos fatores de formação dos solos, podendo inferir os limites entre classes e propriedades dos solos. Porém, seu paradigma é inadequado, pois ignora a variabilidade espacial dos fatores de formação e do próprio solo resultante (BURROUGH & MCDONNELL, 1998). A produção manual dos mapas de solos pelo levantamento convencional dificulta sua atualização rápida e acurada. A interpretação visual de fotografias aéreas consome muito tempo e é um processo propenso a erros, podendo ter como resultado, interpretações erradas durante o delineamento dos limites dos solos (ZHU et al., 2001). 2.3.2. O mapeamento digital de solos Devido ao caráter qualitativo do mapeamento convencional, este método passou a ser alvo de críticas. Novas abordagens utilizando modelagem quantitativa surgem com o objetivo de classificar e estudar os padrões de variação espacial dos solos na paisagem, objetivando melhorar seu conhecimento, com mais precisão e qualidade. Os métodos quantitativos foram coletivamente categorizados em um campo emergente da ciência do solo chamado de pedometria (MENDONÇA- SANTOS & SANTOS, 2003; MCBRATNEY, 2000). O termo pedometria foi cunhado por Alex B. McBratney, um neologismo das palavras pedo (solo) e metria (medida). Consiste na aplicação de métodos matemáticos e estatísticos para modelagem quantitativa de solos, com o objetivo de analisar sua distribuição, propriedades e comportamentos (HENGL, 2003). A pedometria lida com a incerteza em modelos de solos de variação determinística ou estocástica, imprecisão ou falta de conhecimento dos processos e propriedades do solo (MCBRATNEY, 2000). Para tratar o problema da variabilidade do solo sob uma ótica diferente, adota-se o modelo contínuo, na qual se assume que as características dos solos variam gradualmente no espaço e que assim devem ser representadas. Dessa 9 forma, modelos geoestatísticos são aplicados a Ciência do Solo, na tentativa de representar a variabilidade espacial dos atributos do solo e sua representação contínua (MEDONÇA-SANTOS & MANZATTO, 2007). O mapeamento pedométrico é geralmente caracterizado como uma produção geoestatística quantitativa da geoinformação do solo, sendo referido como mapeamento preditivo de solos ou mapeamento digital de solos, pois depende muito do uso de tecnologias da informação (HENGL, 2003). De acordo com Lagacherie & McBratney (2007), o mapeamento digital de solos consiste na criação e alimentação de sistemas de informação espacial de solos por meio de modelos numéricos, de modo a predizer a variabilidade espacial e temporal de classes e propriedades do solo, a partir de observações, conhecimento e dados de covariáveis ambientais relacionados. Uma abordagem proposta por McBratney et al. (2003) para o mapeamento digital de solos é a adaptação do modelo teórico de Jenny (1941), onde é incluída a posição espacial e a possibilidade de predizer o solo a partir de informações sobre ele mesmo (mapas existentes de classes e propriedades). Este modelo é conhecido como modelo s.c.o.r.p.a.n, representado na equação 2 abaixo: (2) onde: = Solo, classe ou atributo. s = soil (solo ou propriedade do solo em um dado ponto); c = climate (clima, propriedades climáticas do clima em um dado ponto); o = organisms (organismos, cobertura vegetal e uso do solo); r = topography (relevo, atributos da paisagem); p = parent material (material de origem, litologia); a = age (idade, tempo); n = space (espaço, posição espacial). 10 Este modelo consiste na descrição empírica de relações entre o solo e fatores referenciados espacialmente com o intuito de usá-los como funções de predição espacial do solo (MCBRATNEY, 2003). A possibilidade de predizer o solo a partir de informações já existentes com a criação de regras de classificação pode ser empregada para o treinamento de novos pedólogos ou para produção de novos mapas de solos em áreas onde não há informações de solos, desde que as mesmas relações solo-paisagem sejam válidas (QI & ZHU, 2003). Para a modelagem da equação s.c.o.r.p.a.n, ou seja, para predizer de forma quantitativa as relações entre classes ou propriedades de solos com seu ambiente, são utilizados diversos métodos como: modelos lineares generalizados, árvores de regressão e de classificação, redes neurais, sistemas fuzzy e a geoestatística (MEDONÇA-SANTOS & MANZATTO, 2007). Os dados e informações sobre as variáveis ambientais utilizadas na construção dos modelos mais comumente utilizados são a altitude, declividade, o índice de umidade que podem ser derivadas do Modelo Digital de Elevação (MDE), entre outros. Informações como Índice de Vegetação por Diferença Normalizada (NDVI) e composição mineralógica do solo podem ser extraídas de bandas espectrais (CARVALHO, et al., 2013; MEDONÇA-SANTOS & MANZATTO, 2007). O modelo s.c.o.r.p.a.n juntamente com as funções espaciais de predição de solos, tem se mostrado um método importante, especialmente em áreas onde os recursos em dados e informações de solos são escassos, como é o caso do território brasileiro (MEDONÇA-SANTOS & MANZATTO, 2007). 2.4. Variáveis preditoras no Mapeamento Digital de Solos O modelo s.c.o.r.p.a.n. possui sete fatores ou conjunto de variáveis independentes que o torna diferente do modelo proposto por Jenny, necessitando assim de mais informações sobre cada uma delas. Os dados que irão representar os fatores propostos no modelo scorpan são escolhidos de acordo com as fontes disponíveis e segundo alegações científicas. As ciências da terra e pesquisas ecológicas dos últimos 20 anos tem contribuído para a criação de variáveis 11 ambientais de entrada que representam os fatores do modelo s.c.o.r.p.a.n. (MCBRATNEY, 2003). A evolução do mapeamento digital de solos é contemporânea, e ocorre de acordo com o desenvolvimento das infraestruturas de dados espaciais, que fornecem cada vez mais embasamento para se representar os fatores de formação do solo, por exemplo, o relevo por meio do Modelo Digital de Elevação (MDE), e os organismos do solo por meio de índices de vegetação. A forma clássica de observação e caracterização de solos no campo está cada vez mais integrada aos Sistemas de Informação Geográfica (SIG), graças às novas ferramentas, como o GPS (LAGACHERIE & MCBRATNEY, 2007). A maioria dos estudos utiliza o MDE como fonte principal de dados auxiliares, seguido de imagens de sensoriamento remoto e dados preexistentes de cobertura do solo. Diferentes atributos do relevo podem ser parametrizados a partir de um MDE, como altitude, inclinação, Aspecto, diferentes curvaturas, área curva ascendente, índice topográfico composto, entre outros (MCBRATNEY, 2003). Para informações sobre o material de origem pode utilizar-se mapas geológicos, porém estes mapas devem concentrar-se mais sobre a litologia do que sobre a estratigrafia para ser mais útil para a previsão do solo (MCBRATNEY, 2003). No Brasil, a pequenas escala de alguns mapas geológicos faz com que informações sobre o material de origem muitas vezes deixem de ser utilizadas no Mapeamento Digital de Solos (TEN CATEN, 2012). A posição topográfica influencia a formação dos horizontes do solo e de suas respectivas características. A organização da superfície do terreno de acordo com modelos geomorfológicos formais de paisagem e as relações entre forma e paisagem, mostram potencial para melhorar a predição de solos (JENNY, 1941; MOORE et al., 1993). A geomorfometria, conhecida como geomorfologia quantitativa ou modelagem digital do terreno, tenta descrever quantitativamente as formas da superfície da terra pelo uso conjunto de matemáticas, engenharia, ciências da terra e da computação. As variáveis geomorfométricas podem ser divididas em primárias e secundárias (PIKE, 2000). 12 As variáveis primárias são derivadas do MDE, tendo como principais variáveis a elevação, declividade, plano e perfil de curvatura, caminho de fluxo e área específica de contribuição. As variáveis secundárias ou compostas são resultados de combinações entre os atributos primários, podendo ser utilizados para caracterizar a variabilidade espacial de processos que ocorrem na paisagem (MOORE et al., 1993). A inclinação local determina não só a intensidade de processos como erosão e redistribuição de sedimentos, mas também a capacidade de drenagem local, exercendo influência sobre os padrões de fluxo de água ao nível da paisagem. Características topográficas como curvatura, declividade e Aspecto influenciam as condições hidrológicas de um local e as diferentes condições de umidade do solo e padrões de fluxo (CARRÉ; MCBRATNEY, 2005). A representação do fator o no modelo s.c.o.r.p.a.n, que compreende a ação dos organismos, cobertura vegetal e uso do solo, representa um grande desafio. A modificação da cobertura vegetal original, a presença de nuvens, a prática do plantio direto, entre outros, são obstáculos para a obtenção do fator o e comprometem a utilização de mapas de uso da terra e índices de vegetação como o NDVI. 2.5. O método Random Forest O método Random Forest é uma extensão da técnica de modelos baseados em árvores. Os modelos de árvores consistem na criação de uma hierarquia de nós internos e externos conectados por ramos. O nó interno ou raíz é a unidade de tomada de decisão, que avalia qual será o próximo nó descendente ou filho realizando um teste lógico. O nó externo não possui descendente, e é conhecido também como folha ou nó terminal, sendo associado a um rótulo ou um valor (BREIMAN et al., 1984). De acordo com McBratney et al. (2003), ao invés de um modelo ser ajustado para os dados, é gerada uma estrutura em árvore que divide os dados de forma recursiva para um número de grupos, onde cada divisão é escolhida de modo a maximizar alguma medida de diferença na variável de resposta. Modelos baseados em árvores determinam automaticamente quais as variáveis e pontos de divisão, e 13 também a forma (topologia) da árvore. É possível utilizar dados categóricos e contínuos para predição de classes de solos. A representação esquemática de uma árvore de decisão é apresentada na Figura 1. Figura 1 - Representação esquemática de árvore de decisão onde Xi são as variáveis; a, b, c, d, e são os limites da regra de decisão; A, B e C correspondem as classes. A técnica de árvores de decisão para a predição de classes de solos tem sido utilizada por diversos autores. Entre as vantagens na utilização das árvores de decisão na predição de classes de solo, destacam-se a maior facilidade de implementação e a maior acurácia em relação a outros métodos de classificação (COELHO & GIASSON, 2010; CRIVELENTI, 2009; SARMENTO, 2009). As predições de atributos e classes de solos pela técnica de árvores de decisão tem sido cada vez mais utilizadas devido sua robustez no tratamento de um grande volume de dados, porém, são poucos os trabalhos que dão ênfase a análise das regras de decisão geradas na modelagem. (TEN CATEN, 2011). A extensão da técnica de árvores de decisão, o método Random Forest, é uma combinação de preditores baseados em árvore, onde cada árvore depende de X1 ≤ a X2 ≤ b X3 ≤ d X2 ≤ c X4 ≤ e A B C A B C 14 um vetor aleatório, que são amostrados com mesma distribuição e de forma independente para todas as árvores da floresta. A combinação de grandes conjuntos de árvores de decisão tende a uma maior precisão. A acurácia da predição tem melhores resultados quando múltiplos modelos são gerados e agregados produzindo uma estimativa (BREIMAN, 2001; MCBRATNEY et al., 2003). Este método trabalha com um número m de variáveis retirado do total de variáveis M do conjunto de dados treino, de modo que em cada nó m variáveis são selecionadas de forma aleatória para fora do conjunto M, utilizado para dividir o nó. O valor de m especificado é mantido constante. Entre as abordagens aplicadas a métodos de aprendizagem estatística, o Random Forest utiliza o método bagging. O método bagging consiste na geração de amostragens aleatórias dos dados para cada árvore de decisão, que são chamadas de amostras bootstrap. O bootstrap é uma técnica de amostragem com reposição, a partir do conjunto de treinamento inicial, no qual são selecionadas amostras aleatoriamente para um novo subconjunto de treinamento. Na amostra bootstrap, 63% das observações originais podem ocorrer pelo menos uma vez. Os 37% dos dados que não ocorrem no bootstrap são chamados de out-of-bag (OOB) (CUTLER et al., 2007). A árvore de decisão é ajustada para cada amostra bootstrap, porém cada nó possui um valor m fixo de variáveis. A árvore é cultivada em sua maior extensão possível, sem poda. O desenho esquemático do funcionamento do Random Forest é apresentado na Figura 2. 15 Figura 2 - Funcionamento do método Random Forest. Adaptado de OSHIRO (2013). Os dados OOB são usados para obter uma estimativa imparcial para o erro de generalização do conjunto combinado de árvores, além de estimativas de importância das variáveis (BREIMAN, 2001). As estimativas de importância das variáveis são feitas de duas formas conhecidas como Mean decrease accuracy (MDA) e Mean decrease Gini (MDG). O MDA é uma medida baseada na permutação da variável, onde os verdadeiros valores da variável são substituídos por valores gerados aleatoriamente para cada árvore no conjunto, avaliando o impacto desta troca na classificação. Se não houver nenhum impacto sobre o erro da árvore a importância da variável diminui (BREIMAN, 2001). O MDG baseia-se na qualidade de cada nó em uma variável de uma árvore de decisão. Quando uma determinada variável é utilizada para dividir um nó, é Dados de Treino T Classificador 1 Classificador 2 Classificador k Voto majoritário Seleção aleatória de m variáveis para divisão do nó Amostragem aleatória T1 Amostragem aleatória T2 Amostragem aleatória Tk 16 calculado o coeficiente de Gini para os nós descendentes comparando-se com o nó original. As alterações na Gini são somadas para cada variável e normalizado no final do cálculo. Uma variável que produz uma alta homogeneidade nos nós descendentes resulta em um alto valor de Gini (BREIMAN, 2001). O método Random Forest ainda é pouco explorado em pesquisas nacionais de mapeamento digital de solos se comparado a outros métodos, com destaque para trabalhos recentes como o dos autores Bhering et al. (2015) e Chagas et al. (2015) no mapeamento de atributos do solo, e Pinheiro et al. (2015) no mapeamento de classes de solo. Na literatura internacional, são encontrados poucos trabalhos que utilizam esta técnica para a predição de classes de solo, entre eles, destacam-se os trabalhos de Stum (2010), Häring et al. (2012) e Heung et al. (2014). Stum (2010) realizou seu trabalho em uma bacia hidrográfica árida e semi- árida do oeste de Utah, utilizando amostras coletadas em campo, imagens Landsat 7 Enhanhced Thematic Mapper Plus (ETM+) e variáveis derivados de MDE (10 metros de resolução espacial), sendo estas, as que apresentaram uma maior força de predição. Para o autor, o Random Forest funcionou como um poderoso preditor de classes de solo e seus resultados facilitaram ainda mais a compreensão das relações solo-paisagem. Häring et al. (2012) utilizaram o Random Forest para a desagregação espacial das unidades de um mapa de solos do estado da Baviera na Alemanha, com o intuito de refinar as unidades de mapa de solo em que dois ou mais tipos de solo são associados. Os autores chegaram à conclusão de que as variáveis geomorfométricas tiveram uma influência significativa nas relações solo-paisagem, e que podem ser utilizadas para desagregação de associações. Na pesquisa de Heung et al. (2014), o método Random Forest foi utilizado na compreensão da relação entre o material de origem e a topografia, utilizando variáveis derivadas do MDE (100 metros de resolução espacial), pontos de treinamento e validação aleatórios obtidos de um mapa convencional de solos, além de amostras de campo também obtidas para validação. Os resultados dos autores mostraram o método Random Forest como eficaz em abordagens de aprendizado de máquina e mineração de dados. 17 2.6. Avaliação da acurácia A acurácia pode ser definida como o grau de conformidade entre o mapa de solos e a realidade. A precisão pode ser definida como a medida da incerteza associada ao conjunto de procedimentos usados para mapear uma determinada realidade. A medida da acurácia serve para validar ou invalidar o mapa de solos, enquanto a medida de precisão é um subproduto do método do mapeamento de solos oferecendo o erro de predição (FINKE, 2007). A qualidade de um mapa de solos pode ser avaliada pela comparação entre o observado e o predito. Esta comparação serve como resultado para validação de uma determinada classe de solo ao nível de observação, ou seja, se é verdadeiro ou falso. O ideal é que uma amostra seja retirada onde haja a ocorrência de todas as classes de solos. Os resultados são armazenados em uma matriz de confusão, que é a base multinominal para testes (FINKE, 2007). Tabela 2 - Matriz de confusão com proporções de observações dentro de c classes preditas i e classes observadas j. Classes observadas j = 1 ... j = c Total Classes preditas i = 1 P1,1 ... P1,c ... ... Pi,j ... i = c Pc,1 ... Pc,c Total De acordo com Congalton & Green (2009), uma matriz de confusão compara informações de pontos de referência com informações do mapa. Compreende a uma matriz quadrada com números estabelecidos de linhas e colunas. As colunas são assumidas como corretas e as linhas são usadas para exibir as classes ou dados 18 classificados. Com a matriz de confusão gerada adequadamente, é possível aplicar técnicas básicas para realizar uma avaliação de precisão, tais como o índice Kappa e exatidão global. A exatidão global é a razão entre a soma das células da diagonal pii (número de acertos) e o total de amostras n, sendo expressa pela fórmula (3) A matriz de confusão apresenta as precisões individuais de cada categoria no mapa, que são descritas pelos erros de inclusão (comissão) e erros de exclusão (omissão), representando de maneira eficaz a precisão do mapa. O erro de comissão ocorre quando uma área está incluída em uma categoria incorreta. Já o erro de omissão ocorre quando uma área é excluída da categoria que pertence. Cada erro no mapa é uma omissão da categoria correta e uma comissão da categoria incorreta (CONGALTON & GREEN, 2009). A exatidão do usuário refere-se ao erro de comissão e a exatidão do produtor refere-se ao erro de omissão. Essas formas de exatidão são maneiras de representar a precisão individual das categorias ao invés de apresentar apenas a exatidão global da classificação (CONGALTON & GREEN, 2009). A exatidão do usuário é obtida pela fórmula (4) onde Pii são as diagonais e Pi+ representa a soma da linha i. A exatidão do produtor é obtida pela fórmula (5) onde Pjj é a são as diagonais e P+j é a soma da coluna j. O índice Kappa é uma técnica multivariada discreta utilizada na avaliação de precisão para determinar estatisticamente se uma matriz de erro é diferente de 19 outra. Esta medida se baseia na diferença entre o acordo real e o acordo de chance que é indicado pelos totais das linhas e colunas (CONGALTON & GREEN, 2009). A fórmula para o índice Kappa pode ser expressa da seguinte forma: (6) (7) onde K é o índice Kappa, θ1 representa a exatidão geral, c é o número de linhas da matriz e P+i é a soma da coluna i. Landis & Koch (1977) propuseram uma classificação de escala do índice Kappa, que varia de mapas com ausência de concordância (< 0) ou com total concordância (= 1) (Tabela 3). Tabela 3 - Escala de classificação do valor K. Valor K Grau de acordo < 0 Pobre 0 – 0,20 Fraco 0,21 – 0,40 Bom 0,41 – 0,60 Moderado 0,61 – 0,81 Forte 0,81 – 1,00 Quase perfeito A diferença entre a exatidão global e o índice Kappa é que a primeira incorpora apenas a diagonal, excluindo os erros de omissão e comissão, enquanto a segunda inclui diretamente os elementos de fora da diagonal. Dependendo do erro incluído na matriz, essas medidas podem ser discrepantes (CONGALTON & GREEN, 2009). 2.7. Escala efetiva 20 A escala efetiva é uma medida de precisão que demonstra se a complexidade dos padrões representados no mapa corresponde a escala dita nominal, ou seja, a escala de apresentação. Quanto maior é a escala, mais detalhado é o mapa e maior a possibilidade de seus delineamentos apresentarem maior exatidão e precisão (FINKE, 2007; OLIVEIRA, 2005). A escala efetiva (effective scale number – ESN) é calculada de acordo com a equação proposta por Forbes et al. (1987): (8) onde IMR é o índice de máxima redução e NSN é a escala nominal (nominal scale number - NSN). O IMR é calculado por meio da seguinte equação: (9) onde ASD é o tamanho médio de delimitação (average size delineation – ASD) e MLD é a área mínima mapeável (minimum legible delineation - MLD), usualmente sendo utilizado o valor de 0,4 cm² (FINKE, 2007; IBGE, 2007). O ASD e o MLD (em hectares) são obtidos pelas seguintes equações: (10) (11) onde Aj é a área do j-ésimo polígono, m é o total de polígonos contidos no mapa. 21 3. MATERIAIS E MÉTODOS 3.1. Caracterização da área de estudo 3.1.1. Localização A área de estudo compreende a quadrícula de Ribeirão Preto do mapa pedológico semidetalhado na escala 1:100.000, elaborado por Oliveira & Prado (1987). Situada no nordeste do estado de São Paulo, a quadrícula abrange 4 folhas das cartas topográficas do IBGE na escala 1:50.000, conforme a Figura 3, sendo elas as folhas de Ribeirão Preto (SF-23-V-C-I-1), Serrana (SF-23-V-C-I-2), Bonfim Paulista (SF-23-V-C-I-3) e Cravinhos (SF-23-V-C-I-4). A quadrícula de Ribeirão Preto possui uma área de aproximadamente 287.557 hectares, sendo circunscrita pelas coordenadas 7675764 de latitude norte e 7619488 de latitude sul e 240941 de longitude oeste e 188060 de longitude leste, pela projeção Universal Transversa de Mercator (UTM), datum SIRGAS 2000. Os municípios total ou parcialemente inclusos na quadrícula são: Altinópolis, Barrinha, Batatais, Brodowski, Cravinhos, Dumont, Guatapará, Jardinópolis, Luís Antônio, Pontal, Pradópolis, Ribeirão Preto, Santa Cruz da Esperança, São Simão, Serra Azul, Serrana e Sertãozinho. 22 Figura 3 - Mapa de localização da quadrícula de Ribeirão Preto. 3.1.2. Geologia Na quadrícula de Ribeirão Preto encontramos quatro unidades litoestratigráficas segundo Oliveira & Prado (1987): 1. Grupo São Bento: compostas pela Formação Serra Geral, Formação Botucatu e Formação Pirambóia. 2. Sedimentos correlatos à Formação Itaqueri 3. Sedimentos aluvionais 4. Sedimentos continentais indiferenciados A Formação Serra Geral é constituída de rochas basálticas originadas a partir de atividades magmáticas fissurais. A espessura dessa formação decresce de oeste para leste, com espessura média de 65m na região de Ribeirão Preto, podendo também desaparecer. Entre Ribeirão Preto e Cássia dos Coqueiros se encontra o 23 afloramento do Aquífero Guarani, que devido as altas cotas altimétricas (800m), constituem áreas de recarga do aquífero no estado de São Paulo (VILLAR, 2008). A Formação Botucatu tem origem na deposição de arenitos através de processos eólicos em ambiente desértico, sendo estes de granulação fina e média, não ultrapassando a espessura de 80 m na região de Ribeirão Preto. O teor de silte e argila é inferior a 10% (FERREIRA, 1992; SILVA et al., 2008). A Formação Pirambóia é de origem fluvial, sendo constituída por arenitos intercalados com camadas de siltito e folhelho, com arenitos de granulação média a muito fina com 20% de teor de silte e argila. Na rodovia SP-333, que liga Ribeirão Preto a Cajuru, as formações apresentam boas exposições, com espessura máxima na região de 140 m (FERREIRA, 1992; SILVA et al., 2008). Esta formação possui posição litoestratigráfica inferior a formação Botucatu, por isso ocorre em cotas mais baixas, ficando em posição intermediária entre esta formação e a Serra Geral (ALMEIDA et al., 1981; OLIVEIRA & PRADO, 1987). Os Sedimentos correlatos a formação Itaqueri ocorrem na região de Franca, compondo uma sequência de arenitos, siltitos e conglomerados oligomíticos. Localiza-se em uma pequena mancha ao norte da quadrícula, próximo à rodovia que vai de Ribeirão Preto a Brodowski (OLIVEIRA & PRADO, 1987). Os Sedimentos aluvionais ou aluviões quaternários são depósitos colúvio- eluviais recentes, correspondentes a sedimentos areno-argilosos incoesos, não apresentando estruturas sedimentares. São desenvolvidos sob substrato arenoso. Ocorrem nas planícies aluviais dos principais cursos d’água da quadrícula (KOTCHETKOFF-HENRIQUES, 2003; OLIVEIRA & PRADO, 1987; VILLAR, 2008). Os Sedimentos continentais indiferenciados ou Formações superficiais são compostas por areias inconsolidadas, que são sobrepostas à Formação Serra Geral e à Formação Botucatu, caracterizando-se por sedimentos Cenozóicos arenosos passando a areno-argilosos, com uma espessura da ordem de 20 metros (SINELLI, 1971). O mapa da Figura 4 mostra a mapa geológico da quadrícula de Ribeirão Preto de acordo com as unidades geológicas. A Tabela 4 apresenta as unidades, sua litologia, idade geológica a área de cada classe em hectares e porcentagem. 24 Figura 4 - Mapa geológico da quadrícula de Ribeirão Preto (adaptado de Sinelli et al., 1973). Sedimentos Aluvionares (Qa) – areias e argilas; Sedimentos Correlatos a Formação Itaqueri (KTii) – arenitos conglomeráticos; Formação Botucatu (JKb) – arenitos eólicos; Formação Pirambóia (TrJp), – arenitos fluviais; Formação Serra Geral (JKsg) – Basaltos e intercalações de arenitos intertrapeanos; Formações Superficiais (TQir) – areias inconsolidadas e Intrusivas Básicas (sill) (JK) – diabásios. 25 Tabela 4 – Unidades geológicas, litologia, idade e área em hectares e porcentagem das respectivas classes no total da quadrícula. Unidade Litologia Idade Área (hectares) Área (%) Formação Serra Geral Basaltos Cretáceo inferior - Jurássico superior 179323.3734 62.36% Formação Serra Geral Arenitos interderrames Cretáceo inferior - Jurássico superior 406.4210451 0.14% Aluviões Quaternários Areias e argilas Quaternário 15904.47668 5.53% Formação Piramboia Arenitos fluviais, imaturos Jurássico - Triássico 11836.39629 4.12% Intrusivas Básicas (sill) Diabásios Mesozóico 11707.84749 4.07% Formações Superficiais Areias inconsolidadas Cenozóico 9529.548933 3.31% Formacao Botucatu Arenitos eólicos Cretáceo inferior - Jurássico 58589.08757 20.37% Sedimentos Correlatos a Formação Itaqueri Arenitos conglomeráticos Cretácio superior 259.8632668 0.09% Total 287557.0147 100.00% 3.1.3. Relevo Predomina na quadrícula de Ribeirão Preto um relevo ondulado e suave ondulado, constituído por uma sucessão de morros de topo subaplainado ou arredondado, com alguns casos ultrapassando 3000 metros de comprimento, com declividade entre 3 e 10%. Ocorrem na paisagem em meio a superfície suave ondulada, formas isoladas ou plataformas interflúviais amplas e contínuas de pequenos testemunhos tabuliformes (Figura 5). Nessa forma de relevo, há a ocorrência de solos rasos em suas bordas (OLIVEIRA & PRADO, 1987; SINELLI et al., 1980). 26 Figura 5 – Vista do relevo testemunho tabuliforme. Os pequenos testemunhos tabuliformes, também evidenciados na área de estudo de Ten Caten (2008), apresentam uma maior resistência aos processos de intemperismo, destacando-se na paisagem na medida em que sua encosta retrocede, apresentando assim, valores elevados de declividade. O limite entre as bacias do rio Pardo ao norte e a do Moji-Guaçu ao sul, ocorre na quadrícula no sentido NO-SE, formando uma plataforma fluvial indo de Dumont a Cravinhos, como pode ser observado na Figura 6. Ao longo deste divisor de águas ocorrem solos com alto teor de areia grossa quartzosa e teores de Fe2O3 baixo. Na vertente sul desta plataforma fluvial e na porção nordeste da quadrícula o relevo é bastante movimentado predominando solos rasos. A sudeste na abrangência do município de Bonfim Paulista e em direção ao município de Cravinhos, a altitude se eleva rapidamente, atingindo um máximo em torno de 900 metros. (OLIVEIRA & PRADO, 1987). 27 Figura 6 - Modelo tridimensional da quadrícula de Ribeirão Preto: a) visada NO-SE; b) visada NE-SO. De acordo com Oliveira & Prado (1987), o relevo da quadrícula de Ribeirão Preto tem grande importância nos fenômenos de abrasão, transporte e sedimentação. Ainda de acordo com os autores, são identificados 3 ambientes particulares de pedogênese: 1- Planícies aluvionais: zonas de deposição alúvio-coluvial, na qual os processos pedogenéticos são condicionados em meio pouco oxigenado, desenvolvendo uma morfologia típica de ambiente redutor. 2- Áreas dissecadas de relevo acentuado: caracteriza-se pelas ações de rejuvenescimento e possui pedoclima seco. Predominam processos de transformação e perda. 3- Áreas de relevo suave ondulado: possui pedoclima úmido, com maior quantidade de água percolando no solo e portanto, dando origem a solos mais profundos. Predominam processos de transformação e adição. 28 3.1.4. Clima, vegetação e hidrografia O clima da quadrícula segundo a classificação climática de Koppen enquadra- se nos tipos Aw e Cwb. O clima Aw, é do tipo tropical apresentando verão chuvoso e inverno seco, com média do mês mais frio superior a 18ºC. Este clima é predominante na quadrícula, e situa-se nas partes mais baixas (500m a 700m). O clima Cwb é do tipo temperado, apresentando verão chuvoso e inverno seco, com temperatura do mês mais quente inferior a 22ºC. Situa-se nas partes mais elevadas da quadrícula, na região serrana (OLIVEIRA & PRADO, 1987). De acordo com Oliveira & Prado (1987), o balanço hídrico de Ribeirão Preto é válido para maior parte da quadrícula, onde predominam as partes mais baixas do relevo, enquanto o balanço hídrico de São Simão representa as áreas mais elevadas da paisagem regional. A Figura 7 e Figura 8 que mostram o balanço hídrico dos municípios de Ribeirão Preto e São Simão, evidenciando que nos dois municípios não há uma grande variação, o que caracteriza o clima da quadrícula como homogêneo. Figura 7 - Balanço hídrico do município de Ribeirão Preto. Fonte: Sentelhas et al. (1999). -100 -50 0 50 100 150 200 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez m m Ribeirão Preto Deficiência Excedente Retirada Reposição 29 Figura 8 - Balanço hídrico do município de São Simão. Fonte: Sentelhas et al. (1999). A vegetação atual da quadrícula de Ribeirão Preto é composta basicamente por extensas plantações de cana-de-açúcar, culturas de café, citrus, cultivos anuais (milho, feijão e soja), pastagens e reflorestamento. Encontram-se também fragmentos remanescentes de vegetação primitiva, como cerrados, cerradões e campos higrófilos (KOTCHETKOFF-HENRIQUES, 2003; OLIVEIRA & PRADO, 1987). Desde 1975 houve uma expansão das áreas cultivadas com cana de açúcar na região de Ribeirão Preto, município onde encontram-se as maiores fazendas de cana-de-açúcar e usinas que dispõe de solos de boa qualidade. O município localizado no centro das plantações de cana de açúcar tornou-se referência no setor sucroalcooleiro, considerada a “capital do agrobusiness” (KOHLHEPP, 2010). Segundo dados do Canasat-Área de Rudorff et al. (2010), 53% da área dos 17 municípios que compõem a quadrícula de Ribeirão Preto são ocupadas por cana- de-açúcar. Os dados do Canasat-Colheita de Aguiar et al. (2011) mostram que sobre 52% dessa área cultivada com cana é realizada a colheita crua, ou seja, com práticas de manejo de plantio direto. -100 -50 0 50 100 150 200 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez m m São Simão Deficiência Excedente Retirada Reposição 30 Observando os dados descarta-se a hipótese, no presente trabalho, sobre a utilização de índices de vegetação, pois de acordo com Ten Caten (2011), o plantio direto compromete o sinal refletido do solo para os sensores orbitais, dificultando a obtenção de dados confiáveis. A hidrografia da quadrícula de Ribeirão Preto é composta por uma densa rede de rios, córregos, açudes e represas ou lagos. Os destaques são os rios Pardo, Tamanduá, Onça e Pântano, além de córregos como Guataparazinho, Serra Azul e Espraiado (OLIVEIRA & PRADO, 1987). O mapa da Figura 9 mostra os principais cursos hídricos e o limite do divisor de águas entre as bacias hidrográficas do rio Pardo e do rio Mogi-Guaçu. Fica evidente no mapa a ocorrência de um paralelismo entre os rios principais das bacias hidrográficas do rio Mogi-Guaçu e do rio Pardo, que apresentam uma retilinidade exibida por longos segmentos em seus percursos. Esta rede hidrográfica que engloba o médio rio Pardo ao norte, e o Ribeirão da Onça e Mogi-Guaçu ao sul condiciona o relevo ao entalhamento realizado por estes três cursos principais, onde correm de maneira quase perpendicular, seus afluentes (SINELLI et al., 1980). 31 Figura 9 - Mapa da hidrografia da quadrícula de Ribeirão Preto. 3.2. Materiais utilizados 3.2.1. Base cartográfica digital O presente estudo baseia-se no modelo s.c.o.r.p.a.n proposto por McBratney et al. (2003), onde os fatores são obtidos por diferentes fontes de dados. O fator s (informações sobre solos) foi obtido do Boletim Científico e do mapa pedológico semidetalhado (escala 1:100.000) da quadrícula de Ribeirão Preto de Oliveira & Prado (1987). O levantamento realizado por estes autores contou com a observação de 1570 locais, com coleta de material de uma ou mais camadas para análise em 495 pontos. Desconsiderando a área representada pela mancha urbana, rios e açudes, obtém-se uma densidade de um ponto observado a cada 1,7 km². 32 Foram identificadas 24 unidades no levantamento semidetalhado. As unidades de mapeamento que apresentam associações de duas classes, conforme definido por Oliveira & Prado (1987), contém 60% da primeira e 40% da segunda. As unidades que apresentam associações de três classes contém 50% da primeira, 30% da segunda e 20% da terceira. As informações dos solos da quadrícula de Ribeirão Preto foram adequadas ao novo Sistema Brasileiro de Classificação de Solos (SiBCS) da Embrapa (2013). A adequação das classes do mapa pedológico semidetalhado da quadrícula de Ribeirão Preto foi realizada com base nas informações dos perfis de solos contidos no Boletim Científico. Em unidades com associações de classes, foi escolhida a primeira classe da legenda, ou seja, a classe com maior porcentagem. Em casos de associações entre tipos de terreno e classes de solos, foram desconsiderados os tipos de terreno. De acordo com Zhu et al. (2001), a resolução é ditada pela qualidade da base de dados digital, sendo assim, sendo necessário uma avaliação da qualidade do mapa de solos em questão. A medida utilizada foi o cálculo da escala efetiva, proposta por Forbes et al. (1987), baseando-se nos polígonos encontrados no mapa. Para o fator r (relevo), utilizou-se uma imagem de Modelo Digital de Elevação SRTM (Shuttle Radar Topography Mission), com resolução espacial de 30 metros. A imagem foi obtida no sistema Earth Explorer do United States of Geological Survey (U.S.G.S). Para o fator p (material de origem), utilizou-se o mapa geológico de Sinelli et al. (1973) na escala 1:50.000. Foram também utilizadas no trabalho cartas topográficas do IBGE, para extração de rodovias, hidrografia e área urbana. Optou-se por utilizar apenas atributos do relevo juntamente com a litologia, desconsiderando o fator c (clima), por conta da homogeneidade climática da quadrícula. Também foi desconsiderado o fator o (organismos) devido à grande alteração antrópica em decorrência de intensas atividades agropecuárias. O mapa pedológico, geológico e as cartas topográficas foram digitalizados. Para organização de toda base cartográfica digital, foi utilizado o sistema de informação geográfica (SIG) ArcMap 10.2.2 (ESRI, 2014), no qual foram criados dois bancos de dados geográficos (geodatabase) contendo arquivos vetoriais e matriciais necessários para a execução do trabalho. O primeiro banco reuniu arquivos brutos, 33 ainda não processados, e o segundo reuniu os arquivos prontos para serem utilizados. Em um primeiro momento, para que os mapas pedológico, geológico e as cartas topográficas apresentassem sua posição espacial real de acordo com o sistema de referência indicado, obedecendo ao fator n (posição espacial), executou- se o processo de georreferenciamento. De acordo com Piroli (2010), o georreferenciamento consiste em registrar espacialmente na imagem a sua posição conhecida no terreno, em coordenadas de referência reconhecidas tais como a Universal Transversa de Mercator (UTM). Após georreferenciadas, as feições espaciais dos mapas em formato raster foram vetorizadas e as informações contidas nas legendas foram inseridas na tabela de atributos das feições vetoriais. Os arquivos vetoriais do mapa geológico, mapa pedológico e das cartas topográficas passaram por uma conversão de seus respectivos sistemas de referência de coordenadas para o datum Sirgas 2000, que se tornou o sistema geodésico de referência oficial no Brasil a partir de fevereiro de 2015. Das cartas topográficas do IBGE foram vetorizadas as rodovias em formato linha, a hidrografia, extraindo polígonos para representação de rios com largura considerável, represas e lagos, além de linhas para representação de rios com menor largura. A área urbana dos municípios também foi vetorizada em forma de polígono. 3.2.2. Obtenção das variáveis O MDE da imagem SRTM é um arquivo matricial (raster), onde o valor de cada pixel da grade corresponde a altitude. Para ser utilizado, o arquivo raster foi submetido a uma remoção de depressões espúrias, utilizando-se a ferramenta “Fill”, do módulo Spatial Analyst. Esta ferramenta remove picos anômalos e corrige áreas com ausência de dados (Figura 10). 34 Figura 10 - Funcionamento da ferramenta Fill. A partir da imagem MDE corrigida, foram extraídas as variáveis primárias Aspecto, Curvatura e Declividade, criados respectivamente com as ferramentas Aspect, Curvature e Slope, do módulo Surface. A variável Aspecto, também chamado de direção da inclinação, exerce influência na quantidade e intensidade da radiação solar em que uma localização é exposta. O regime de temperatura afeta os processos biológicos e químicos do solo, bem como a evaporação. A variável Aspecto geralmente é incorporado em modelos preditivos onde a extensão espacial da predição abrange grandes áreas com inúmeras encostas e inclinações (CARRÉ; MCBRATNEY, 2005; THOMPSON et al., 2012). A Declividade corresponde à inclinação da superfície, sendo a relação entre o ângulo em um plano horizontal e o plano tangente, sendo expressa em graus ou porcentagem. A declividade tem importância no regime hídrico do solo, o fluxo de água superficial e subsuperficial, o impacto e a velocidade de escoamento e na infiltração de água da chuva. É considerada uma das mais importantes variáveis primárias que controlam os processos pedogenéticos (WILSON & GALLANT, 2000). A Curvatura é uma variável que tem importância na medida do fluxo de água local, em formas côncavas e convexas do relevo. É útil para interpretação de processos que ocorrem em vertentes, como a redistribuição de água no solo por meio de fluxo e infiltração vertical, conforme pode ser observado na Figura 11 (THOMPSON et al., 2012). Depressão preenchida Pico removido 35 Figura 11 - Combinações de curvatura (ESRI, 2014). As variáveis geomorfométricas secundárias são derivadas de combinações das variáveis primárias. As variáveis secundárias utilizadas no trabalho foram o Stream Power Index (SPI) e o Compound Topographic Index (CTI). O SPI é a medida de poder erosivo da água baseado na suposição que o fluxo de descarga é proporcional a uma área específica de influência. Tem sido utilizado em estudos de geomorfologia, transporte de sedimentos e erosão (WILSON & GALLANT, 2000). O CTI é calculado como o logaritmo natural da relação entre área específica de influência sobre a inclinação da vertente. Este índice foi desenvolvido para ser utilizado em estudo de topossequências de áreas declivosas (THOMPSON et al., 2012). Para gerar o CTI e o SPI foi necessário antes extrair do MDE variáveis hidrológicas. Utilizando o módulo Hidrology, obteve-se a direção de fluxo por meio da ferramenta Flow Direction, que posteirormente serviu como arquivo de entrada na ferramenta Flow Accumulation, para a obtenção da acumulação de fluxo. A direção de fluxo consiste em identificar o caminho mais íngreme para o fluxo da água, considerando que a água escoará para uma das 8 células adjacentes 36 de acordo com a ação da gravidade. O modelo utilizado pelo ArcMap é conhecido como D8. Para calcular a direção de fluxo utiliza-se o MDE como entrada, resultando em um raster que codifica a direção de fluxo de cada pixel (Figura 12). Figura 12 – Exemplo de funcionamento do modelo D8 para o cálculo da direção de fluxo. A acumulação de fluxo calcula o peso acumulado de cada célula que flui para dentro de outra célula encosta abaixo. Células com elevados valores possuem fluxo concentrado, enquanto células que apresentam o valor 0 são elevações topográficas, podendo ser utilizadas para indicar cumes e divisores de águas. A acumulação de fluxo é calculada pela ferramenta Flow Accumulation e utiliza o raster Flow Direction como entrada (Figura 13). 78 72 69 71 58 49 74 67 56 49 46 50 69 53 44 37 38 48 64 58 55 22 31 24 68 61 47 21 16 19 74 53 34 12 11 12 2 2 2 4 4 8 2 2 2 4 4 8 1 1 2 4 8 4 12 12 8 1 2 4 8 2 2 1 4 4 4 1 1 1 1 4 16 MDE Flow direction 32 64 12 16 1 8 4 2 Codificação da direção de fluxo 37 Figura 13 – Acumulação de fluxo. Para o cálculos das variáveis CTI e SPI foi necessário converter a acumulação de fluxo em área de influência. Para isso, foi calculada a seguinte equação: (12) onde o tamanho do pixel corresponde a resolução espacial do MDE SRTM (em m²). A declividade obtida em graus precisou ser convertida para radianos, com a seguinte fórmula: (13) onde β é a declividade em graus e o valor 1,570796 corresponde a . Para obter o CTI utilizou-se a seguinte equação: (14) onde As é a área de contribuição (em m2 m-1) e β é a declividade (em graus) (WILSON & GALLANT, 2000). O SPI foi obtido com a seguinte equação: (15) 0 0 0 0 0 0 0 1 1 2 2 0 0 3 7 5 4 0 0 0 0 20 0 1 0 0 0 1 24 0 0 2 4 7 35 2                                      Flow direction Flow accumulation 38 onde As é a área de contribuição (em m² por m-1) e β é a declividade (em graus) (WILSON & GALLANT, 2000). As equações foram calculadas com a ferramenta Raster Calculator. A variável distância da rede de drenagem foi obtida pelo cálculo da distância Euclidiana da rede hidrográfica da quadrícula, com a ferramenta Euclidean Distance, tendo como arquivo de entrada a hidrografia em formato vetorial. O cálculo da distância Euclidiana é feito a partir do centro da célula de origem para o centro de cada uma das células circundantes, onde o arquivo de saída contem a distância medida a partir de cada célula para a fonte mais próxima Os valores das variáveis Aspecto, Curvatura, Declividade, Distância da rede de drenagem, Elevação, CTI e SPI foram incorporados com a ferramenta Extract values to points à tabela de atributos de um vetor de pontos, contendo um ponto para cada pixel da quadricula (aproximadamente um ponto a cada 900 m²). Os mapas geológico e pedológico em formato vetorial foram incorporados a tabela de atributos com ferramenta Spatial join. Dessa forma, obteve-se uma matriz de dados, denominada grid, contendo oito colunas representando as variáveis, duas colunas representando as classes de solo no segundo e terceiro nível categórico, duas colunas com as coordenadas UTM x e y de cada pixel, além de uma coluna de identificação. A matriz de dados grid apresenta um total de 3.031.857 linhas, que correspondem a um ponto centralizado em cada pixel da quadrícula, desconsiderando-se os pixels dentro de polígonos de áreas urbanas e cursos hídricos, conforme o exemplo da Tabela 5. 39 Tabela 5 - Trecho da matriz de dados grid. Aspec CTI Curv Dist Elev Lito Decl SPI Classe 2 Classe 3 X Y ID 135,00 7,45 0,11 1451,51 772,00 Basaltos e diabásios 1,00 -0,63 LV LVdf 240059,41 7675735,67 58 315,00 10,99 -0,44 302,40 617,00 Arenitos 2,68 4,87 RQ RQo 237398,30 7675705,43 89 296,57 10,06 -0,66 332,64 619,00 Arenitos 6,33 5,66 RQ RQo 237428,54 7675705,43 90 283,67 9,70 -0,22 362,88 625,00 Arenitos 8,95 6,00 RQ RQo 237458,78 7675705,43 91 287,70 9,43 -0,66 393,12 631,00 Arenitos 11,53 6,25 RQ RQo 237489,02 7675705,43 92 287,02 9,38 -0,11 423,36 640,00 Arenitos 11,96 6,28 RQ RQo 237519,26 7675705,43 93 303,31 9,27 -0,66 453,60 646,00 Arenitos 9,82 5,77 RQ RQo 237549,50 7675705,43 94 293,55 8,88 -0,66 544,32 664,00 Basaltos e diabásios 9,97 5,41 RL RLe 237640,22 7675705,43 97 A partir do total de amostras da matriz de dados grid, foram extraídas 3 amostragens estratificadas com um maior adensamento de amostras em classes com menor representaividade em área. As amostragens foram criadas para o segundo nível categórico (subordem) e para o terceiro nível categórico (grandes grupos) das classes de solo de acordo com o SiBCS da Embrapa (2013). A representação das classes no segundo nível categórico é resultado de uma generalização taxonômica das classes do terceiro nível. A única mudança entre os dois níveis representados nas amostragens foi a generalização das classes Latossolo Vermelho distrófico (LVd), Latossolo Vermelho distroférrico (LVdf), Latossolo Vermelho eutroférrico (LVef) e Latossolo Vermelho ácrico (LVwf) em uma única classe, o Latossolo Vermelho (LV). Dessa forma, o segundo nível categórico contém 10 classes e o terceiro nível categórico contém 13 classes. As demais classes apenas apresentaram uma mudança em sua legenda, e não uma generalização. O segundo nível categórico (subordens) apresenta as características da gênese do solo, ou seja, pode indicar tanto a intensidade do processo de formação do solo quanto a atuação de outros processos que agiram de maneira conjunta ou afetaram processos dominantes no primeiro nível. Em outras palavras, o segundo nível categórico expressa o grau de pedogênese (EMBRAPA, 2013). Em níveis elevados, que possuem maior generalização como as subordens, as diferenças nas características ocorrem do resultado direto dos processos de formação do solo ou que afetam estes processos (EMBRAPA, 2013). 40 O terceiro nível categórico (grandes grupos) apresentam os Aspectos morfológicos do solo, tais como o tipo e arranjamento dos horizontes, atividade de argila, condições de saturação do complexo sortivo por bases ou por alumínio ou por sódio e/ou por sais solúveis. É a partir deste nível que podem ser identificadas características qualitativas, onde as evidências de horizontes ou propriedades irá indicar diferentes tipos de uso e manejo, relacionados ao desenvolvimento de plantas e de água no solo (EMBRAPA, 2013). 3.2.3. Processamento dos dados Os modelos de predição de classes foram criados no software livre R, utilizando o pacote randomForest (R DEVELOPMENT CORE TEAM, 2015; LIAW & WIENER 2002). Foram selecionados aleatoriamente para cada amostragem estratificada aproximadamente 80% dos dados para treino. O restante dos dados das amostragens, aproximadamente 20%, foram selecionados para teste, sendo utilizada para a avaliação da acurácia. Feita as seleções aleatórias de treino e teste em cada amostragem, foram calculados os valores mínimos, máximos, a média e o desvio padrão das variáveis. De acordo com Ten Caten (2011), é necessário avaliar o ganho preditivo dos modelos na medida em que eles se tornam mais complexos. Dessa forma, foram testadas as 3 diferentes amostragens A1, A2 e A3, para as classes de solo no 2º e 3º nível categórico. Além disso os modelos Random Forest foram ajustados com diferentes valores de ntree (número de árvores para o crescimento da floresa) e mtry (número de variáveis selecionadas aleatoriamente para divisão em cada nó da árvore). Os valores de ntree testados foram de 200, 300 e 400 árvores por modelo. Os valores de mtry testados foram de 2, 4 e 6 variáveis. Para comprovar se houveram diferenças significativas entre todos os modelos gerados, utilizou-se os valores das médias das taxas de erro OOB de cada modelo para análises estatísticas ANOVA e Tukey (α = 0,05). A avaliação da acurácia foi feita aplicando os modelos para predição nos dados selecionados para teste, onde calculou-se a matriz de confusão destes dados, obtendo assim os valores de exatidão global e do índice Kappa, que avaliam 41 respectivamente o total de pixels classificados corretamente e a concordância da classificação com os dados de referência. Os modelos que apresentaram os melhores valores de acurácia, para o segundo e para o terceiro nível categórico, de acordo com valores de ntree e mtry ajustados e com a amostragem utilizada, serviram para o ajuste do modelo de predição das classes de solo. As classes de solos foram preditas aplicando-se o modelo ajustado a matriz de dados grid. A matriz de dados grid foi utilizada como arquivo entrada no ArcMap, sendo transformada em um vetor de pontos de acordo com suas coordenadas e convertida para o formato raster, onde obteve-se o arquivo matricial com a grade de linhas e colunas contendo os pixels que representam as classes de solos preditas. A Figura 14 apresenta de maneira esquemática o fluxograma da metodologia empregada no trabalho. Figura 14 - Fluxograma da metodologia utilizada. Posteriormente a elaboração dos mapas digitais para o segundo e terceiro nível categórico, foi verificado o grau de concordância bem como a comparação com o mapa original. Sendo o mapa digital de solos uma representação matricial, pode ocorrer uma redução da generalização dos solos no domínio espacial, onde os detalhes 42 espaciais da variação dos solos podem ser representados com grande resolução (ZHU et al., 2001). Dessa forma, foram analisadas áreas contendo associações de classes, com o intuito de verificar se houve uma desagregação ente as classes associadas. Diferentemente do trabalho de Häring et al. (2012), que verificou a desagregação das associações com dados de campo, aqui apenas realizou-se a tabulação da área das classes obtidas nos mapas digitais com as associações de classes, com o intuito de verificar se o erro associado ao modelo compreende as classes associadas. Avaliou-se a correspondência entre o mapa digital e alguns perfis de solo coletados em campo. Foram destacados apenas locais onde houve equivalência da verdade de campo com as mudanças observadas no mapa digital em relação ao mapa original. Foram obtidos dois perfis levantados em campo, dois perfis do Boletim Científico do Levantamento Semidetalhado da quadrícula de Ribeirão Preto de Oliveira & Prado (1987) e um perfil do projeto RADAMBRASIL, extraído do trabalho de Benedetti et al. (2008). Não foram obtidos perfis suficientes para ser feita uma validação, apenas para medida de avaliação pontual do que foi distinguido do mapa original. 4. RESULTADOS E DISCUSSÃO 4.1. Descrição das variáveis dos fatores s.c.o.r.p.a.n. 4.1.1. Fator s A partir da adequação ao SiBCS, foram encontradas 13 classes de solo no terceiro nível categórico. A imostra as classes da quadrícula de Ribeirão Preto segundo a classificação antiga do mapa pedológico semidetalhado de Oliveira & Prado (1987) juntamente com as classes adequadas para a classificação atual e suas respectivas áreas em hectares e porcentagem. Foram desconsiderados na somatória de área das classes de solos os cursos hídricos, represas, lagos e a mancha urbana dos municípios. 43 Tabela 6 - Tabela de conversão da classificação de solos antiga para atual do mapa semidetalhado da quadrícula de Ribeirão Preto, com a área de cada classe em hectares e porcentagem. Classificação antiga Sigla antiga e Unidades Classificação atual Sigla atual Área (hectares) Área (%) Cambissolo distrófico Cb Cambissolo Háplico Tb distrófico típico CXbd 3394,53 1,22% Brunizem Avermelhado BV Chernossolo Argilúvico órtico MTo 317,68 0,11% Associação de Gley pouco húmico e Gley húmico Hi-2 Gleissolo Háplico Tb distrófico típico GXbd 6904,74 2,49% Associação de Gley húmico e Gley pouco húmico Hi-1 Gleissolo Melânico Tb distrófico GMbd 324,36 0,12% Latossolo Roxo ácrico LRa, LRv, LRc Latossolo Vermelho ácriférrico LVwf 109591,44 39,50% Latossolo Vermelho Amarelo álico LV-1, LV-2, LV-3, LV-4, LV-5 Latossolo Vermelho Amarelo distrófico LVAd 10850,50 3,91% Latossolo Roxo distrófico LRd-1 e LRd-2 Latossolo Vermelho distroférrico LVdf 31422,70 11,33% Latossolo Vermelho Escuro álico LE-1, LE-2, LE-3 e LE-4 Latossolo Vermelho distrófico LVd 31201,31 11,25% Latossolo Roxo eutrófico LRr e LRe Latossolo Vermelho eutroférrico LVef 41641,31 15,01% Solos Litólicos eutróficos Li-1 Neossolo Litólico eutrófico RLe 13769,06 4,96% Areia Quartsoza álica AQ Neossolo Quartzarênico órtico RQo 17923,22 6,46% Terra Roxa Estruturada eutrófico TE Nitossolo Vermelho eutroférrico NVef 6051,19 2,18% Solo Orgânico Hi-3 Organossolo háplico sáprico OXs 4062,35 1,46% O mapa adaptado é apresentado na Figura 15, o qual mostra a distribuição geográfica das classes de solo já adequadas ao novo sistema de classificação. 44 Figura 15 - Mapa Pedológico da Quadrícula de Ribeirão Preto (adaptado de Oliveira & Prado, 1987). A medida da escala efetiva do mapa é apresentada na Tabela 7. Tabela 7 - Indicadores e cálculo da escala efetiva para o mapa pedológico da quadrícula de Ribeirão Preto. Área (ha) Poligonos Escala nominal ASD MLD IMR Escala efetiva Mapa original 277452,18 328 1:100,000 845,8908 40 4,598616 1:229.930 Como pode ser observada a escala efetiva é cerca de quatro vezes inferior se comparado com sua escala nominal. Sendo assim, o mapa utilizado se enquadraria em um nível de detalhamento de reconhecimento, segundo o que recomenda o SiBCS Embrapa. Este resultado pode estar relacionado as condições locais, já que há um predomínio do Latossolo Vermelho. 45 4.1.2. Fator r O fator r compreende as variáveis primárias Elevação, Aspecto, Curvatura e Declividade e as variáveis secundárias CTI e SPI, além da variável Distância da rede de drenagem. A quadrícula de Ribeirão Preto possui uma diferença de altitude em toda sua área de aproximadamente 470 metros. Há um predomínio de baixas altitudes, com cerca de 21% da quadrícula variando entre 489 e 556 metros. As altitudes elevadas, acima de 770 metros, representam apenas 4,81% da área. O mapa da Figura 16 mostra o modelo digital de elevação representando a variável altimetria. A Tabela 8 mostra a distribuição das classes de elevação por área. Figura 16 - Mapa da elevação da quadrícula de Ribeirão Preto. 46 Tabela 8 - Distribuição das classes de elevação por área na quadrícula de Ribeirão Preto. Classe Área (%) 489-556 21,24 557-601 27,77 602-648 22,00 649-702 15,29 703-770 8,89 771-957 4,81 O mapa das classes de declividade é apresentado na Figura 17. A Tabela 9 mostra a distribuição das classes de declividade por área na quadrícula. De acordo com a classificação de declividade proposta por Lepsch et al. (1991), as classes foram divididas em plano (0-3%), suave ondulado (3-6%), moderadamente ondulado (6-12%), ondulado (12-20%), forte ondulado (20-40%) e montanhoso (>40%). O relevo predominante na quadrícula é o moderadamente ondulado, com 34,20%, seguido do relevo suave ondulado, que corresponde a 28,63% da área. O relevo plano abrange 22% da quadrícula, se concentrando em sua maior parte ao Norte, às margens do Rio Pardo e seus afluentes, e ao Sul, nas margens do Ribeirão da Onça e seus afluentes. O relevo ondulado apresenta 10,55% de área. O relevo fortemente ondulado apresenta 3,70% e o montanhoso 0,58%, se concentrando à nordeste e centro-sul, sendo encontrado