UNIVERSIDADE ESTADUAL PAULISTA – UNESP CÂMPUS DE JABOTICABAL MODELAGEM AGROMETEOROLÓGICA POR INTELIGÊNCIA ARTIFICIAL PARA PREVISÃO DA PRODUTIVIDADE DE PALMEIRAS NA AMAZÔNIA ORIENTAL José Reinaldo da Silva Cabral de Moraes Engenheiro Agrônomo 2021 UNIVERSIDADE ESTADUAL PAULISTA – UNESP CÂMPUS DE JABOTICABAL MODELAGEM AGROMETEOROLÓGICA POR INTELIGÊNCIA ARTIFICIAL PARA PREVISÃO DA PRODUTIVIDADE DE PALMEIRAS NA AMAZÔNIA ORIENTAL José Reinaldo da Silva Cabral de Moraes Orientador: Prof. Dr. Glauco de Souza Rolim Tese apresentada à Faculdade de Ciências Agrárias e Veterinárias – UNESP, Câmpus de Jaboticabal, como parte das exigências para a obtenção do título de Doutor em Agronomia (Produção Vegetal). 2021 Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Ciências Agrárias e Veterinárias, Jaboticabal. Dados fornecidos pelo autor(a). M827m Moraes, José Reinaldo da Silva Cabral de Modelagem agrometeorológica por inteligência artificial para previsão da produtividade de palmeiras na Amazônia Oriental / José Reinaldo da Silva Cabral de Moraes. -- Jaboticabal, 2021 139 p. Tese (doutorado) - Universidade Estadual Paulista (Unesp), Faculdade de Ciências Agrárias e Veterinárias, Jaboticabal Orientador: Glauco de Souza Rolim 1. Agrometeorologia. 2. Amazônia brasileira. 3. Arecaceae. 4. Machine Learning. 5. Python. I. Título. DADOS CURRICULARES DO AUTOR JOSÉ REINALDO DA SILVA CABRAL DE MORAES - Nascido em Castanhal, Pará, no dia 27 de abril de 1992, filho de José da Silva Moraes e Lilia da Silva Cabral de Moraes, natural de Castanhal, Pará. Cursou o ensino fundamental no colégio estadual Aristedes Santa Rosa, no município de Inhangapi, Pará e o ensino médio no Instituto de Educação Darwin, no município de Castanhal, Pará, tendo finalizado no ano de 2009. Ingressou no ensino superior no ano de 2010 no curso de Engenharia Agronômica pela Universidade Federal Rural da Amazônia (UFRA), Campus Belém, obtendo o título de Engenheiro Agrônomo em janeiro de 2015. Durante a graduação foi bolsista do Programa de Educação Tutorial (PET) Agronomia, sob a tutoria do Prof. Dr. Carlos Augusto Cordeiro Costa por quatro anos e realizando iniciação científica na Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) Amazônia Oriental, também durante quatro anos, na área de Agrometeorologia, sob orientação da pesquisadora Dra. Lucieta Guerreiro Martorano. Realizou durante um ano estágio curricular na área de agrometeorologia na UFRA, sob a orientação do Prof. Dr. Paulo Jorge de Oliveira Ponte de Souza, desenvolvendo seu trabalho de conclusão de curso com a calibração do modelo DSSAT para o feijão caupi. Em agosto de 2015, iniciou o curso de Mestrado em Agronomia, no Programa de Produção Vegetal, na área de Modelagem Agrometeorológica, pela Universidade Estadual Paulista “Júlio de Mesquita Filho” – Campus de Jaboticabal, São Paulo, sob a orientação do Prof. Dr. Glauco de Souza Rolim, concluindo no ano de 2017. No ano de 2017 iniciou o doutorado na mesma instituição sob a orientação do professor Glauco Rolim, submetendo sua tese em abril de 2021 à banca examinadora para obtenção do título de doutor em Agronomia. O mundo é um livro, e quem fica sentado em casa lê somente uma página. Santo Agostinho Aos meus pais, José Moraes e Lilia Moraes por toda dedicação, amor e carinho que me foi dado, e com seus sacrifícios, me proporcionaram caminhos de muitas conquistas e realizações. Minhas vitórias são graças a vocês. DEDICO Ao meu Avô Sebastião de Oliveira Moraes (In memorian). Que apesar do pouco tempo que passamos juntos, foi o suficiente para formar homem que sou hoje. A minha noiva Aline Michelle da Silva Barbosa, pelo seu carinho, amor, dedicação e apoio incondicional nas batalhas da vida. OFEREÇO AGRADECIMENTOS A Deus, por ter me guiado e protegido, mostrando sempre o melhor caminho a seguir. Ao professor Glauco Rolim, orientador e amigo. Seus ensinamentos científicos e de vida me moldaram como profissional e pessoa, obrigado por toda paciência e parceria durante esses anos de mestrado e doutorado. À professora Lucieta Guerreiro Martorano, pela amizade, confiança e por ter acreditado no meu potencial no início da minha graduação. Nossos caminhos terem se cruzado logo no começo da minha vida acadêmica e científica, foi fundamental para eu enxergar outras oportunidades e desafios. Agradeço a Universidade Federal Rural da Amazônia (UFRA), instituição que me formei como engenheiro agrônomo e conquistei grandes amigos. Aos professores dessa universidade, em especial ao professor Paulo Jorge de Oliveira Ponte de Souza, pelas excelentes aulas de agrometeorologia na graduação, e posteriormente pela orientação no meu trabalho de conclusão de curso. Ao Programa de Educação Tutorial (PET) Agronomia, em especial ao professor Carlos Augusto Cordeiro Costa, pelos conselhos, anos de amizade, ensinamentos. Este programa o qual fui bolsista durante quatro anos foi fundamental para minha formação como profissional. Também agradeço aos amigos bolsistas do PET, por toda convivência, viagens, experimentos de campo e amizade. Registro meus agradecimentos a minha família, em especial as minhas irmãs, Liliane Moraes, Josi Moraes e Viviane Feio, por todo carinho, apoio e pelos sobrinhos maravilhosos que já me deram. Aos meus tios Reinado Moraes e Ieda Terra, por todo acolhimento, confiança e carinho. A minha madrinha Ambrósia Marinho (In memorian) que sempre acreditou e torceu pelo meu sucesso. À minha avó paterna, Raimunda Monteiro da Silva Moraes e materna, Nazaré Cabral, e meus avós de coração, Maria das Dores Terra e Antônio Terra da Trindade (In memorian), pelos ensinamentos e carinhos frequentes. Meus agradecimentos aos funcionários do departamento de ciências exatas da UNESP, em especial aos amigos Carlão, Vanessa, Zezé, Shirlei e Adriana. E aos amigos Bruna, Gustavo, Daniel e Mara. Aos amigos do grupo de pesquisa GAS da UNESP, Lucas Aparecido, Taynara Valeriano, Victor Moreto, Kamila Meneses, João Trevizoli, Valter e Aline. Aos irmãos que também passaram por Jaboticabal e foram trilhar novos caminhos, Daniel Pinheiro, Francisco Carlos, Flávio José e Raphael Leone. Amizades construídas durante a pós-graduação e que levo para vida. Registro também meus agradecimentos aos companheiros do Galáticos futebol, amigos que conquistei durante o mestrado e doutorado. Aos amigos do Instituto Federal do Mato Grosso do Sul, em especial ao Cícero Teixeira, Gustavo Valente, Daniel Zimmermann, Matheus Bornelli, pela amizade e apoio no início da minha carreira docente. À Embrapa Amazônia Oriental, em especial aos pesquisadores Dra. Socorro Padilha e Dr. João Tomé, pela concessão dos dados de campo para a realização dessa pesquisa. Aos amigos do Laboratório de Agrometeorologia da Embrapa Amazônia Oriental, por toda parceria científica, carinho e amizade. À empresa Sococo em nome do Dr. Paulo Lins, assim como a empresa Marboges em nome do Dr. Abreu Pina, pelo fornecimento dos dados de campo para realização da minha tese. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. A todos que contribuíram para minha formação de vida e profissional, meus sinceros agradecimentos. i SUMÁRIO RESUMO............................................................................................................ iii ABSTRACT ........................................................................................................ iv CAPÍTULO 1 – CONSIDERAÇÕES GERAIS ..................................................... 1 1.1 Palma de óleo ........................................................................................... 1 1.2 Coqueiro ................................................................................................... 4 1.3 Açaizieiro .................................................................................................. 5 1.4 Inteligência artificial................................................................................... 6 REFERÊNCIAS ................................................................................................ 10 CAPÍTULO 2 – Modelagem Agrometeorológica a partir de inteligência artificial para prever a produtividade da Palma de óleo no estado do Pará, Amazônia . 19 2.1 INTRODUÇÃO ........................................................................................... 21 2.2 MATERIAL E MÉTODOS ........................................................................... 24 2.2.1 Base de dados ..................................................................................... 24 2.2.2 Componentes de água no solo ............................................................ 28 2.2.3 Caracterização fenológicas da palma de óleo ..................................... 30 2.2.4 Modelos de Machine Learning ............................................................. 32 2.2.5 Análise de dados ................................................................................. 35 2.3 RESULTADOS ........................................................................................... 36 2.4 DISCUSSÃO .............................................................................................. 54 2.5 CONCLUSÃO ............................................................................................. 59 2.6 REFERÊNCIAS .......................................................................................... 59 CAPÍTULO 3 – Previsão de produtividade de frutos de açaí (Euterpe oleracea Mart.) na região Nordeste paraense na Amazônia Oriental modelado por inteligência artificial .......................................................................................... 68 3.1 INTRODUÇÃO ........................................................................................... 70 3.2 MATERIAL E MÉTODOS ........................................................................... 72 3.2.1 Caracterização fenológica do açaizeiro ............................................... 76 3.2.2 Modelos de Machine learning .............................................................. 79 ii 3.3 RESULTADOS E DISCUSSÃO .................................................................. 82 3.4 CONCLUSÃO ......................................................................................... 94 3.5 REFERÊNCIAS .......................................................................................... 94 CAPÍTULO 4 – Previsão agrometeorológica da produtividade do coqueiro modelado por Machine Learning .................................................................... 104 4.1 INTRODUÇÃO ......................................................................................... 106 4.2 MATERIAL E MÉTODOS ......................................................................... 108 4.2.1 Área de estudo e origem dos dados .................................................. 108 4.2.1 Caracterização fenológica do coqueiro .............................................. 114 4.2.2 Modelos de Machine Learning ........................................................... 115 4.2.3 Processamento gráfico e estatísticos ................................................ 116 4.3 RESULTADOS ......................................................................................... 117 4.4 DISCUSSÃO ............................................................................................ 128 4.5 CONCLUSÃO ........................................................................................... 131 4.6 REFERÊNCIAS ........................................................................................ 132 iii MODELAGEM AGROMETEOROLÓGICA POR INTELIGÊNCIA ARTIFICIAL PARA PREVISÃO DA PRODUTIVIDADE DE PALMEIRAS NA AMAZÔNIA ORIENTAL RESUMO A expansão de palmeiras de alto valor comercial e industrial como a palma de óleo, o açaizeiro e o coqueiro, necessitam de informações e estratégias sustentáveis para seus sistemas de cultivos. Modelos agrometeorológicos atuam como uma ferramenta exploratória para os tomadores de decisão e aliado a inteligência artificial (IA) auxiliam no planejamento do uso da terra para cultivos agrícolas anuais e/ou perenes. Tais métodos desempenham um papel importante na previsão de produtividade, no entanto, poucas pesquisas têm sido aplicadas visando a modelagem de palmeiras, que sejam suficientemente simples e ao mesmo tempo incorporem o conhecimento fenológico e climático suficientes para ser estudada em locais com diferentes condições de crescimento e práticas de manejo. Neste sentido, objetiva-se avaliar o desempenho de modelos de IA na modelagem agrometeorológica para previsão da produtividade da palma de óleo, açaí e do coco na Amazônia Oriental. O estudo foi realizado em várias regiões do estado do Pará. Os dados de produtividade de palma de óleo e coco foram disponibilizados por empresas produtoras situadas na Amazônia, e de açaí de áreas experimentais da Embrapa Amazônia oriental. Foram utilizados diferentes modelos de IA para prever a produtividade das culturas. Para todos os modelos, foram separados 70% dos dados para treinamento e 30% para teste. Os modelos ajustados foram: Regressão linear múltipla (RLM), Random Forest (RF), Redes neurais artificiais Multilayer Perceptron (MLP) e Support Vector Machine de base radial RBF (SVM_RBF), Linear (SVM_Linear) e Polinomial (SVM_Poly), usando a linguagem de programação Python. Os modelos foram avaliados por meio da acurácia, precisão e tendência, comparando dados observados e previstos. Os dados observados em campo e obtidos pelos modelos de IA foram comparados pelo R2, MAPE, RMSE e ME. Modelos de IA com 4 meses antes da colheita apresentaram acurácia média (MAPE) de 22% para previsão de produtividade da palma de óleo. Para o açaí, variaram de 4 a 7 meses entre os diferentes tipos de manejo e épocas do ano com MAPE médio igual a 19%. Para o coqueiro, os resultados apontaram previsões com até 11 meses antes da colheita com MAPE médio igual a 15%. Houve uma perda de precisão dos modelos ao prever dados extremos, com subestimação na previsão em situações de altas produtividades e superestimação em baixas produtividades. No geral, os modelos de IA demostraram desempenho importante para prever a produtividade das palmeiras estudadas, subsidiando produtores, agroindústrias e outros planejadores a melhor tomada de decisão. Palavras-chave: Agrometeorologia, Amazônia brasileira, Arecaceae, Machine Learning, Python iv AGROMETEOROLOGICAL MODELING WITH ARTIFICIAL INTELLIGENCE IN FORECASTING PALM YIELD IN THE EASTERN AMAZON ABSTRACT The expansion of high commercial and industrial value palm trees such as the oil palm, the açaizeiro and the coconut palm, require information and sustainable strategies for their cropping systems. Agrometeorological models consist of an exploratory tool for decision makers and allied with artificial intelligence (AI) assist in land use planning for annual and/or perennial agricultural crops. This methods play an important role in yield prediction, however, few researches have been applied aiming at palm tree modeling that are simple enough and at the same time incorporate enough phenological and climatic knowledge to be studied in locations with different growing conditions and management practices. This, we aimed to evaluate the performance of AI models in agrometeorological modeling for predicting the yield of oil palm, acai and coconut in the Eastern Amazon. The study was conducted in several regions of the state of Pará, Brazil. Yield data for oil palm and coconut were provided by production companies located in the Amazon, and for açaí from experimental areas of Embrapa Amazônia oriental. Several AI models were used to predict crop yield. We use 70% of the data to calibrate and 30% to test the AI models. The fitted AI models were: Multiple Linear Regression (MLR), Random Forest (RF), Multilayer Perceptron (MLP) artificial neural networks, and Support Vector Machine of radial RBF (SVM_RBF), Linear (SVM_Linear) and Polynomial (SVM_Poly) bases. We using the Python programming language to perform the analysis. The models were evaluated using accuracy, precision, and trend, comparing observed and predicted data. Field-observed data and data obtained by the AI models were compared by R2, MAPE, RMSE, and ME. AI models with 4 months before harvest showed average accuracy (MAPE) of 22% for predicting oil palm yields. We observed that it ranged from 4 to 7 months between the different types of management and times of the year with an average MAPE equal to 19% for açaí. As for the coconut palm, the results showed predictions up to 11 months before harvest with an average MAPE equal to 15%. There was a loss of accuracy of the models when predicting extreme data, with underestimation in the prediction in situations of high yields and overestimation in low yields. Overall, the AI models demonstrated an important performance in predicting the yield of the studied palms, supporting producers, agro-industries and other planners to make better decisions. Keywords: Agrometeorology, Brazilian Amazon, Arecaceae, Machine Learning, Python 1 CAPÍTULO 1 – CONSIDERAÇÕES GERAIS A maioria das palmeiras se desenvolve em ecossistemas tropicais (Eiserhardt et al., 2011) sendo possível a expansão desses cultivos no Brasil, principalmente em áreas antropizadas. Os climas tropicais são caracterizados por padrões de temperatura previsíveis e com pequena amplitude térmica (Moron; Robertson; Wang, 2019). Contudo, os regimes de precipitação pluvial não tendem a ser simples e previsíveis, existindo grandes variações no ano e entre os anos (Moraes et al., 2020). Os produtores agrícolas, agroindústrias e outros, necessitam ter alta produtividade e sustentabilidade em seus negócios. Neste sentido, conhecer a variabilidade do clima por meio de modelos agrometeorológicos de forma prévia na cadeia produtiva de qualquer cultura, é fundamental para estabelecer estratégias e melhores tomada de decisão (Klompenburg et al., 2020). Dentre as palmeiras de alto valor comercial e de produção, destaca-se a palma de óleo o coqueiro e o açaizeiro, do gênero Elaeis, Cocos e Euterpe, respectivamente, que tem na Amazônia brasileira suas principais áreas de produção e comercialização. Diversos trabalhos vêm estudando a influência do clima no desenvolvimento e efeitos na produção dessas culturas, entre esses destaca-se, Benezoli et al. (2021), Liu et al. (2021) e Oettli et al. (2018) para palma de óleo, Santos et al. (2020), Samarasinghe et al. (2018) e Pathmeswaran et al. (2018) para o coqueiro e Moraes et al. (2020) e Viana et al. (2020) para o açaizeiro. 1.1 Palma de óleo A palma de óleo (Elaeis guineensis Jacq.) uma das culturas oleaginosas mais importantes do mundo, originária da África Tropical. Trazida para o Brasil pelos escravos, se adaptou ao clima tropical úmido da Bahia, mas foi na região amazônica que o cultivo obteve as maiores produtividades (Vijay et al., 2016). A produção de óleo de palma é cinco vezes maior por unidade de terra do que outras culturas oleaginosas, como a soja, que, juntamente com a crescente demanda global de óleo vegetal e biocombustíveis, impulsiona sua lucratividade (Lamade et al., 2016). 2 Entre as culturas com maior expansão de área colhida nos trópicos úmido, a palma de óleo se destaca entre as três maiores, com crescimento de 176% entre os anos de 2000 a 2019 (Figura 1), sendo que 87% da produção é concentrada principalmente no Sudeste Asiático (FAO, 2021). No Brasil a região do nordeste paraense concentra aproximadamente 98% da produção, com mais de 160 mil hectares colhidos (Figura 2) (IBGE 2021). Figura 1. Principais culturas agrícolas com expansão de área colhida em porcentagem nos países tropicais úmidos. Fonte. (FAO, 2021). Sua inserção na cadeia do Biodiesel no Brasil foi incentivada pelo Programa Palma de Óleo, como cultura viável e rentável na recuperação de áreas em vias de degradação (Brandão et al., 2021, Garrett et al., 2019). A palma de óleo é extremamente versátil, sendo aproveitado óleos da semente, do mesocarpo e o óleo de palmiste (Awalludin et al., 2015; Mushtaq; Abdullah; Ani, 2015). Aproveitam-se ainda cachos, resíduos do processo de extração de óleo (glicerina), entre outros usos, além do seu potencial na produção de combustíveis alternativos e bioeletrecidade (Pirker et al., 2016). 3 Figura 2. Mapa das principais áreas produtoras de palma de óleo no estado do Pará. Fonte. (IBGE, 2021). As evidências de aquecimento global, oscilações nos preços do petróleo e mudanças para uma matriz energética renovável incluem a palma de óleo como planta com alto potencial para produção de biocombustíveis, impulsionando sua lucratividade (Sheil et al., 2009). O potencial dessa espécie na produção de óleo e conversão em biocombustível ganha importância em áreas com alto grau de degradação, inserindo-as ao sistema produtivo, minimizando a pressão do desmatamento, capturando carbono e mitigando emissões de gases de efeito estufa (GEE), além de promover oferta de emprego ao setor agrícola e industrial na Amazônia (Zarin et al., 2016). 4 1.2 Coqueiro Outra palmeira de destaque, o coqueiro (Cocos nucifera L), é uma das mais importantes do mundo, cultivada em mais de 12 milhões de hectares de terras nas planícies costeiras tropicais e subtropicais (FAOSTAT, 2021). Cerca de 10 milhões de agricultores familiares são altamente dependentes do produto desta palmeira e muitos outros em áreas rurais e semi-urbanas que possuem reduzido número de áreas plantadas, contribuem para a subsistência dessas populações (Rethinam, 2006). O coqueiro é uma palmeira de grande interesse econômico, uma vez que são utilizados todos os seus componentes: frutos, folhas, polpa, água, casca e fibras. Cada parte da planta pode produzir itens que têm valor comunitário, bem como fornecer uma gama de produtos comerciais e industriais (Nguyen et al., 2015). Esses produtos incluem aqueles com propriedades nutricionais e medicinais (Foale, 2003; Perera et al., 2009), com um núcleo maduro (endosperma sólido) que contém fibras comestíveis, proteínas, lipídios e minerais inorgânicos. No Brasil, a principal atividade econômica envolvendo esta espécie destinam-se à produção de coco seco in natura, coco ralado, leite de coco, óleo de coco e outros derivados do coco seco e água de coco, a partir do coco verde (Benassi; Fanton; Santana, 2013). Outros produtos derivados da fruta incluem bebidas, amêndoas frescas e leite (Lim, 2012), além de produtos refinados, como, o óleo virgem e a fibra da casca. O óleo virgem (extraído a baixa temperatura) possui propriedades antioxidantes potentes (Marina et al., 2009) e antimicrobianas (Chakraborty e Mitra, 2008) e possui potenciais ações anticancerígenas (Koschek et al., 2007). No Brasil, o avanço do cultivo ocorre não só pela evolução em patamares produtivos, que condicionam ao país lugar de destaque entre os maiores produtores mundiais, mas também, pela expansão da área plantada, principalmente em regiões não tradicionais (Ferreira; Warwick; Siqueira, 2018). O cultivo de coqueiro no Brasil tradicionalmente acontece na região Nordeste, mas nos últimos trinta anos as áreas estão se expandindo para outras regiões do Brasil, principalmente no Sudeste, Centro Oeste e Norte (Figura 3). 5 Esta expansão ocorre também em agroecossistemas frágeis como em regiões de Mata Atlântica e zonas litorâneas (Martins; Jesus Júnior, 2014). Figura 3. Principais áreas produtoras de coco no Brasil. Fonte. (IBGE, 2021). 1.3 Açaizieiro O açaizeiro (Euterpe oleracea Mart) que é uma palmeira de hábito perene possuindo frutos bastante valorizados para o preparo de bebidas, pertence à família Arecaceae, englobando aproximadamente 200 gêneros e cerca de 2600 espécies, cuja distribuição é predominantemente tropical e subtropical (Goldel et al., 2015). Na Amazônia esta família é representada por 39 gêneros e um número entre 150 a 180 espécies (Kahn, 1997). O açaízeiro desempenha importante papel socioeconômico e ambiental para as regiões produtoras (Vallejo et al., 2014). Silva et al. (2006), verificaram aumentos dos retornos sociais do cultivo, após a inserção tecnológica na produção na ordem de 238 milhões de reais no ano de 2005, por meio de linhas de crédito de financiamento pelos bancos. 6 O novo contexto do mercado do açaí, tanto ao nível nacional como internacional, tem se caracterizado por uma demanda crescente e superior à oferta, o que pressiona os preços, sobretudo com o aumento das exportações (Homma; Santana, 2009). Nesse mercado a bebida é comercializada como commodity, onde o fator determinante é o preço, que oscila devido a sazonalidade da safra que se concentra no Pará, Amapá e Maranhão (Nogueira et al., 2005). No entanto, apresenta uma produção que ainda demanda de pesquisas que visem o melhor manejo do cultivo, assim como o conhecimento de áreas com potencial climático para sua expansão. A distribuição espacial das espécies de palmeiras está dominantemente condicionada aos fatores ambientais limitantes (Bazzaz, 1998), tornando a biodiversidade do planeta vulnerável aos fenômenos naturais e processos resultantes das ações antrópicas sobre o ambiente. Com a busca da expansão desses cultivos e melhor planejamento de safra, o uso de modelos de prognósticos agrometeorológicos auxilia no planejamento agrícola, identificando as condicionantes de variáveis atmosféricas que possam causar perdas de produção e buscar soluções estratégicas para tomada de decisão. No entanto, esse monitoramento prévio requer o uso de vários conjuntos de dados, não sendo uma tarefa trivial, em vez disso, consiste em várias etapas complicadas (Filippi et al., 2019). Neste sentido, o uso da inteligência artificial tem sido uma importante ferramenta de apoio a decisão no meio agrícola, podendo determinar diferentes padrões e correlações a partir de conjuntos de dados, ajudando a melhorar a eficiência no setor agrícola, como a produtividade da safra, irrigação, monitoramento de safra, entre outros (Talaviya et al., 2020). 1.4 Inteligência artificial Na produção agrícola, existem várias metodologias e processos diferentes que requerem um consumo de energia bastante elevado (Jha et al. 2019). Ao mesmo tempo, o mercado exige produtos de saída de alta qualidade (Singh; Singh; Kaur, 2021). 7 Com o aumento da informação no campo, se amplia o horizonte de aplicabilidade e uso de modelos matemáticos. Dados históricos de clima e dados meteorológicos durante a estação de crescimento, bem como a previsão de curto, médio e longo prazo, desempenham papel importante nas aplicações de modelagem agrícola (Hogenboom, 2000). A demanda por informações rápidas e consistentes impõe que pesquisadores, consultores, agricultores e gestores do setor agrícola ampliem as aquisições e conhecimento em modelos de simulação (Martorano, 2008). Dessa forma, as relações existentes entre os elementos climáticos e a produtividade de uma cultura podem ser simulados de forma previa antes da colheita, através de modelos agrometeorológicos (Rolim et al., 2008), usando algoritmos de Inteligência Artificial (IA) (Klompenburg; Kassahun; Catal, 2020). A IA inicia com o estudo sobre a capacidade dos computadores de pensar sem a interferência humana (Russell; Norvig, 2011), definindo-se basicamente como uma tecnologia que funcione como o cérebro humano, que incluem aprendizagem, raciocínio e autocorreção (Parekh; Shah; Shah, 2020) para automatizar tarefas complexas (Tada, 2016). Neste conceito, softwares e sistemas inteligentes são desenvolvidos, baseados em como o cérebro humano pensa, aprende, toma decisões e trabalham enquanto resolvem um problema (Talaviya et al., 2020). Esses softwares são alimentados com dados de treinamento e, além disso, esses dispositivos inteligentes nos fornecem a saída desejada para cada entrada válida, assim como o cérebro humano (Jani et al., 2020). A IA envolve duas grandes subáreas classificadas como, Deep learning (DL) e Machine Learning (ML) (Patel et al., 2020; Sukhadia et al., 2020). A DL é uma subárea de ML, que por sua vez é uma subárea da IA (Sharma; Sharma; Jindal, 2021) (Figura 4). Enquanto IA é a ciência de fazer máquinas e programas inteligentes, ML é a capacidade de aprender algo sem ser explicitamente programado e DL é o aprendizado por redes neurais profundas (Kodali; Sahu, 2016). 8 Figura 4: Inteligência artificial, Aprendizado de máquina e Aprendizagem profunda. Adaptado de Goodfellow et al. (2016). Conforme discutido em Goodfellow et al. (2016), inicialmente o foco da inteligência artificial era enfrentar e solucionar problemas intelectualmente difíceis para os seres humanos, mas relativamente diretos para os computadores, problemas que podem ser descritos por uma lista de regras formais e matemáticas. Entretanto, observa-se que o verdadeiro desafio é resolver as tarefas fáceis para as pessoas, mas difíceis de descrever formalmente, problemas que resolvemos intuitivamente, que parecem automáticos, como reconhecer palavras ou faces nas imagens. Para prover uma solução a esses problemas mais intuitivos é necessário que os computadores aprendam com a experiência e compreendam as informações em termos de hierarquia de conceitos, com cada conceito definido por sua relação com conceitos mais simples (Goodfellow et al., 2016), assim como o ser humano faz. Os algoritmos de ML agrupam um grande número de métodos que permitem aos computadores generalizar a partir da experiência, aprendendo com um conjunto de dados de treinamento a reconhecer padrões em dados de alta dimensão (Bonetto; Latzko, 2020; Subasi, 2020). Em geral o ML requer um grande conjunto de dados para se treinar e prever o resultado. Entretanto, estudos recentes têm apontado o uso de ML como modelos preditivos usando pequenos conjuntos de dados (Shaikhina et al., 2015). 9 Patrício e Rieder (2018) definem que os processos de ML consistem basicamente nas seguintes etapas: • Preparação e aquisição dos dados: etapa inicial que consiste em obter os dados adequados que contenham características a serem consideradas na aprendizagem. • Seleção das características de Interesse: identificar as características mais significativas para o problema que será abordado. • Seleção de algoritmos: consiste em selecionar o algoritmo mais adequado para tratar o problema em estudo. Como exemplo na agricultura temos a Regressão Linear Multipla, Random Forest, Redes Neurais Artificiais, Support Vector Machine e outros. • Seleção de parâmetros: alguns algoritmos precisam ser ajustados por parâmetros que requerem experimentação para serem definidos, dessa forma os ajustes de seus parâmetros são fundamentais para um bom desempenho do modelo. • Treinamento: Selecionado o algoritmo mais adequado e seus parâmetros, o treinamento consiste na construção do modelo computacional que será utilizado na predição das respostas aos novos dados. • Teste: Validação dos resultados quanto a precisão e acurácia dos dados de treinamento. Os algoritmos de ML permitem que se analise grandes volumes de dados independentemente da complexidade, com rapidez e precisão. Vastos são as aplicações de ML na agricultura, que passam deste a modelos preditivos de safras, como observado nos trabalhos de (Pant et al., 2021; Luciano et al., 2021) na detecção de doenças (Shah et al., 2016; Chung et al., 2016), qualidade de grãos (Zareiforoush et al., 2015; Vithu; Moses, 2016), otimização de irrigação e aplicação de herbicidas (Talaviya et al., 2020) e tantas outras aplicações. Poucos trabalhos têm investigado aplicações de modelos de IA em cultivos perenes como as palmeiras de forma geral e suas respostas produtivas em função do clima. O limitado número de trabalhos se deve principalmente ao longo período de monitoramento dessas culturas, aumentando os custos operacionais 10 de campo para aquisição de dados. Neste sentido, este estudo busca avaliar modelos agrometeorológicos para previsão de produtividade de palmeiras comerciais como a palma de óleo, coco e açaí na Amazônia Oriental, usando inteligência artificial. REFERÊNCIAS Awalludin MF, Sulaiman O, Hashim R, Aidawati WN, Nadhari W (2015) An overview of the oil palm industry in Malaysia and its waste utilization through thermochemical conversion, specifically via liquefaction. Renewable and Sustainable Energy Reviews, 50: 1469 – 1484. http://dx.doi.org/10.1016/j.rser.2015.05.085. Bazzaz FA (1998) Elevated CO2 and plant production in the 21 st century: can we feed billions and preserve biological diversity. In : Garab G (ed) Photosynthesis: mechanisms and effects, V. Kluwer Academic, Dordrecht. Benassi AC, Fanton CJ, Santana EM (2013) O cultivo do coqueiro-anão-verde: Tecnologias de produção. Vitória, ES: Incaper, 120 p. il. (Incaper. Documentos, 227). Benezoli VH, Imbuzeiro HMA, Cuadra SV, Colmanetti, MAA, Araújo, AC, Stiegler C, Motoike, SY (2021) Modeling oil palm crop for Brazilian climate conditions. Agricultural Systems. 190: 103130. DOI: https:// doi.org/10.1016/j.agsy.2021.103130. Bonetto R, Latzko V (2020) Machine learning. Computing in Communication Networks. https://doi.org/10.1016/B978-0-12-820488-7.00021-9. Brandão F, Schoneveld G, Pacheco P, Vieira I, Piraux M, Mota D (2021) The challenge of reconciling conservation and development in the tropics: Lessons from Brazil’s oil palm governance model. World Development 139:105268. https://doi.org/10.1016/j.worlddev.2020.105268. 11 Chakraborty M, Mitra A (2008) The antioxidant and antimicrobial properties of the methanolic extract from Cocos nucifera mesocarp. Food Chem. v. 107, p. 994– 999. doi:10.1016/j.foodchem. 2007.08.083. Chung CL, Huang KJ, Chen SY, Lai MH, Chen YC, Kuo YF (2016) Detecting Bakanae disease in rice seedlings by machine vision. Comput. Electron. Agric. 121, 404–411. https://doi.org/10.1016/j.compag.2016.01.008. Eiserhardt WL, Svenning JC, kissling WD, Balslev H (2011) Geographical ecology of the palms (Arecaceae): determinants of diversity and distributions across spatial scales. Annals of Botany, 108: 1391–1416. FAO (2021). FAOSTAT Data: Production – Crops. Food and Agriculture Organization of the United Nations (FAO) (Accessed 07 February 2021). http://www.fao. org/faostat/en/#data/QC. Ferreira JMS, Warwick DRN, Siqueira LA (2018). A cultura do coqueiro no Brasil. Embrapa, Brasília, DF, p. 508. Filippi P, Jones EJ, Wimalathunge NS, Somarathna PDSN, Pozza LE, Ugbaje SU, Bishop TFA (2019) An approach to forecast grain crop yield using multilayered, multi-farm data sets and machine learning. Precis. Agric. 1–15. https://doi.org/10.1007/s11119-018-09628-4. Foale M (2003) The coconut odyssey: the bounteous possibilities of the tree of life. ACIAR Monography. Canberra, v. 101. Garrett RD, Levy S, Carlson KM, Gardner TA, Godar J, Clapp J, Villoria N (2019) Criteria for effective zero-deforestation commitments. Global Environmental Change, 54, 135–147. https://doi.org/10.1016/j.gloenvcha.2018.11.003. 12 Goldel B, Kissling WD, Svenning JC (2015) Geographical variation and environmental correlates of functional trait distributions in palms (Arecaceae) across the New World. Botanical Journal of the Linnean Society, v. 179, p. 602– 617. Goodfellow I, Bengio Y, Courville A. Deep learning. MIT press, 2016. Homma AKO, Santana ACA (2009) agroindústria na Região Norte, In: Zibetti DW & Barroso LA (Eds.) Agroindústria: uma análise no contexto socioeconômico e jurídico brasileiro. v.1. São Paulo, LEUD. p.19-43. Hoogenboom G (2000) Contribution of agrometeorology to the simulation of crop production and its applications. Agricultural and Forest Meteorology, v. 103, n. 1, p. 137–157. IBGE (2021). Instituto Brasileiro de Geografia de Estatística. Sistema IBGE de Recuperação Automática – SIDRA. (Accessed 16 March 2021). https://sidra.ibge.gov.br/home/pimpfbr/brasil. Jani K, Chaudhuri M, Patel H, Shah M (2020) Machine learning in films: an approach towards automation in film censoring. J. of Data, Inf. and Manag. 2, 55– 64. https://doi.org/10.1007/s42488-019-00016-9 Jha K, Doshi A, Patel P, Shah M (2019) A comprehensive review on automation in agriculture using artificial intelligence. Artificial Intelligence in Agriculture. 2, 1– 12. Kahn F (1997) Les palmiers de l”eldorado. Paris: Éditions de l”Oprstom. Journal of Nutrology. p. 252. Klompenburg TV, Kassahun A, Catal C (2020). Crop yield prediction using machine learning: A systematic literature review. Computers and Electronics in Agriculture, 177, 105709. https://doi.org/10.1016/j.compag.2020.105709. 13 Kodali RK, Sahu A (2016) An IoT based soil moisture monitoring on Losant platform. 2nd International Conference on Contemporary Computing and Informatics. IEEE. pp. 764–768. Koschek PR, Alviano DS, Alviano CS, Gattass CR (2007) The husk fiber of Cocos nucifera L. (Palmae) is a source of anti-neoplastic activity. Brazilian J Med Biol Res. v.40, p. 1339–1343. doi:10.1590/ s0100-879x2006005000153. Lamade E, Tcherkez G, Darlan NH, Rodrigues RL, Fresneau C, Mauve C, Lamothe-Sibold M, Sketriené D, Ghashghaie J (2016) Natural 13C distribution in oil palm (Elaeis guineensis Jacq.) and consequences for allocation pattern. Plant, Cell and Environment. v. 39, p. 199–212. Lim TK (2012) Cocos nucifera. In: Lim TK (ed) Edible medicinal and non- medicinal plants. Springer-Verlag Berlin, Berlin, p. 301–334. doi:10.1007/978-90- 481-8661-7_45. Liu Y, Heuvelink GBM, Bai Z, He P, Xu Xinpeng, Ding W, Huang S (2021) Analysis of spatio-temporal variation of crop yield in China using stepwise multiple linear regression. Field Crops Research, 264:108098. https://doi.org/10.1016/j.fcr.2021.108098. Luciano ACS, Picoli MCA, Duft DG, Rocha JV, Leal MRLV, Maire GL (2021) Empirical model for forecasting sugarcane yield on a local scale in Brazil using Landsat imagery and random forest algorithm. Computers and Electronics in Agriculture 184, 106063. DOI: https://doi.org/10.1016/j.compag.2021.106063. Marina AM, Man YBC, Nazimah SAH, Amin I (2009) Antioxidant capacity and phenolic acids of virgin coconut oil. Int J Food Sci Nutr. v. 60, p.114–123. doi:10.1080/09637480802549127. 14 Martins CR, Jesus Júnior LA (2014) Produção e Comercialização de Coco no Brasil Frente ao Comércio Internacional: Panorama 2014. 51 p. (Documentos / Embrapa Tabuleiros Costeiros,1517- 1329; 184. Martorano LG, Faria RT, Bergamaschi H, Dalmago GA (2008) Evaluation of the COPGRO/DSSAT model performance for simulating plant growth and grain yield of soybeans, subjected to no-tillage and conventional systems in the subtropical southern Brazil. Italian Journal of Agronomy. 3, 795-796. Moraes JRSC, Rolim GS, Martorano LG, Aparecido LEO, Oliveira MSP, Neto JTF (2019) Agrometeorological models to forecast açaí (Euterpe oleracea Mart.) yield in the Eastern Amazon. J Sci Food Agric, 100: 1558–1569. http://dx.doi.org/10.1002/jsfa.10164. Moron V, Robertson AW, Wang L (2019) Weather Within Climate: Subseasonal Predictability of Tropical Daily Rainfall Characteristics. Sub-Seasonal to Seasonal Prediction, p. 47-64. https://doi.org/10.1016/B978-0-12-811714- 9.00003-6. Mushtaq F, Abdullah TAT, Mat R, Ani FN (2015) Optimization and characterization of bio-oil produced by microwave assisted pyrolysis of oil palm shell waste biomass with microwave absorber. Bioresour Technol. Nguyen QT, Bandupriya HDD, Villalobos AL, Sisunandar S, Foale M, Adkins SW (2015) Tissue culture and associated biotechnological interventions for the improvement of coconut (Cocos nucifera L.): a review. Planta v. 242, p. 1059– 1076. Nogueira OL, Figueirêdo FJC, Muller AA (2005) Açaí. Embrapa Amazônia Oriental. Belém, Pará. Embrapa Amazônia Oriental. (Sistemas de Produção, 4). p.137. 15 Oettli P, Behera SK, Yamagata T (2018) Climate Based Predictability of Oil Palm Tree Yield in Malaysia. Scientific Reports, 8:2271. doi:10.1038/s41598-018- 20298-0. Pant J, Pant RP, Singh MK, Singh DP, Pant H (2021) Analysis of agricultural crop yield prediction using statistical techniques of machine learning. Materials Today: Proceedings. https://doi.org/10.1016/j.matpr.2021.01.948. Parekh V, Shah D, Shah M (2020) Fatigue Detection Using Artificial Intelligence Framework. Augmented Human Research. 5:5. https://doi.org/10.1007/s41133- 019-0023-4. Patel D, Shah D, Shah M (2020) The Intertwine of Brain and Body: A Quantitative Analysis on HowBig Data Influences the Systemof Sports. Ann. Data. Sci. 7, 1– 16. https:// doi.org/10.1007/s40745-019-00239-y. Pathmeswaran C, Lokupitiya E, Waidyarathne KP, Lokupitiya RS (2018). Impact of extreme weather events on coconut productivity in three climatic zones of Sri Lanka. European Journal of Agronomy 96, 47–53. DOI: https:doi.org/10.1016/j.eja.2018.03.001. Patrício DI, Rieder R (2018) Computer vision and artificial intelligence in precision agriculture for grain crops: A systematic review. Computers and Electronics in Agriculture 153, 69–81. DOI: https://doi.org/10.1016/j.compag.2018.08.001. Perera PIP, Vidhanaarachchi VRM, Gunathilake TR, Yakandawala DMD, Hocher V, Verdeil JL, Weerakoon LK (2009) Effect of plant growth regulators on ovary culture of coconut (Cocos nucifera L.). Plant Cell Tiss Org. v. 99, p. 73–81. doi:10.1007/s11240- 009-9577-z. Pirker J, Mosnier A, Kraxner F, Havlík P, Obersteiner M (2016) What are the limits to oil palm expansion? Global Environ. Change 40, 73–81. https://doi.org/10.1016/ j. gloenvcha.2016.06.007. 16 Rethinam P (2006) Asian and Pacific coconut community activities, achievements and future outlook. ACIAR Proceedings Series, v. 125, p.15–21. Rolim GS, Ribeiro RV, Azevedo FA, Camargo MBP, Machado EC (2008) Previsão do número de frutos a partir da quantidade de estruturas reprodutivas em laranjeiras. Revista Brasileira de Fruticultura. 30, 48-53. Russell SJ, Norvig P (2011) Artificial Intelligence: A Modern Approach, third ed. Pearson. Global Edition. Samarasinghe CRK, Meegahakumbura MK, Dissanayaka HDMAC, Kumarathunge D, Perera L (2018) Variation in yield and yield components of different coconut cultivars in response to within year rainfall and temperature variation. Scientia Horticulturae, 238, 51–57. DOI: https:doi.org/10.1016/j.scienta.2018.03.058. Santos MMS, Lacerda CF, Neves ALR, Sousa CHCS, Ribeiro AA, Bezerra MA, Araújo ICS, Gheyi HR (2020) Ecophysiology of the tall coconut growing under different coastal areas of northeastern Brazil. Agricultural Water Management 232, 106047. https://doi.org/10.1016/j.agwat.2020.106047. Shah JP, Prajapati HB, Dabhi VK (2016) A survey on detection and classification of rice plant diseases. In: 2016 IEEE International Conference on Current Trends in Advanced Computing (ICCTAC), 1–8. doi:https://doi.org/10.1109/ICCTAC.2016.7567333. Shaikhina T, Lowe D, Daga S, Briggs D, Hggins R, Khovanova N (2015) Machine learning for predictive modelling based on small data in biomedical engineering. IFAC Pap Online, 48–20:469–474. https://doi.org/10.1016/j.ifacol.2015.10.185. 17 Sharma N, Sharma R, Jindal N (2021) Machine Learning and Deep Learning Applications-A Vision. Global Transitions Proceedings. 2, 24-28. https://doi.org/10.1016/j.gltp.2021.01.004. Sheil D, Casson A, Meijaard E, Van Noordwjik M, Gaskell J, Sunderland-Groves J, Wertz K, Kanninen M (2009) Palm Oil Impacts and Opportunities in Southeast Asia: What do we know and what do we need to know? Occasional Paper. CIFOR, Bogor, Indonésia. v. 51 p. 80. Silva IM, Santana AC, Reis MS (2006) Análise dos retornos sociais oriundos de adoção tecnológica na cultura do açaí no Estado do Pará. Amazônia: Ciência & Desenvolvimento, v. 2, p. 25-37. Singh G, Singh A, Kaur G (2021) Role of Artificial Intelligence and the Internet of Things in Agriculture. Artificial Intelligence to Solve Pervasive Internet of Things Issues, 317-330. https://doi.org/10.1016/B978-0-12-818576-6.00016-2. Subasi A (2020) Machine learning techniques. Practical Machine Learning for Data Analysis Using Python, p. 91-202. https://doi.org/10.1016/B978-0-12- 821379-7.00003-5. Sukhadia A, Upadhyay K, Gundeti M, Shah S, Shah M (2020) Optimization of smart traffic governance system using artificial intelligence. Augment Hum Res 5, 13. https://doi.org/10.1007/s41133-020-00035-x. Talaviya T, Shah D, Patel N, Yagnik H, Shah M (2020) Implementation of artificial intelligence in agriculture for optimisation of irrigation and application of pesticides and herbicides. Artificial Intelligence in Agriculture, 4, 58–73. https://doi.org/10.1016/j.aiia.2020.04.002. Vallejo MI, Galeano G, Bernal R, Zuidem PA (2014) The fate of populations of Euterpe oleracea harvested for palm heart in Colombia. Forest Ecology and Management. v. 318, p. 274–284. 18 Viana LF, Homma AKO, Menezes AJEA, Santos JC, Farias Neto JT (2020) Viabilidade econômica do cultivo de açaizeiro (euterpe oleracea mart.) irrigado no nordeste paraense. International Journal of Development Research. 10, 39177-39182. https://doi.org/10.37118/ijdr.19655.08.2020. Vijay V, Pimm SL, Jenkins CN, Smith SJ (2016) The Impacts of Oil Palm on Recent Deforestation and Biodiversity Loss. PLoS ONE. v. 11: e0159668. doi:10.1371/journal.pone. 0159668. Vithu P, Moses JÁ (2016) Machine vision system for food grain quality evaluation: A review. Trends Food Sci. Technol. 56, 13–20. https://doi.org/10.1016/j.tifs.2016.07. 011. Zareiforoush H, Minaei S, Alizadeh MR, Banakar A (2015) Potential applications of computer vision in quality inspection of rice: a review. Food Eng. Rev. 7 (3), 321–345. https://doi.org/10.1007/s12393-014-9101-z. Zarin DJ, Harris NL, Baccini A, Aksenov D, Hansen MC, Azevedo-Ramos C, Azevedo, T, Margono BA, Alencar AC, Gabris C, Allegretti A, Potapov P, Farina M, Walker WS, Shevade VS, Loboda TV, Turubanova S, Tyukavina A (2016) Can carbon emissions from tropical deforestation drop by 50% in 5 years?. Glob Chang Biol. v. 22, p.1336-47. 19 CAPÍTULO 2 – Modelagem agrometeorológica a partir de inteligência artificial para prever a produtividade da Palma de óleo no estado do Pará, Amazônia Resumo: A modelagem agrometeorológica tem avançado a partir de análises integradas entre diferentes variáveis respostas biofísicas, apoiadas em diferentes áreas do conhecimento científico, como a matemática, física, estatística, geomática e lógica em tecnologia da informação. Os prognósticos utilizando soluções de modelagem com rotinas de inteligência artificial (IA), têm possibilitado combinar, por exemplo, variáveis climáticas e fisiológicas de uma determinada cultura melhorando o desempenho dos modelos preditivos. Os prognósticos agrometeorológicos visam subsidiar à tomada de decisão quanto a adoção de ajustes ou novas técnicas de manejo para atingir as produtividades estimadas pelos modelos. Objetiva-se com este trabalho avaliar o desempenho de diferentes modelos de IA para a previsão de produtividade da palma de óleo no estado do Pará. Foram utilizados dados de variáveis climáticas e fenológicas da cultura obtidos de levantamentos cedidos para a pesquisa. Os dados foram coletados em uma área comercial de 583 hectares com palma de óleo, localizada no município de Moju, Pará. Foram utilizados dados mensais de produtividade entre os anos de 2003 a 2018, sendo excluídos os anos entre 2008 a 2012, devido alta incidência da doença ‘Amarelecimento Fatal’, na área de estudo. Dados diários de precipitação pluvial (P em mm), temperatura máxima (Tmax em °C) radiação solar (RAD em MJ m-2 dia-1) e umidade relativa (UR em %) foram obtidos usando dados de estação meteorológica de superfície próxima ao local de estudo. O balanço hídrico foi calculado pela metodologia de Thornthwaite e Mather, sendo posteriormente estimada a porcentagem de armazenagem de água no solo. Os modelos de IA ajustados foram: Regressão linear múltipla (RLM), Random Forests (RF), Redes neurais artificiais – Multilayer Perceptron (MLP) e Support Vector Machines de base radial RBF (SVM_RBF), Linear (SVM_Linear) e Polinomial (SVM_Poly), sendo testados pelo R2, MAPE, RMSE e ME. O desempenho dos modelos de IA com 4 meses antes da colheita representaram os melhores resultados para previsão de produtividade, com R2 > 0.70, RMSE < 0.50 t h-1, MAPE < 26% e ME (≤ -0.02 e ≥ -0.15 t h-1). O modelo SVM_Poly apresentou os melhores ajustes, com R2 = 0.86, RMSE = 0.39, MAPE = 16% e ME = -0.06. O modelo SVM_Linear foi o que apresentou os menores desempenhos, com R2 = 0.71, RMSE = 0.48 t h-1, MAPE = 24.64% e ME = -0.12 t h-1. Os modelos de ML são indicados para prever a produtividade da palma de óleo em áreas cultivadas no Pará. Palavras-chaves: Amazonia, Elaeis guineensis Jacq., Machine Learning, Modelagem agrícola, Python 20 Agrometeorological modeling using artificial intelligence to forecast oil palm yield in Pará state, Amazon ABSTRACT Agrometeorological modeling has advanced, from integrated analyses between different variables biophysical responses, supported in different areas of scientific knowledge, such as mathematics, physics, statistics, geomatics and logic in information technology. Predictions using modeling solutions with artificial intelligence (AI) routines have made it possible to combine, for example, climatic and physiological variables of a given crop, improving the performance of predictive models. The agrometeorological predictions aim to support decision making regarding the adoption of adjustments or new management techniques to achieve the yields estimated by the models. The objective of this work was to evaluate the performance of different AI models to predict oil palm productivity in the state of Pará. Data of climatic variables and crop phenology obtained from surveys provided for the research were used. The data were collected in a commercial area of 583 hectares with oil palm, located in the municipality of Moju, Pará. Monthly yield data from the years 2003 to 2018 were used, excluding the years between 2008 and 2012 due to the high incidence of the disease 'Fatal Yellowing' in the study area. Daily data of rainfall (P in mm), maximum temperature (Tmax in °C) solar radiation (RAD in MJ m-2 day-1) and relative humidity (RH in %) were obtained using data from surface weather station near the study site. The water balance was calculated by Thornthwaite and Mather methodology, and subsequently the percentage of water storage in the soil was estimated. The fitted AI models were: Multiple Linear Regression (MLR), Random Forests (RF), Artificial Neural Networks - Multilayer Perceptron (MLP) and Support Vector Machines of radial basis RBF (SVM_RBF), Linear (SVM_Linear) and Polynomial (SVM_Poly), being tested by R2, MAPE, RMSE and ME. The performance of the AI models at 4 months before harvest represented the best results for yield prediction, with R2 > 0.70, RMSE < 0.50 t h-1, MAPE < 26% and ME (≤ -0.02 and ≥ -0.15 t h-1). The SVM_Poly model showed the best fits, with R2 = 0.86, RMSE = 0.39, MAPE = 16% and ME = -0.06. The SVM_Linear model was the lowest performer, with R2 = 0.71, RMSE = 0.48 t h-1, MAPE = 24.64% and ME = -0.12 t h-1. The ML models are the most suitable for predicting oil palm productivity in cultivated areas in Pará. Keywords: Amazon, Elaeis guineensis Jacq., Machine Learning, Agricultural modeling, Python 21 2.1 INTRODUÇÃO A palma de óleo (Elaeis guineensis Jacq.) ou dendezeiro é uma planta perene que faz parte de um setor industrial globalizado, complexo e multissetorial, envolvendo pequenos, médio e grandes produtores, agroindústria, consumidores, cientistas e governo (Godswill et al., 2016). A palma de óleo se destaca pela produção e comercialização de óleo vegetal mais expressiva no mundo, apresentando no ano de 2019 uma produção de 74.60 milhões de toneladas de óleo beneficiado, superando a produção de óleo de soja que contabilizou 56.85 milhões de toneladas (Benezoli et al., 2021), além de render industrialmente de 3,5 a 10 vezes mais óleo vegetal do que a soja (Tan et al., 2009). A tendência mundial do consumo de óleo de palma é expandir-se (Tapia; Doliente; Samsatli, 2021), devido à crescente demanda na produção de alimentos, cosméticos, químicos e biodiesel (European Sustainable Palm Oil, 2019; Khatun et al., 2017; Pirker et al., 2016). Nos países tropicais úmido, entre os anos de 2000 a 2019 a palma de óleo foi um dos cultivos com maior expansão agrícola, tendo um crescimento de 176,9% de área colhida, seguida da soja e cana de açúcar com 122.1% e 55.5%, respectivamente (FA0, 2021). Com origem na África Ocidental (Corley; Tinker, 2015), a palma de óleo é produzida principalmente no Sudeste Asiático, compreendida principalmente pela Indonésia, Malásia e Tailândia (FAO, 2021). Em 2019, esses três países somaram 87,9% da produção mundial de cachos de frutas frescas (FFB) de palma de óleo (FFB), com 59,7% de FFB concentrados na Indonésia, 24.1% na Malásia e 4.1% na Tailândia (FAO, 2021). O Brasil participa com 0,6% da produção de FFB mundial, ocupando a nona posição. Na américa em geral, esses valores são mais relevantes, contribuindo com uma produção de 2,5 milhões de toneladas e respondendo por 11,2% da produção, atrás somente da Colômbia (36,4%) e Guatemala (14,2%) (FAO, 2021). Impulsionado por benefícios socioeconômicos, a palma de óleo veio crescendo no Brasil apoiada pelo Projeto de Lei Nº 7.326, de 2010 que culminou com a criação do ‘Programa de Produção Sustentável da Palma de Óleo’. A 22 expansão do cultivo no país ganhou saltos relevantes, concentrado no Pará seu principal polo de produção com 164.170 mil hectares colhidos, representando 98,5% da produção nacional, sendo que entre os anos de 2010 a 2019, houve um crescimento de 140,3% de produção de FFB e 214,2% de área plantada na região (IBGE, 2021). O potencial da palma de óleo na produção de óleo e conversão em biocombustível no Pará vêm ganhando importância em áreas com alto grau de degradação, inserindo-as ao sistema produtivo, minimizando a pressão do desmatamento, capturando carbono e mitigando emissões de gases de efeito estufa (GEE), além de promover oferta de emprego ao setor agrícola e industrial na Amazônia. Logo, o aumento da produtividade combinado com a expansão direcionada para áreas degradadas (Rhebergen et al., 2016) foram as estratégias preferidas para atender à crescente demanda pelo cultivo (Woittiez et al., 2017). Conseguir prever como as condições ambientais afetam os processos fisiológicos da planta e, consequentemente a eficiência de sua produção, é importante para determinar a sustentabilidade do cultivo no Brasil (Liakos et al., 2018). Investigações de Brum et al. (2021), destacaram a sensibilidade da palma de óleo às condições ambientais, principalmente precipitação pluvial, radiação solar e déficit de pressão de vapor, as quais apontaram variações expressivas na produção com base nessas variáveis climáticas. Hoffmann et al. (2017), destacaram a importância do ambiente e fatores internos no ciclo reprodutivo da palma de óleo, comprometendo sua produção. Estudos de Caliman e Southworth (1998) apontaram que a variável mais determinante para produção da cultura foi o déficit hídrico, pois o estresse hídrico desencadeou distúrbios vegetativos, como acúmulo de folhas fechadas, senescência prematura de folhas mais velhas e abortamento de frutos nos cachos. Portanto, as quebras de produtividade do cultivo devem ser estudadas e analisadas com base em variáveis agrometeorológicas em áreas de interesse produtivo. No entanto, essas relações envolvem sistemas de alta complexidade, que não se limitam apenas a modelos lineares, mas sobretudo, o uso de métodos 23 mais avançados de modelagem para apoiar os produtores na tomada de decisões de forma mais rápida e eficiente. Neste sentido, os sistemas de gestão agrícola estão evoluindo para soluções de modelagem baseadas em machine learning (ML). Os algoritmos de ML usam uma abordagem de modelagem empírica para aprender padrões e relações úteis, a partir de dados de entrada (Willcock et al., 2018), fornecendo importantes caminhos para previsões de produtividade. Chlingaryan et al. (2018), ressaltam a vantagem do algoritmo de ML na modelagem nas relações não lineares entre várias fontes de dados. Goodfellow et al. (2016), apontaram o ganho de desempenho nos modelos de ML, quando se aumentam os dados de treinamento disponível, assim como os algoritmos podem ser mais robustos para dados com ruídos, diminuindo a variância e o erro das previsões. Liakos et al., (2018) realizaram uma revisão sobre as aplicações do ML na agricultura, incluindo aplicações em previsão de produtividade, detecção de doenças, detecção de ervas daninhas, qualidade dos cultivos, reconhecimento de espécies, gestão animal, incluindo aplicações em bem-estar animal, gestão da água e manejo do solo, reforçando como a agricultura se beneficiará das tecnologias de ML. Diferentes modelos de ML têm sido usados para a previsão de safra dos cultivos, entre esses se destaca as Redes Neurais Artificiais (MLP), Support Vector Machine (SVM), Random Forest (RF) e Regressão linear múltipla (RLM). Haghverdi, Allen e Leib (2018), aplicaram o algoritmo de MLP para estimar a produtividade da fibra de algodão nos Estados Unidos. Pant et al., (2021), avaliaram a previsão de safra usando RF e SVM para os cultivos do milho, batata, arroz e trigo na Índia. Luciano et al. (2021), utilizaram o modelo RF para prever a produtividade da cana-de-açúcar no Brasil com até nove meses antes da colheita. Moraes et al. (2020), avaliaram a previsão de produtividade mensal do Açaí usando modelos de RLM no Brasil com bom desempenho até 6 meses antes da colheita. No entanto, observa-se que há reduzida disponibilidade de publicações que aplicaram os modelos de ML na previsão de Palma de óleo. 24 Portanto, objetivou-se avaliar o desempenho de diferentes modelos de ML para a previsão de produtividade da palma de óleo usando variáveis climáticas e fenológicas do cultivo. 2.2 MATERIAL E MÉTODOS 2.2.1 Base de dados O estudo foi realizado em uma área comercial de 583 hectares de plantio de palma de óleo, localizada no município de Moju, (Figura 1). As amostras utilizadas foram das variedades Tenera (Elaeis guineenses Jacq. var. tenera) coletadas em vários anos de colheita. Foram utilizados dados mensais de produtividade de cachos de frutas frescas (FFB) entre os anos de 2003 a 2018. Foram excluídos os anos entre 2008 a 2012, devido alta incidência da doença ‘Amarelecimento Fatal’ na área de estudo. 25 Figura 1. Mapa de localização da área comercial de cultivo de palma de óleo e classificação climática de Koppen adaptado por Martorano et al. (1993) e Thornthwaite (1948) para o estado do Pará. O clima da região segundo a classificação de Köppen é definido com Af2 (Martorano et al., 1993), apresentando o mês mais seco precipitação acima de 60 mm e chuvas anuais entre 2.500 a 3.000 mm ano-1. Pela classificação de Thornthwaite (1948) o clima enquadra-se no tipo ArA’a’ que é caracterizado como muito úmido, com pequena ou nenhuma deficiência hídrica, evapotranspiração potencial superior a 1.140 mm ano-1 e evapotranspiração de 26 verão menor que 48% da evapotranspiração anual (Moraes et al., 2020; Torres; Machado, 2008) (Figura 1). O conjunto de dados climáticos e de cultivo da palma de óleo, assim como as análises exploratórias para aplicação dos modelos de machine learning na previsão de produtividade da cultura aplicados neste estudo, é representado no fluxo grama de trabalho da figura 2. Figura 2. Etapas metodológicas conduzidos para este estudo. Variáveis meteorológicas: Precipitação pluvial (P mm), Deficiência hídrica (DEF mm), Excedente hídrico (EXC mm), Armazenamento de água no solo (ARM mm), Evapotranspiração potencial (ETP mm), Evapotranspiração real (ETR mm), Temperatura média (TMED °C), Temperatura mínima (TMIN °C), Temperatura 27 máxima (TMAX °C), Percentage Available Water holding Capacity (AWHC %), h) Radiação solar (RAD MJ m-2 dia-1), déficit de pressão de vapor (DPV kPa), umidade relativa (UR %). Variáveis de cultivo: Diferenciação do sexo (DSEX), Desenvolvimento (DD), Número de espiga (NP), Flor por espiga (FP), Aborto de inflorescência (ABI), Peso de carcaça (PC), Polinização (POL), Falha de cacho (FC), Maturação (MAT). A base de dados agrometeorológicos utilizada corresponde ao período de 1993 a 2018. Foram analisados dados diários de precipitação pluvial (P em mm), com coletas pluviais localizadas na área de cultivo de palma de óleo, temperatura máxima (Tmax em °C), radiação solar (RAD em MJ m-2 dia-1) e umidade relativa (UR em %) de estações meteorológicas próximas a região de estudo, especificamente no raio de 36 km da área de coleta de dados da cultura. Com base nos dados de UR, foi calculado o déficit de pressão de vapor (DPV) por meio das seguintes equações (1 a 3): 𝐷𝑃𝑉 = 𝐸𝑠 − 𝐸𝑎 (1) 𝐸𝑠 = 0.6108 × 10( 7.5 ×𝑇𝑀𝐸𝐷 237.3+𝑇𝑀𝐸𝐷 ) (2) 𝐸𝑎 = 𝑈𝑅 ×𝐸𝑠 100 (3) em que, DPV= Déficit de pressão de vapor (kPa); Es = Pressão de saturação de vapor (kPa); Ea = Pressão parcial de vapor (kPa); UR= Umidade relativa (%); TMED= Temperatura média do ar (°C). Foi realizada a retirada de tendência temporal das séries por ajuste linear, conforme proposto por Gujarati e Porter (2011), para a visualização de outros componentes capazes de influenciar a produção em função de efeitos do clima na produção de FFB por hectare. 28 2.2.2 Componentes de água no solo Para determinação do balanço hídrico (BH), seguindo a metodologia de Thornthwaite e Mather (1955), foi utilizado uma capacidade de água disponível no solo (CAD) igual a 125 mm, sendo mais indicada para fins de caracterização dos cultivos de palma de óleo (Gonçalves et al., 2010). A evapotranspiração foi calculada seguindo o método de Camargo (1971), equação 4, utilizando dados de temperatura média do ar para estimar a evapotranspiração potencial (ETP). 𝐸𝑇𝑃 = 𝐹 𝑄𝑜 𝑇 𝑁𝐷 (4) sendo Qo (mm dia-1) a radiação solar extraterrestre diária expressa em equivalente de evaporação, no período considerado, T (°C) é a temperatura média do ar durante o período; F é o fator de ajuste que varia com a temperatura média anual do local (para Tm até 23 °C, F = 0,01; Tm = 24 °C, F = 0,0105; Tm = 25 °C, F = 0,011; Tm = 26 °C, F = 0,0115; Tm > 26 °C, F = 0,012); e ND é o número de dias do período. Com a evapotranspiração potencial obtida foram estimados aos seguintes componentes de BH: armazenamento de água no solo (STO), deficiência hídrica (DEF) e excedente hídrico (EXC) (Figura 3). 29 Figura 3. Diagrama do modelo de balanço hídrico de Thornthwaite e Mather (1955): Fonte Rolim et al. (2020). em que ETP é a evapotranspiração potencial (mm), AWC é a capacidade de água disponível no solo (mm), SWS é o armazenamento de água no solo (mm), NAC é o negativo acumulado, ou seja precipitação acumulada menos a evapotranspiração potencial, P é a precipitação (mm), DEF é o déficit de água no sistema solo-planta-atmosfera (mm), ETR é a evapotranspiração real (mm), EXC é o excedente de água do sistema solo-planta-atmosfera (mm), ALT é o armazenamento de água do solo para o mês corrente menos o armazenamento de água do solo para o mês anterior (mm), e i é o período mensal (Adaptado de Rolim et al. 2020). Com base nos componentes de BH, foi calculado a porcentagem de capacidade de armazenamento de água no solo disponível no final do mês (AWHC %) (Surre, 1968), utilizando-se a seguinte equação (5): 30 % AWHC = ((SWS + P – ETP – EXC) / AWC) × 100% (5) sendo %AWHC é a porcentagem da capacidade de retenção de água disponível no final do mês, SWS é o armazenamento de água no solo (mm), e AWC é a capacidade de água disponível (mm). 2.2.3 Caracterização fenológicas da palma de óleo Foram definidos 9 estádios fenológicos para palma de óleo (Hormaza; Fuquen EM; Romero HM, 2012; Forero DC, Hormaza P, Romero HM, 2012), considerando-se principalmente a linha do tempo de desenvolvimento da inflorescência até a maturação, com base na seguinte caracterização: Diferenciação do sexo (DSEX), estádio esse que leva a divisão de inflorescência masculina e feminina, ocorrendo entre 23 a 25 meses antes da colheita. Desenvolvimento (DD), com antecipação de (19 a 22 meses), Número de espiga (NP, 16 a 18 meses), Flor por espiga (FP, 12 a 15 meses), Aborto de inflorescência (ABI, 10 a 11 meses), Peso de carcaça (PC, 7 a 9 meses), Polinização/antese (POL, 5 a 6 meses), Falha de cacho (FC, 2 a 5 meses) e Maturação (MAT) com ocorrência 1 mês antes da colheita de FFB (Figura 4). 31 Figura 4. Descrição dos estádios fenológicos da palma de óleo. Adaptado de Hormaza et al. (2012). Para verificar a influência do clima em cada estádio fenológico foi realizada a quantificação entre (P, DEF, EXC, ARM, ETR, AWHC, TMAX, RAD e DPV) com a fenologia do cultivo, levando a um conjunto de dados de 81 variáveis para seleção entre os modelos de previsão. No entanto, antes da implementação do modelo final, avaliações prévias foram realizadas no banco de dados, buscando tanto a seleção quanto na extração de variáveis. Foi analisada a multicolinearidade dos dados, ou seja, condição em que duas variáveis são correlacionadas e, portanto, apresentam informações semelhantes sobre a variação em um determinado conjunto de informações. Para isso, o Fator de Inflação de Variância (FIV), usando a biblioteca StatsModels da linguagem de programação Python foi utilizada para diagnosticar a multicolinearidade entre as variáveis. Esse método é baseado no valor R2 obtido através da regressão de um preditor sobre todos os outros preditores na análise (Forthofer; Lee; Hernandez, 2007). 32 Em regra geral, se a FIV for maior que 10, então a multicolinearidade é alta, sendo assim, exclui-se a variável explicativa com FIV mais alta e reforma- se o modelo (Miles, 2014). Uma das técnicas também utilizada foi análise da matriz de correlação de Pearson, para a avaliação do grau de associação entre as variáveis de estudo. Por fim, objetivando resumir a maior parte da variância dos dados a um número mínimo de fatores para fins de previsão, foi aplicado análise de componente principal (Farrugia et al., 2021, Hotelling, 1933), por meio da biblioteca sklearn.decomposition.PCA. 2.2.4 Modelos de Machine Learning Foram utilizados diferentes modelos de machine learning para prever a produtividade da palma de óleo. Os dados de produtividade por hectare corresponderam a variável dependente e os elementos meteorológicos as variáveis independentes. Para todos os modelos, foram separados 70% dos dados para treinamento e 30% para teste. Os modelos machine learning ajustados foram: Regressão Linear Múltipla (RLM), Random Forests (RF), Redes neurais artificiais – Multilayer Perceptron (MLP) e Support Vector Machines de base radial RBF (SVM_RBF), Linear (SVM_Linear) e Polinomial (SVM_Poly), usando a linguagem de programação Python. A análise de regressão linear múltipla (RLM) modela a relação entre uma variável dependente (produtividade da colheita) e variáveis independentes (climáticas) ajustando uma equação linear através de dados observados. Uma primeira etapa na regressão múltipla é examinar as relações de pares entre todas as variáveis, uma vez que isso é útil para entender os dados. Este método também evita o mau condicionamento da matriz das variáveis das independentes (Features), controlando a inflação e a instabilidade geral encontrados em estimadores de mínimos quadrados (Liu et al., 2021). O Random Forest (RF) são variantes de árvores de decisão que são procedimentos para classificação e/ou regressão que utilizam grande quantidade de dados (Adetiloye, Awasthi, 2017). A grande vantagem do RF é dada a sua adequação para lidar com ruído nos dados, sendo, portanto, muito robusto. Esse 33 algoritmo é amplamente usado no aprendizado de máquina, devido ao seu bom equilíbrio entre robustez e alta qualidade do modelo (Hariharan, 2021). As redes neurais são um conjunto de unidades individuais interconectadas chamadas neurônios (Du e Swamy, 2014). O neurônio individual tem um número finito de entradas e uma saída. Cada entrada está associada a um valor de ponderação. Multilayer Perceptron (MLP) é um tipo de rede neural artificial que foi proposta por Frank Rosentblatt em 1957 (Shi et al., 2020), sendo mais comumente usadas devido à sua operação rápida, facilidade de implementação e requisitos de dados para o conjunto de treinamento menores (Kocyigit et al., 2008). O MLP consiste em camadas sequenciais: camadas de entrada, camadas ocultas e de saída (Alkhasawneh e Tay, 2017). A camada oculta processa e transmite as informações de entrada para a camada de saída. Um modelo MLP com número insuficiente ou excessivo de neurônios na camada oculta provavelmente causa problemas de má generalização e superajuste (Antanasijević; Antanasijević; Pocajt, 2018). Não existe um método analítico para determinar o número de neurônios na camada oculta. Portanto, ele só é encontrado por tentativa e erro (Wang; Hafshejani; Wang, 2021). O Support Vector Machine (SVM) é um algoritmo de ML baseado na teoria de aprendizado estatístico. O SVM mostrou muitas vantagens, devido ao seu bom desempenho com um número limitado de amostras (Shaharum et al., 2018). Outras aplicações também são no reconhecimento de padrões não lineares e de alta dimensão, podendo ser aplicado a outros problemas de ML, como ajustes de funções (Cortes e Vapnik, 1995). Os algoritmos de SVM são selecionados por parâmetros da função Kernel, dividindo-se em função de Base Radial (RBF), Linear e polinomial. No entanto, atualmente não existe um critério padrão para seleção da função kernel adequada para um problema específico no algoritmo SVM. Sendo assim, o método atual para seleção do melhor kernel é aplicar diferentes funções e selecionar a de menor erro (Manjunathan et al., 2020). Os parâmetros de treinamento para cada modelo e seus respectivos valores padrão, foram estimados pelo método gridsearchCV uma biblioteca para 34 python. Esse método funciona da seguinte forma: a partir de valores pré- estabelecidos de cada parâmetro, o método faz uma combinação de todas as possibilidades formando um ‘grid’. Será selecionado como resposta a combinação que apresentar menor erro em relação aos dados observados. Os valores dos hiperparâmetros e cada modelo selecionado são apresentados na tabela 1. Tabela 1. Valores dos hiperparâmetros utilizados pelos modelos de Machine Learning entre as diferentes épocas de previsão. 4, 6 e 9 meses antes da colheita. Modelo Hiperparâmetros 4 meses 6 meses 9 meses RF max_depth 10 8 10 min_impurity_decreas 0 0 0 n_estimators 80 40 40 random_state 0 0 0 MLP hidden_layer_sizes 9,14,18 11,15,17 2,3,5 learning_rate_init 0.1 0.1 0.1 learning_rate constant constant constant activation logistic logistic logistic solver lbfgs lbfgs lbfgs alpha 0.1 0.1 0.1 random_state 50 50 50 max_iter 1000 1000 1000 SVM_RBF kernel rbf rbf rbf C 3 8 8 gamma auto auto auto epsilon 1 1 1 SVM_LINEAR kernel linear linear linear C 4 2 2 gamma auto auto auto epsilon 1 2 3 SVM_POLY kernel poly poly poly C 1 2 2 gamma auto auto auto epsilon 0.1 0.1 0.1 coef0 2 2 2 35 2.2.5 Análise de dados Os dados observados em campo e obtidos pelos modelos de machine learning foram comparados através de indicadores estatísticos: precisão, acurácia e tendência (Tabela 2). A precisão que indica o grau de dispersão entre os valores estimados e observados, foi estimada pelo coeficiente de determinação (R2) (Equação 12). A acurácia determina o afastamento entre valores estimados e observados, sendo medido pela Raiz do erro quadrático médio (RMSE) e do Erro absoluto médio (MAPE) (Equação 13, 14), respectivamente. O RMSE reflete o quão distantes os valores previstos em média estão dos valores observados e o MAPE qual a porcentagem de erro entre o valor previsto e observado. O erro médio (ME) (Equação 15), representa o erro sistemático do modelo, ou seja, quanto é o erro de subestimação ou superestimação em relação ao valor observado. Tabela 2. Métricas de precisão, acurácia e tendência dos índices estatísticos utilizados. Índice estatístico Equação Precisão R2 R2 = ∑ (Y𝑒𝑠𝑡−𝑌𝑒𝑠𝑡̅̅ ̅̅ ̅̅ )2𝑛 𝑖=1 ∑ (Yobs−𝑌𝑒𝑠𝑡̅̅ ̅̅ ̅̅ )2𝑛 𝑖=1 (6) Acurácia RMSE RMSE = √ ∑ (Yobs−Yest)2𝑛 𝑖=1 𝑛 (7) MAPE MAPE = ∑ ( |Yobs−Yest| Yobs )𝑛 𝑖=1 𝑛 ∗ 100 (8) Tendência ME ME = 1 n ∑ (Yest − Yobs)n i=1 (9) Yest é o valor estimado de y; Yobs é o valor observado de y; 𝑌𝑒𝑠𝑡̅̅ ̅̅ ̅̅ é o valor médio estimado de y; n é número de dados. 36 2.3 RESULTADOS Nas áreas de cultivo de palma de óleo foi observado grande variabilidade nos estoques hídricos e médias térmicas de variáveis agrometeorológicas entre janeiro e dezembro (Figura 5). A precipitação pluvial (P) (Figura 5.a) entre janeiro e maio apresentou os maiores valores em oferta de chuva, representando neste período quase 70% dos acumulados de P anual. As chuvas máximas ocorreram entre fevereiro e abril, com 650 mm cada, no entanto, as maiores médias entre os 24 anos analisados foram de, aproximadamente 455 mm para março e abril. No segundo semestre, principalmente entre julho e outubro, ocorreram as menores cotas pluviais, mas mantendo-se no mês menos chuvoso valores acima de 60 mm, confirmando-se a inclusão da área na tipologia climática Af2, de acordo com Martorano et al. (1993) e Martorano et al. (2017), ao analisar as tipologias climáticas no estado do Pará. A deficiência hídrica (DEF) (Figura 5.b), devido ao grande acumulado de chuva durante o primeiro semestre, não apresenta limitações evapotranspiratórias para plantas, principalmente entre janeiro e junho. Entre setembro e novembro, observa-se maior DEF, chegando a valores médios acima de 20 mm, mas como a CAD foi de 125 mm, reforça que esse fator não apresentou limitações a cultura. O excedente hídrico (EXC) (Figura 5.c), de forma inversa ao DEF e direta a P, armazenamento de água no solo (ARM) (Figura 5.d) e capacidade de retenção de água disponível (AWHC) (Figura 5.e) apresentaram no primeiro semestre seus maiores valores acumulados e no segundo semestre os menores volumes. A Evapotranspiração real (ETR), obteve no segundo semestre a menor demanda evapotranspiratória, destacando-se entre setembro e novembro (Figura 5.e). A temperatura máxima (Tmax) (Figura 5.f) e a radiação solar (Rs) (Figura 5.h), fatores que regulam diretamente a fotossíntese e o acúmulo de biomassa, apresentaram amplitudes de 1,8 °C e 5,3 MJ m2 dia-1, respectivamente. Entre agosto a novembro são os meses com os maiores índices dessas variáveis, chegando a médias de Tmax acima de 34,5 °C e médias de Rs acima de 22 MJ m2 dia-1. 37 O déficit de pressão de vapor (DPV) variou entre 0,7 a 1,7 kPa. De forma geral no segundo semestre, principalmente entre agosto e novembro ocorre maior demanda evaporativa da atmosfera, com valores acima de 1,5 kPa e médias acima de 1,2 kPa. Entre janeiro a abril são observados os menores valores de DPV, com variações médias abaixo de 0.7 kPa (Figura 5.i). Figura 5. Mapa de calor das variáveis meteorológicas, a) Precipitação pluvial (P mm), b) Deficiência hídrica (DEF mm), c) Excedente hídrico (EXC mm), d) Armazenamento de água no solo (ARM mm), e) Evapotranspiração real (ETR mm), f) Temperatura máxima (TMAX °C), g) Percentage Available Water Holding Capacity (AWHC %), h) Radiação solar (RAD MJ m-2 dia-1) e déficit de pressão 38 de vapor (DPV kPa), em regiões de cultivo de palma de óleo, no município de Moju-Pará. Todas as fases fenológicas da palma de óleo sofrem grande influência do clima (Figura 6). As variáveis hídricas para a fase DSEX (23 a 25 meses antes da colheita de FFB) como P, EXC, ARM e AWHC apresentam em média maiores valores entre os meses de colheita de fevereiro a abril. Portanto, durante esses meses as condições meteorológicas que acontecem 23 a 25 meses antes da colheita é condicionada por maiores ofertas hídricas. Por outro lado, os meses de colheita de setembro a novembro, apresentam os menores acumulados hídricos (Figura 6.a). Quando avaliada as variáveis energéticas como radiação solar (RAD) e temperatura máxima (TMAX), os maiores valores médios obtidos em DSEX estão concentrados entre setembro e novembro e os menores valores entre fevereiro e março. Vale destacar que a amplitude obtida entre os meses de colheita para TMAX foi de 1,54 °C e RAD de 4,90 MJ m-2 dia-1, apontando as pequenas variações que ocorrem durante os meses de colheita durante o DSEX (Figura 6.g). As maiores produtividades de FFB estão concentradas entre outubro e novembro (Figura 6.a), e as menores entre março a maio. Esses dados corroboram com os estudos de Benezoli et al. (2021) em investigações com produtividade de palma de óleo realizadas no nordeste do Pará. É importante observar que durante os meses de maior produção, as fases fenológicas de Desenvolvimento diferencial (DD) que se inicia 19 a 22 mês antes da colheita de FFB, Numero de espiga (NP) 16 a 18 meses antes da colheita, Peso de Cacho de carcaça (PC) 7 a 9 meses antes da colheita e polinização (POL) 5 a 6 meses antes da colheita, apresentam acumulados significantes de EXC e P, ou seja, para esses meses de maiores produtividades de FFB, as fases fenológicas descritas acima acontecem em média em períodos com maior oferta hídrica. Durante março e maio, períodos de menor produtividade de FFB, as fases de Falha de Cacho (FC) 2 a 4 meses antes da colheita, Polinização (POL) 5 a 6 meses antes da colheita e Número de Espiga (NP) 16 a 18 meses antes da 39 colheita, acontecem em média em períodos mais secos, representando maiores déficits de água no solo e consequentemente menor capacidade evapotranspiratória da planta. O déficit de pressão de vapor (DPV) (Figura 6.f), variável de grande importância dada as suas contribuições na troca de carbono entre a superfície e atmosfera, apresentou nos meses de menor produtividade (março a maio) nas fases, POL 5 a 6 meses antes da colheita, PC 7 a 9 antes da colheita e NP 16 a 18 meses antes da colheita, valores elevados de DPV. Por outro lado, em meses de maior produtividade de FFB, foi observado menores variações de DPV nas fases DD, ABI e PC, sendo esses 19 a 22, 10 a 11 e 7 a 9 meses antes da colheita, respectivamente. 40 Figura 6. Acumulado das condições meteorológicas para diferentes meses de produção e fenológicos no cultivo de palma de óleo no município de Moju- Pará. a) Precipitação pluvial e Produtividade (FFB, t ha-1), b) Excedente hídrico (EXC), c) Deficiência hídrica (DEF), d) Armazenamento de água no solo (ARM), e) Evapotranspiração real (ETR), f) déficit de pressão de vapor (DPV), g) Temperatura máxima (TMAX), h) Radiação solar (RAD), e) AWHC. Do conjunto de dados obtidos pela interação entre as condições agrometeorológicas e a fenologia da palma de óleo foram selecionadas 9 variáveis de acordo com o critério estabelecido de correlação de Pearson, Fator 41 de Inflação de Variância, objetivando remover preditores que estão altamente correlacionados, e análise de fatores para redução de dimensionamento (Figura 7). Os valores correspondem a acumulados de EXC, e médias de TMAX, DPV, AWHC e RAD, durante os estádios fenológicos da planta. O EXC durante a fase de DD (EXC_DD), 19 a 22 meses antes da colheita de FFB, apresentou entre os meses de novembro, dezembro e janeiro suas maiores médias, com 1078, 1086 e 934 mm, respectivamente. Enquanto maio a junho representaram as menores médias, com valores ≤ 70 mm (Figura 7.a). Na fase de polinização, os maiores EXC se concentram durante agosto a outubro, com acumulados ≥ 500 mm, e entre janeiro a maio se observou em média valores ≤ 50 mm (Figura 7.b). Para TMAX durante a POL (TMAX_POL), maiores valores foram observados entre fevereiro a maio, com médias ≥ 34,5 °C. Julho a setembro apresentaram as menores médias, com valores ≤ 34,0 °C (Figura 7.c). O DPV durante a fase de PC (DPV_PC) (Figura 7.d), variou entre o período de maio a junho com valores ≥ 1,2 kPa e entre outubro a novembro com valores ≤ 0,85 kPa, sendo esses os períodos de maiores e menores valores, respectivamente. Durante a FP, o DPV, diferente da fase PC, obteve seus picos entre outubro a dezembro (≥ 1,2 kPa) e menores entre março a maio (≤0,82 kPa) (Figura 7.e). O AWHC prevaleceu entre as variáveis hídricas e térmicas, sendo um importante elemento na variabilidade de três fases fenológicas para previsão de produtividade, sendo, NP, FP e ABI (Figura 7.f, h), respectivamente. AWHC durante os períodos de julho a outubro em NP, abril a junho em FP e de dezembro a abril em ABI não apresentam limitações hídricas, com valores médios (≥ 95%). Por outro lado, fevereiro a abril, outubro a dezembro e julho a outubro, são os menores índices de AWHC (≤ 50%), para NP, FP e ABI, respectivamente. No conjunto de variáveis, a radiação solar contribui nos modelos de previsão durante a fase de FP (Figura 7.i). Esse estádio para os períodos de colheita de outubro e novembro apresentaram as maiores médias de radiação, com valores ≥ 22 MJ m-2 dia-1. Por outro lado, entre março a maio a radiação 42 variou entre 17.5 a 18 m-2 dia-1, correspondendo, portanto, a períodos com menores valores. Figura 7. Boxplot da variabilidade mensal dos totais e médias climáticas para as principais fases fenológicas da palma de óleo, selecionadas pelo modelo de machine learning. EXC_DD (Excedente no desenvolvimento), EXC_POL (Excedente na polinização), TMAX_POL (Temperatura máxima na polinização), DPV_PC (Déficit de pressão de vapor no peso de cacho), DPV_FP (Déficit de pressão de vapor na flor por espiga), AWHC_NP (Porcentagem de armazenamento de água no número de espiga), AWHC_FP (Porcentagem de armazenamento de água em flor por espiga), AWHC_ABI (Porcentagem de armazenamento de água no aborto de inflorescência), RAD_FP (Radiação solar na flor por espiga). 43 Pela correlação de Pearson (Figura 8), as variáveis que respondem diretamente a produtividade, ou seja, quanto o valor de uma variável aumenta, maior será a produtividade, são (DPV_FP = 0.73), (RAD_FP = 0.65), (EXC_DD = 0.53), (AWHC_NP = 0.39), (EXC_POL = 0.33) e (AWHC_ABI = 0.1). De forma inversa, as variáveis que respondem de forma indireta a produtividade foram (DPV_PC = -0.67), (AWHC_FP = -0.58) e (TMAX_POL = -0.33). Figura 8. Coeficiente de correlação de Pearson das principais fases fenológicas e variáveis meteorológicas selecionadas pelo modelo de machine learning. DPV_FP (Déficit de pressão de vapor na flor por espiga), RAD_FP (Radiação solar na flor por espiga), EXC_DD (Excedente no desenvolvimento), AWHC_NP (Porcentagem de armazenamento de água no número de espiga), EXC_POL (Excedente na polinização), AWHC_ABI (Porcentagem de armazenamento de água no aborto de inflorescência), TMAX_POL (Temperatura máxima na polinização), AWHC_FP (Porcentagem de armazenamento de água em flor por espiga), DPV_PC (Déficit de pressão de vapor no peso de cacho). O desempenho de todos os modelos de Machine Learning para previsão de produtividade de FFB com 4 meses de antecedência foram satisfatórios, apresentando R2 > 0,70, RMSE < 0,50 t ha-1, MAPE < 26% e ME (≤ -0,02 e ≥ - 0,15 t ha-1) (Figura 9). O modelo Support Vector Machine de kernel polinomial (SVM_Poly) (Figura 9.f), apresentou os melhores ajustes, com medidas de precisão (R2 = 0,86), acurácia (RMSE = 0,39 e MAPE = 16%) e tendência (ME = 44 -0,06). Em contrapartida, o modelo Support Vector Machine de kernel linear (SVM_Linear) apresentou os menores desempenhos, com (R2 = 0,71, RMSE = 0,48 t h-1, MAPE = 24,64% e ME = -0,12 t h-1). (Figura 9.e). Embora tenha sido observado desempenho satisfatório na previsão de FFB, os modelos apresentaram limitações para prever os picos e vales de produtividade (Figura 9.a.1 a f.1). No entanto, o comportamento crescente e decrescente da produtividade dos dados observados ao longo do tempo é acompanhado pelo modelo estimado, tendendo os modelos em média a subestimação. No conjunto de dados, observa-se também que o erro entre os valores observados e estimados, tende a ser maior à medida que se tem menores valores de produtividade, principalmente em faixas menores que 1 t ha-1. Para produtividades mais altas, acima de 2 t ha-1, os erros tendem a ser mais conservador. Importante destacar que à medida que a produtividade aumenta, os dados estimados tendem a subestimar os dados observados em campo, por outro lado, produtividades mais baixas os modelos tendem a superestimar os valores reais (Figura 9). 45 Figura 9. Comparação da produtividade observada obtida em campo e da produtividade prevista com 4 meses antes da colheita, simulada pelos diferentes modelos de machine learning. a) Regressão Linear Múltipla (RLM), b) Random Forest (RF), c) Multilayer Perceptron (MLP), d) Support Vector Machine RBF (SVM_RBF), e) Support Vector Machine Linear (SVM_Linear), f) Support Vector Machine Poly (SVM_Poly). 46 Para previsão de FFB com 6 meses de antecedência (Figura 10), os valores de precisão, tendência e acurácia apresentaram valores mais baixos. O nível de precisão variou entre (R2 ≥ 0,.70 e ≤ 0,77), acurácia (MAPE ≥ 24% e ≤ 28%, RMSE ≥ 0,45 t ha-1e ≤ 0,52 t ha-1) e tendência (ME ≥ -0,21 t ha-1 e ≤ -0,02 t ha-1). O RF (Figura 10.b) e RLM (Figura 10.a) apresentaram os melhores resultados de precisão (R2 = 0,77 e 0,74), acurácia (RMSE = 0,45 t ha-1 e 0,46 t ha-1); (MAPE = 24,41% e 25,11%) e tendência (ME = -0,02 t ha-1 e -0,13 t ha-1), respectivamente. Desempenhos ligeiramente menores foram observados para os demais modelos previsores, com R2 ≤ 0,73, MAPE ≥ 25% e RMSE ≥ 0,48 t ha-1 e ME ≥ 0,14 t ha-1. Apesar do desempenho satisfatório para os níveis de precisão e acurácia na previsão com 4 meses de antecedência (Figura 9), o modelo SVM_Poly apresentou baixo desempenho para prever a produtividade com 6 meses antes da colheita, apresentando subestimação média de – 0,21 t ha-1 (Figura 10.f). 47 Figura 10. Comparação da produtividade observada obtida em campo e da produtividade prevista com 6 meses antes da colheita, simulada pelos diferentes modelos de machine learning. a) Regressão Linear Múltipla (RLM), b) Random Forest (RF), c) Multilayer Perceptron (MLP), d) Support Vector Machine RBF (SVM_RBF), e) Support Vector Machine Linear (SVM_Linear), f) Support Vector Machine Poly (SVM_Poly). 48 No conjunto dos modelos de previsão, observou-se menores desempenhos ao expandir-se o tempo das estimativas em previsibilidade. Portanto, para níveis de previsão de produtividade com 9 meses de antecedência (Figura 11), os índices estatísticos de precisão variaram entre (R2 ≥ 0,62 e ≤ 0.77), acurácia (MAPE ≥ 24% e ≤32%, RMSE ≥ 0,46 t ha-1 e ≤ 0,75 t ha-1) e tendência (ME ≥ -0,09 t ha-1 e ≤ 0,0003 t ha-1). Modelos de MLP (Figura 11.c) e RF (Figura 11.b), obtiveram desempenho satisfatório, com reduzida diferença entre suas métricas estatísticas, R2 (0.77 e 0.74), RMSE (0.46 ha-1), MAPE (28.51% e 24.71%) e ME (-0.09 t ha-1, 0.0003 t ha-1), respectivamente. Por outro lado, RLM (Figura 10.a), SVM_Linear (Figura 11.e) e SMV_Poly (Figura 11. f), obtiveram os menores desempenho de previsões de produtividade de FFB, com R2 (≤ 0,66), RMSE (≥0,52 t ha-1), MAPE (≥ 29%). Os resultados também evidenciaram limitações dos modelos para as produtividades mais baixas (≤ 1 t ha-1), com erros que podem chegar a (≥ 50%). Reforçou-se também a superestimação à medida que se diminui a produtividade e subestimação com produtividades mais altas (Figura 11). 49 Figura 11. Comparação da produtividade observada obtida em campo e da produtividade prevista com 9 meses antes da colheita, simulada pelos diferentes modelos de machine learning. a) Regressão Linear Múltipla (RLM), b) Random Forest (RF), c) Multilayer Perceptron (MLP), d) Support Vector Machine RBF (SVM_RBF), e) Support Vector Machine Linear (SVM_Linear), f) Support Vector Machine Poly (SVM_Poly). 50 Avaliando o erro relativo (ER) em razão dos meses de produtividade (janeiro a dezembro) entre os modelos de ML, observa-se que em junho para todos os modelos e períodos diferentes de previsão (4 meses, 6 meses e 9 meses antes da colheita), apresenta em média os maiores erros, tanto para subestimação quanto para superestimação (Figura 12). Reforça-se também que os modelos de ML tendem subestimar os valores observados de FFB para produtividade mais elevadas. Para as previsões com 4 meses de antecedência da colheita, os maiores ER foram observados para o modelo RF, apresentando em junho erros com valores que chegam em média a 75% (Figura 12.a). Em contrapartida, em janeiro, fevereiro, agosto, novembro e dezembro, apresentaram ER menores que 10%. O SVM_Poly, modelo de melhor desempenho para previsão de FFB (Figura 9), com exceção do mês de abril que apresentou ER de 30, os demais meses do ano obtiveram ER < 10%. Em janeiro, março, maio, julho, agosto, outubro e dezembro destacaram-se entre o SVM_Poly com ER < 4% (Figura 12.a). A superestimação observada em abril para o SVM_Poly, pode ser explicada pelo EXC na POL, TMAX na POL e DPV no PC, pois para as previsões com 9 meses antes da colheita, onde essas variáveis não são estimadas, a tendência do ER segue a mesma variação para todos os modelos, com maior ER em junho. 51 Figura 12. Erro relativo mensal de produtividade da palma de óleo pelos diferentes modelos de Machine Learning para os 3 períodos de previsão, a) 4 meses, b) 6 meses e c) 9 meses antes da colheita. As variáveis independentes utilizadas, tiveram a mesma robustez pela matriz de correlação de Pearson entre os modelos de ML (Figura 13). O DPV durante a fase de FP (DPV_FP) e RAD_FP, apresentaram as maiores correlações positivas entre todos os modelos, com valores > 0.70. Enquanto AWHC_FP e DPV_PC, apresentaram as maiores correlações negativas com valores > - 0.65. O modelo SVM_Poly, que apresentou melhor desempenho para previsão com 4 meses de antecedência (Figura 9.f), obteve correlações positivas na ordem de (DPV_FP = 0.78), (RAD_FP = 0.74), (EXC_DD = 0.54), (AWHC_NP = 0.38), (EXC_POL = 0.38) e (AWHC_ABI = 0.03). Essas variáveis detêm a uma relação linear com a produtividade. De forma inversa, correlações negativas foram obtidas na ordem de -0.32, -0.67 e -0.77 para TMAX_POL, AWHC_FP e DPV_PC, respectivamente (Figura 13.a). 52 Figura 13. Correlação de Pearson entre a produtividade da palma de óleo e variáveis independentes selecionadas pelos modelos de Machine Learning para os 3 períodos de previsão, a) 4 meses, b) 6 meses e c) 9 meses antes da colheita. No processo de seleção de variáveis/features de maior importância nos modelos de previsão utilizando o algoritmo de Random Forest (Figura 14), foi retornado 9 elementos para previsão com 4 meses, 7 elementos para previsão com 6 meses e 6 elementos para previsão com 9 meses. DPV_FP apresentou maior peso (> 0.4) no conjunto de variáveis para os três modelos de previsão (4, 6 e 9 meses de antecedência), acompanhada de AWHC_FP e RAD_FP. Por outro lado, as variáveis de menor peso foi EXC_POL para previsão com 4 meses e AWHC_ABI para previsões com 6 e 9 meses antes da colheita de FFB (Figura 14. a, b, c), respectivamente. 53 Figura 13. Análise de importância das variáveis selecionas pelos modelos de machine learning. a) Previsão de produtividade com 4 (quatro) meses de antecedência, b) Previsão de produtividade com 6 (seis) meses de antecedência, c) Previsão de produtividade com 9 (nove) meses de antecedência. Os modelos com melhores desempenho foram selecionados para estimar a produção de óleo de palma (Figura 15). A estimativa de óleo de palma em função dos dados observados de FFB, apresentou desempenho satisfatório com coeficiente de determinação R2 = 0,71. O modelo de previsão SVM_Poly foi selecionado para estimativa de óleo de palma com 4 meses de antecedência, enquanto o RF para 6 e 9 meses, devido aos menores erros de produtividade de FFB obtidos nas suas validações (Figura 9,10,11), respectivamente. Assim como para previsão de FFB, a produtividade de óleo de palma apresentou maior precisão na sua estimativa com o modelo de previsão SVM_Poly (Figura 15. b), com R2 = 0,61. Mostrando que para cada aumento de 1 t ha-1 de FFB, ocorre um crescimento de produtividade de 0.0767 t ha-1 de óleo de palma. O modelo RF para estimativa com 6 e 9 meses de antecedência 54 apresentou precisões ligeiramente menores, com R2 = 0,52 e 0,50, respectivamente, (Figura 15. c,d). Figura 15. Análise de regressão para estimativa de óleo de palma em função da produção de frutos maduros de palma de óleo (FFB). a) observado, b) SVM_Poly_4meses, c) RF_6meses, d) RF_9meses. 2.4 DISCUSSÃO A previsão de produtividade da palma de óleo é uma informação crucial para tomada de decisão em todo processo industrial, sendo uma contribuição agrometeorológica que permite subsidiar estratégias de decisão durante os estádios e crescimento, desenvolvimento e produtividade de uma cultura agrícola. Os resultados das métricas estatísticas obtidos, corroboram com outros estudos para previsão de produtividade da palma de óleo com diferentes 55 modelos. Keong e Keng (2012) em estudos conduzido na Malásia, avaliaram um modelo de regressão linear múltipla (RLM) estabelecendo a produtividade mensal da palma como variável dependente e empregando variáveis agrometeorológicas em diferentes estádios fenológicos como variáveis independentes. O modelo de RLM apresentou desempenho aceitável, podendo prever com razoável precisão a produtividade da palma de óleo com 9 meses antes da colheita, já que o coeficiente de determinação R2 foi igual a 0,68. Esses autores observaram que a porcentagem de capacidade de retenção de água no solo disponível (%AWHC) tem implicações significativas na produtividade mensal de cachos de frutas frescas por hectare do cultivo. Mustakim, Buono e Hermadi (2016), avaliaram o desempenho dos métodos de ML Support Vector Machines (SVM) e Rede neural artificial (MLP) na predição de produtividade da palma de óleo em Riau, Indonésia. O modelo SVM de kernel RBF apresentou os melhores resultados (R2 = 0.95) com erros de 6% de predição, enquanto o MLP apresentou menor coeficiente de determinação, com R2 = 0,74. Os melhores desempenhos obtidos pelo modelo SVM_RBF é dado pela facilidade de modelo trabalhar com número limitado de informações. Contudo, deve-se ressaltar que os resultados obtidos não consideram a natureza ou outros fatores no campo que poderia afetar a produtividade da planta durante o ano, baseando-se apenas na temporalidade da produção. Oettli, Behera e Yamagata (2018), avaliaram a predição de modelos estatístico de regressão linear múltipla na produtividade de cachos de frutas frescas de palma (FFB) na Malásia, combinando condições climáticas locais e modelos de variação climática em grande escala (ENSO). Foram ajustados dois modelos de previsão, um contento apenas valores reais de variáveis atmosféricas locais (Modelo 1) e outros adicionando os fenômenos climáticos de grande escala (Modelo 2). Para toda a Malásia, o modelo 1 apresentou superestimação de FFB, com R2 = 0,39. Por outro lado, o modelo 2 apresentou melhor desempenho na simulação da produtividade observada com R2 = 0,78, reforçando a importância de avalições de fenômenos de grande escala como El Niño e La Niña na variabilidade produtiva da Palma de óleo. As médias espaciais 56 mensais para cada grupo de anos foram calculadas entre dezembro, do ano da colheita, e janeiro, três anos antes, ou seja, para um período de 48 meses. Este período cobre diferentes estágios do ciclo da palmeira. Shanmuganathan et al. (2014) na Malásia, aplicaram análise de regressão linear múltipla na previsibilidade da FFB da palma de óleo, por meio de variações na temperatura em diferentes fases de dese