JOÃO RICARDO FAVAN DESENVOLVIMENTO DE SISTEMA INTELIGENTE PARA CLASSIFICAÇÃO DA SEVERIDADE DA MANCHA FOLIAR BACTERIANA DO EUCALIPTO Botucatu 2019 JOÃO RICARDO FAVAN DESENVOLVIMENTO DE SISTEMA INTELIGENTE PARA CLASSIFICAÇÃO DA SEVERIDADE DA MANCHA FOLIAR BACTERIANA DO EUCALIPTO Tese apresentada à Faculdade de Ciências Agronômicas da Unesp, Câmpus de Botucatu, para obtenção do título de Doutor em Ciência Florestal. Orientador: Prof. Dr. José Raimundo de Souza Passos Botucatu 2019 AGRADECIMENTOS Agradeço primeiramente a Deus, fonte e princípio de tudo, por me conceder saúde, inteligência, foco, força, fé, e todos os dons necessários para chegar até aqui. Não porque mereço, mas por sua graça e bondade. Agradeço a minha família, nas pessoas de Benedito Favan e Terezinha Favan, meus pais, por tudo que me ensinaram, educação, comprometimento, garra, vontade, respeito, valores, e todo o alicerce que me fez ser quem eu sou hoje. Obrigado por me dar tudo aquilo que nenhuma fortuna poderia pagar. Obrigado por todo o apoio desde o começo dessa jornada. Com certeza, se não por vocês, não chegaria até aqui. Estendo o agradecimento às minhas irmãs, Fernanda e Paula, e aos meus cunhados Marcos e Fernando, por estarem presentes em minha vida, tornando a caminhada mais fácil e divertida. Agradeço também a uma pessoa tão especial, com quem decidi compartilhar minha vida, Renata Coscolin (PhD), companheira, amiga, esposa. Obrigado por toda ajuda e apoio, por me animar nos momentos de tristeza, por me levantar nos momentos difíceis, por me fazer sorrir a cada dia, sem você ao meu lado, com certeza, a conclusão dessa etapa ainda seria um sonho. Obrigado pela paciência, amor, cumplicidade e pelas consultorias agronômicas (rs). Te amo sempre e muito. Ao meu orientador, Prof. Dr. José Raimundo de Souza Passos, profissional de excelência e pessoa de valor inestimável. Obrigado por acreditar no projeto, pelos conselhos durante o processo, pelo apoio a todo momento, pelas horas de conversas via Skype, levarei comigo mais que suas palavras, mas sim, seus exemplos. Será sempre uma referência de professor, pesquisador e pessoa para mim. Estendo também os agradecimentos aos colegas de grupo de pesquisa, André Jin, Lara, Rafaela, por toda ajuda na condução do experimento e pelas conversas nos “meios tempos”. Ao Tadeu Fernandes, esta pesquisa não seria realizada sem a sua ajuda. Agradeço aos novos colegas de trabalho, que fazem o nosso dia a dia mais leve. Obrigado a todos os professores e funcionários da Faculdade de Tecnologia “Shunji Nishimura” de Pompéia. Ao M.E.C., pois o presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior -Brasil (CAPES) - Código de Financiamento 001. Enfim, agradeço a todos que de forma direta ou indireta contribuíram para a conclusão desse projeto. “Não há nada como um sonho para criar o futuro. O amanhã começa agora!” WALKER, J. A História de Johnnie Walker | Johnnie Walker. Disponível em: . Acesso em: 28 fev. 2019. RESUMO O setor florestal brasileiro e, principalmente, o setor de árvores plantadas tem suma importância para a economia do Brasil. Nessa cadeia produtiva, os viveiros florestais são os responsáveis por fornecer as mudas utilizadas em reflorestamentos, sendo que esses fornecem matéria prima para as indústrias de energia e papel e celulose. Dessa forma, o adequado manejo e a prevenção de doenças nas plantas comercializadas ocupam um lugar de destaque na produção dos viveiros. A Mancha Foliar Bacteriana (MFB) do eucalipto é uma doença preocupante para a produção de mudas de eucalipto, visto que sua incidência, sem o devido tratamento, pode levar a grandes perdas. A reflectância foliar de plantas pode ser um indicador para as respostas a diversos fenômenos biofísicos e bioquímicos em plantas. Este trabalho desenvolveu classificadores baseados em Inteligência Artificial para discriminar a ocorrência da mancha foliar bacteriana, assim como determinar sua severidade e seu período de latência, utilizando imagens digitais e assinaturas espectrais das folhas de eucalipto. Mudas de eucalipto foram inoculadas com uma suspensão de bactérias Xanthomonas spp. e suas assinaturas espectrais e imagens digitais foram coletadas durante oito dias consecutivos. Mudas de eucalipto não inoculados foram utilizados com controle negativo. Os dados coletados foram analisados utilizando técnicas estatísticas e de inteligência artificial, a fim de se obter a severidade da doença, seu período de latência, distinção entre mudas sadias e infectadas. Os modelos computacionais testados apresentaram bons resultados para a discriminação entre plantas doentes e sadias, permitindo a detecção pré sintomática da doença. A severidade da doença mensurada a partir da reflectância foliar espectral foi melhor ajustada pelos modelos estatísticos de regressão linear múltipla. Dessa forma, ferramentas computacionais e estatísticas devem ser usadas conjuntamente para obter os melhores resultados na classificação das doenças e na predição da severidade da doença. Palavras-chave: Aprendizado de máquinas. Regressão linear múltipla. Viveiros florestais. Mancha foliar. ABSTRACT Brazilian forestry sector has great importance to the Brazilian economy. Forest nurseries are responsible for supplying the seedlings used in reforestation, which provide raw material for the energy, pulp and paper industries. Adequate management and prevention of diseases in plants is important for nurseries. Bacterial leaf spot of eucalyptus is a worrying disease for the production of seedlings, since its incidence, without treatment, causes losses. Leaf reflectance can be an indicator for the responses to various biophysical and biochemical phenomena in plants. The objective of this work was to develop classifiers based on artificial intelligence to discriminate the existence of the bacterial disease of the leaf spot, as well as to determine its severity and period of latency using digital images and spectral signatures of eucalyptus leaves. Eucalyptus seedlings were infected with Xanthomonas spp. and their spectral signatures and digital images were collected during eight consecutive days. Collected data were analyzed using statistical and artificial intelligence techniques, obtain the severity of the infection, latency period distinction between healthy and infected seedlings. computational models showed good results for the discrimination between diseased and healthy plants, allowing the presymptomatic detection of the disease. Severity of the disease was better adjusted by the statistical models of multiple linear regression. Computational and statistical tools should be used together to obtain best results in the classification of diseases and the prediction of their severity. Keywords: Machine learning. Multiple linear regression. Nurseries. Leaf spot LISTA DE ILUSTRAÇÕES Figura 1 - Folha de Eucalyptus com sintomas de Mancha Foliar Bacteriana causada por Xanthomonas spp................................................................................21 Figura 2 - Boxplot das porcentagens de acertos para as três melhores técnicas de seleção, utilizando algoritmo de Perceptron de multicamadas, para as mil rodadas de testes executadas...................................................................39 Figura 3 - Curva média da reflectância foliar espectral de mudas de Eucalyptus grandis x E. urophylla submetidos (B) e não submetidos (C) a infecção com Xanthomonas spp. destacado os comprimentos de onda (nm) elegidos pelas técnicas de seleção de atributos.......................................40 Figura 4 - Boxplot das porcentagens de acertos entre plantas não inoculadas e inoculadas com Xanthomonas spp. em folhas de clone híbrido de Eucalyptus grandis x E. urophylla para cada dia após a inoculação utilizando algoritmo de Perceptron de multicamadas................................45 Figura 5 - Boxplot dos coeficientes de correlação de Pearson entre a severidade real e a severidade predita pelo algoritmo Support Vector Machine para folhas de clone híbrido de Eucalyptus grandis x E. urophylla, inoculadas com Xanthomonas spp. para cada dia do experimento....................................63 LISTA DE TABELAS Tabela 1 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral (%) de eucalipto submetidos a infecção com Xanthomonas spp..............................................................................................................37 Tabela 2 - Média (desvio padrão entre parênteses) do percentual de classificações corretas para curvas de reflectância espectral de mudas de eucaliptos, submetidas e não submetidas à inoculação de Xanthomonas spp, para cada algoritmo de classificação (coluna) utilizando cada uma das técnicas de seleção de atributos (linha)...................................................................38 Tabela 3 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral de folhas de eucaliptos submetidos a infecção com Xanthomonas spp. para classificação em dias após inoculação..............43 Tabela 4 - Média (desvio padrão entre parênteses) do percentual de classificações corretas para curvas de reflectância espectral de mudas de eucaliptos, submetidas à inoculação de Xanthomonas spp, para cada algoritmo de classificação (coluna) utilizando cada uma das técnicas de seleção de atributos (linha) para a classificação em dias após a inoculação..............44 Tabela 5 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral de folhas de eucaliptos submetidos a infecção com Xanthomonas spp. para predição da severidade da doença....................60 Tabela 6 - Média (desvio padrão entre parênteses) do coeficiente de correlação de Pearson para curvas de reflectância espectral de folhas de clone híbrido de Eucalyptus grandis x E. urophylla, submetidas à inoculação de Xanthomonas spp., para cada algoritmo de predição (coluna) utilizando cada uma das técnicas de seleção de atributos (linha) para a predição da severidade da doença................................................................................61 Tabela 7 - Diagnósticos de ajustes dos modelos de regressão linear múltipla para a severidade (no. pústulas/cm2) em função dos comprimentos de ondas (nm)............................................................................................................64 SUMÁRIO INTRODUÇÃO GERAL...............................................................................................19 CAPÍTULO 1: COMPARAÇÃO ENTRE MODELOS DE INTELIGÊNCIA ARTIFICIAL PARA DISCRIMINAÇÃO DE MUDAS DE EUCALIPTO INOCULADAS OU NÃO COM XANTHOMONAS SPP.......................................................................29 1.1 Introdução............................................................................................................31 1.1.1 Objetivo..............................................................................................................33 1.2 Material e Métodos..............................................................................................34 1.3 Resultados e Discussão.....................................................................................36 1.3.1 Discriminação entre plantas sadias e plantas inoculadas com Xanthomonas spp...............................................................................................................................36 1.3.2 Classificação das mudas em dias após a inoculação........................................42 1.3.3 Detecção pré sintomática da doença.................................................................45 1.4 Conclusão............................................................................................................47 Referências................................................................................................................47 CAPÍTULO 2: MODELOS COMPUTACIONAIS E ESTATÍSTICOS PARA A PREDIÇÃO DA SEVERIDADE DA MANCHA FOLIAR CAUSADA POR XANTHOMONAS SPP. EM CLONE HÍBRIDO DE EUCALYPTUS GRANDIS X EUCALYPTUS UROPHYLA.......................................................................................52 2.1 Introdução............................................................................................................53 2.1.1 Objetivo..............................................................................................................56 2.2 Material e métodos..............................................................................................56 2.3 Resultados e Discussão.....................................................................................60 2.3.1 Modelagem computacional com aprendizado de máquinas..............................60 2.3.2 Modelagem estatística com modelos de regressão linear múltipla...................64 2.3.3 Considerações Adicionais..................................................................................66 2.4 Conclusão............................................................................................................67 2.5 Referências..........................................................................................................67 CONSIDERAÇÕES FINAIS........................................................................................71 REFERÊNCIAS...........................................................................................................73 19 INTRODUÇÃO GERAL O Eucalyptus é um gênero de plantas da família das Myrtaceae, conhecido com o nome comum de eucalipto, composto majoritariamente por espécies arbóreas. O gênero corresponde a 730 espécies de plantas originárias da Austrália, Tanzânia, Nova Guiné, Indonésia e Filipinas. Suas principais características podem ser destacadas como seu rápido crescimento, capacidade de adaptação às diversas regiões ecológicas e pelo potencial econômico proporcionado pela utilização diversificada de sua madeira (PLANTSYSTEMATICS.ORG, 2019). O gênero foi introduzido no Brasil por volta de 1855 no Jardim Botânico do Rio de Janeiro. No entanto, sua produção foi intensificada por Edmundo Navarro de Andrade, por volta de 1930, para suprir a necessidade de madeira para dormentes, moirões, batentes e outros produtos destinados a Companhia Paulista de Estradas de Ferro (FOELKEL, 2005). Desde sua implantação até os dias de hoje a cultura do eucalipto tem sua importância no fornecimento de matéria-prima para outras diversas indústrias, dessa forma sua produção e comercialização se deu de maneira exponencial e tornou-se um marco na economia nacional. O setor de florestas plantadas é muito importante para a economia brasileira, perfazendo uma receita bruta de 73,8 bilhões de Reais e participação no PIB de 1,1%. As florestas plantadas totalizam uma área de 7,84 milhões de hectares e seus produtos são destinados a diversos segmentos industriais como papel e celulose, siderurgia, carvão vegetal, painéis de madeira, pisos laminados, móveis, etc (IBA, 2018). As florestas plantadas de Eucalyptus spp. ocupam uma área de 5,67 milhões de hectares, sendo esta a principal cultura florestal no Brasil (IBA, 2017). O manejo apropriado, a utilização de mudas que atenda a padrões de qualidade estabelecidos, livres de doenças, cultivadas em viveiros com manejo fitossanitário adequado são pontos fundamentais para o sucesso na condução de uma floresta plantada (AUER; SANTOS; NETO, 2011; KRATZ; WENDLING, 2013). O tecido foliar é o principal responsável pelo processo fotossintético das plantas, o qual permite o crescimento vegetativo, no entanto, as manchas foliares causam necrose neste tecido, diminuindo a área fotossinteticamente ativa e podendo causar a morte da planta (BEDENDO, 2011). 20 As manchas foliares são causadas principalmente por fungos e bactérias, ocorrendo majoritariamente em regiões de clima quente e úmido, resultando na diminuição do desenvolvimento vegetativo da planta, seu rendimento no viveiro e na qualidade do produto final no campo (AUER; SANTOS; NETO, 2011). As manchas têm forma, coloração e propagação diferentes, sendo geralmente, empregadas como forma de controle, a utilização de variedades de plantas resistentes as doenças, aplicação de fungicidas, ou ainda, a erradicação das plantas hospedeiras (BEDENDO, 2011). A Mancha Foliar Bacteriana (MFB) pode ser considerada como uma doença recente, se comparada com outras doenças do eucalipto, pois seu primeiro registro é datado de 1995 (AUER; SANTOS; NETO, 2011), no entanto, é uma das principais doenças da Eucaliptocultura no Brasil, principalmente quando se tratando de produção de mudas em viveiros. Estima-se que esta doença tenha causado perdas na ordem de 7,5 milhões de dólares entre os anos de 2003 e 2008 (ALFENAS et al., 2009; GONÇALVES et al., 2008). A MFB tem sua ocorrência registrada nos principais estados brasileiros produtores de eucalipto, sendo eles, Amapá, Bahia, Minas Gerais, São Paulo, Pará, Mato Grosso do Sul e Rio Grande do Sul. Há ocorrência da doença em países da América Latina como a Argentina, Paraguai e Uruguai (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; GONÇALVES et al., 2008). A MFB tem como principais agentes causadores as bactérias dos gêneros Xanthomonas axonopodis, X. campestris, Pseudomonas syringae, P. cichorri e P. putida. Por outro lado são consideradas as variedades de eucalipto mais suscetíveis a doença a Eucalyptus cloeziana, E. grandis, E. globulus, E. maidenii, E. pellita, E. regnans, E. robusta, E. saligna, E. urophylla e E. viminalis e E. urograndis (ALFENAS et al., 2009; FERRAZ et al., 2018; GONÇALVES et al., 2008). Os principais sintomas da MFB do eucalipto podem variar devido à idade da planta, do estado de desenvolvimento da lesão e da espécie do eucalipto. De forma mais generalizada, são caracterizados com pontuações nas folhas mais jovens e nos ponteiros, que evoluem na forma de manchas úmidas, do tipo anasarcas, com ocorrência angulares, internervurais, translúcidas, ocorrendo de ambos os lados da folha. As manchas podem estar concentradas ao longo da nervura principal, nas 21 margens das folhas ou distribuídas aleatoriamente sobre o limbo. Posteriormente, as manchas se tornam necróticas e deformam o limbo foliar (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; MAFIA; TEIXEIRA; FERREIRA, 2017). Como exemplificado pela Figura 1. Fonte: Damasceno et al.(2014) A evolução da doença é caracterizada pelo aumento do número de lesões e elas adquirem um aspecto ressecado, com coloração amarronzada, podendo conter orifícios no centro da lesão ou áreas recortadas do limbo nas folhas mais jovens, pode, também, haver necrose em pecíolo e ramos. O ápice da doença é caracterizado por uma intensa desfolha devido à senescência precoce das folhas infectadas. O processo de diagnose da doença deve ser feito por meio da avaliação do material utilizando um microscópio estereoscópio, que não deve apresentar estruturas fúngicas, como hifas e esporos, que geralmente, são encontradas em folhas com lesões ocasionadas por fungos. Para confirmação do diagnóstico deve- se utilizar a metodologia de isolamento de fitobactérias com material doente em meio nutriente ágar, se realmente se tratar da Mancha Foliar Bacteriana do eucalipto, deve ser percebido o surgimento de colônias nesse meio (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; MAFIA; TEIXEIRA; FERREIRA, 2017). O controle da MFB do eucalipto em viveiros deve ser feito por meio da multiplicação dos clones suscetíveis somente em épocas do ano que forem desfavoráveis à doença, no outono e inverno, onde são caracterizadas as baixas temperaturas e umidade relativa do ar, assim como menores precipitações Figura 1 - Folha de Eucalyptus com sintomas de Mancha Foliar Bacteriana causada por Xanthomonas spp. 22 pluviométricas quando comparados com a primavera e o verão. Deve ser feita também a remoção das folhas ou das plantas doentes e evitar que haja o molhamento da parte aérea das mudas, no entanto, esta última medida se torna dificultada devido a utilização de irrigação por microaspersão em todo o processo produtivo dos viveiros comerciais (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; MAFIA; TEIXEIRA; FERREIRA, 2017). A doença pode ser levada a campo por meio de mudas infectadas, nesse sentido, a recomendação é que os plantios sejam feitos com mudas sadias e certificadas, obtidas de viveiros idôneos. O plantio de material genético resistente pode ser considerado com alternativa viável dependendo do caso analisado (AUER; SANTOS; NETO, 2011). A radiação solar que chega a superfície terrestre, ao atingir a planta, interage com a mesma em três frações, a primeira é absorvida pela folha e utilizado nos processos fotossintéticos, a segunda fração é refletida pelas folhas em um fenômeno chamado reflexão, a terceira fração sofre o processo de transmissão, adentrando as camadas da folha e suas estruturas (CUNHA, 2004; MOREIRA, 2011). O comportamento espectral da vegetação se manifesta de forma distinta em três regiões desse espectro, sendo elas a região do visível, região do infravermelho próximo e região do infravermelho médio. A região do visível é situada na faixa espectral entre 400nm e 700nm, considerada a faixa de radiação fotossinteticamente ativa; A região denominada infravermelho próximo, compreende a faixa do espectro eletromagnético entre 700 m e 1300nm, onde a radiação incidente interage com a estrutura interna da folha; A região chamada de infravermelho médio é situada na faixa espectral entre 1300 nm e 3000 nm, onde é observado o conteúdo de água na folha (CUNHA, 2004; LAW; WARING, 1994; MOREIRA, 2011; ODUM, 1983). A reflectância espectral foliar pode ser considerado como uma resposta da planta a diversos fenômenos biofísicos e bioquímicos que ocorrem em sua estrutura, dessa forma, pode ser associada a um padrão de resposta, denominado assinatura espectral, que pode variar para um dado binômio patógeno-hospedeiro, demonstrando que esta planta está sadia ou não, de acordo com suas respostas espectrais em determinadas faixas do espectro eletromagnético. Técnicas similares 23 veem sendo usadas em trabalho de sensoriamento remoto para monitorar plantações infectadas (COLWELL, 1974 ; FRANKE; MENZ, 2007; MAHLEIN et al., 2012). A utilização de reflectância espectral, e por conseguinte, a assinatura espectral das plantas, para detecção de doenças já foi utilizado com sucesso em diversas culturas para as mais diversas doenças, como por exemplo a ferrugem em trigo (HUANG et al., 2007), o amarelamento em videiras (AL-SADDIK et al., 2018), mancha foliar de Cercospora em beterraba (MAHLEIN et al., 2012a) e a detecção de árvores danificadas em florestas (VALENZUELA; LÓPEZ-GARCÍA, 2017). O aprendizado de máquina (AM) pode ser definido como o estudo e desenvolvimento de técnicas e algoritmos capazes de reconhecer padrões e “aprender” com base em seus erros e assim fazer previsões sobre os dados. Esses algoritmos constroem modelos a partir das amostras direcionadas como entradas a fim de fazer previsões ou decisões guiadas por esses dados, em vez de seguir instruções previamente programadas (SIMON, 2013). O AM, diferentemente dos algoritmos tradicionais, não acontece por meio de uma sequência de comandos, mas sim, com o processamento de uma grande quantidade de dados que são fornecidos, deixando que a máquina identifique os resultados positivos e então selecione o melhor resultado entre os obtidos (ALPAYDIN, 2016). O AM concentra-se especificamente em quatro tipos de problemas, a classificação, onde a resposta aprendida deve atribuir a uma amostra como pertencente a uma classe pré-definida; a regressão, onde a resposta aprendida deve ser um valor contínuo para um determinado problema; o agrupamento, onde a máquina deve encontrar semelhanças em diversas amostras e a associação, que busca associar determinado fenômeno com outros eventos (ALPAYDIN, 2016). O processo de criação de modelos de aprendizado de máquinas consiste em duas fases bem definidas, a seleção de atributos e o processo de aprendizado. A primeira fase tem como objetivo selecionar dentre os atributos disponíveis aqueles que são mais relevantes para o problema proposto, e, a segunda fase utiliza-se dos atributos selecionados para realizar o aprendizado e resolver o problema adequadamente (MITCHELL, 1997; REZENDE; MARCACINI; MOURA, 2011). 24 Há, na literatura, diversas técnicas de seleção de atributos, sendo cada uma focada em uma estratégia diferente para a seleção dos atributos mais relevantes para um determinado problema, nesse trabalho, são trazidas algumas das técnicas mais utilizadas. Avaliação de Atributo Classificador – Classifier Attribute Evaluation – avalia a importância de cada atributo utilizando um classificador específico, resultado em um ranqueamento dos atributos analisados (WITTEN; FRANK, 2005). Avaliação de subconjunto por classificador – Classifier Subset Evaluation - Avalia subconjuntos de atributos nos dados de treinamento usando um classificador para estimar o mérito de cada conjunto de atributos, ao final, é selecionado o subconjunto com maior mérito de classificação (WITTEN; FRANK, 2005). Avaliação de Atributos por ganho de informação – Information Gain Attribute Evaluation (InfoGainAttributeEval) - avalia a importância de um atributo medindo o ganho de informação que este obtém em relação ao atributo classe, resultando em um ranqueamento dos atributos com maior importância (KAREGOWDA; MANJUNATH; JAYARAM, 2010). Avaliação de atributos por taxa de ganho - Gain Ratio Attribute Evaluation (GainRatioAttibuteEval) - avalia a importância de um atributo medindo a taxa de ganho (Gain Ratio) em relação à classe, resultando em um ranqueamento dos atributos de acordo com sua importância. A taxa de ganho de um atributo é mensurado pela razão entre valor de ganho de informação desse atributo pelo maior ganho proporcionado no conjunto de dados (KAREGOWDA; MANJUNATH; JAYARAM, 2010). A seleção de atributos com a técnica de Análise de componentes principais (PCA) foi feita executando a técnica de estatística multivariada conhecida pelo mesmo nome, conjuntamente com sua transformação dos dados pelos seus autovalores. A redução de dimensionalidade foi feita por meio da escolha dos autovetores suficientes para conjugar maior porcentagem da variação dos dados originais (WOLD; ESBENSEN; GELADI, 1987). A seleção de atributos por meio da avaliação de Relief – Relief Attribute Evaluation (ReliefAttributeEval) – foi feita através de amostragens repetidas de uma instância (registro em um conjunto de dados) e considerando o valor de um 25 determinado atributo para a instância mais próxima da mesma e de outra classe, sendo a diferença dos valores do atributo para essas instâncias, consideradas no cálculo da importância para cada atributo, resultando em um ranqueamento dos atributos utilizados (KIRA; RENDELL, 1992; WITTEN; FRANK, 2005). A técnica de seleção de atributos Symmetrical Uncert (SymmetricalUncertAttributeEval) avalia a importância de um atributo medindo sua incerteza em relação ao atributo classe (APPAVU et al., 2011). A técnica de seleção de atributos Wrapper avalia subconjuntos de atributos utilizando um algoritmo de aprendizagem determinado, sendo o procedimento de avaliação cruzada empregado para estimar a precisão desse algoritmo no subconjunto submetido a avaliação (KOHAVI; JOHN, 1997). Com os atributos mais relevantes selecionados, a segunda fase se caracteriza pela escolha do algoritmo de classificação, ou de predição, a ser utilizado. Nesse sentido, há uma rica literatura sobre esses algoritmos, limitando este trabalho a apresentar uma breve descrição dos algoritmos mais utilizados. Uma rede bayesiana é um modelo gráfico baseado em probabilidade. Uma rede bayesiana consiste em nós estocásticos, que podem ser variáveis observadas ou não observadas, caso primeiro, a distribuição do nó é dada pela distribuição do erro de observação ou distribuição de dados, nos demais casos, distribuições prévias são especificadas para os nós. Cada nó é conectado com um subconjunto dos outros nós, que influenciam a distribuição correspondente. Um nó depende apenas de seus nós “pais” e dado seus pais, cada nó é condicionalmente independente de todos os outros não-descendentes (MEYER-BAESE; SCHMID, 2014). O classificador J48 é uma árvore de decisão C4.5 binária para problemas de classificação. Com essa técnica, uma árvore de decisão é construída para modelar o processo de classificação. Após a construção dessa árvore de decisão, as amostras são submetidas à classificação e seus resultados avaliados (QUINLAN, 1994). O perceptron multicamadas consiste de um sistema de neurônios interconectados (nós), o que representa um mapeamento não-linear entre um vetor de entrada e um vetor de saída. Os nós são conectados por pesos e sinais de saída, que são uma função da soma das entradas para o nó, modificado por uma função de 26 ativação. A saída de um nó é dimensionada pelo peso de conexão e alimentada para ser uma entrada para os nós na próxima camada da rede, sendo assim, a arquitetura de um perceptron multicamadas consistirá em várias camadas de neurônios subsequente e interconectadas. A camada de entrada objetiva trazer o vetor de entrada para a rede. Um perceptron multicamadas pode ter uma ou mais camadas ocultas e uma camada de saída. Os perceptrons multicamadas são descritos como totalmente conectados, com cada nó conectado a cada nó na camada seguinte e anterior (GARDNER; DORLING, 1998). O Processo de aprendizagem por backpropagation, utilizada pelo perceptron multicamadas, consiste em ajustar os pesos das conexões entre os nós de forma a diminuir o erro na classificação da rede (RUMELHART, 1986). O classificador OneR cria uma árvore de decisão de um nível para cada atributo, adicionando um ramo dessa árvore para valor desse atributo, para cada ramo, é atribuído o valor da classe mais frequente. O classificador procura por atributos com as menores taxas de erros, assim como, em caso de atributos numéricos, estes são discretizados (HOLTE, 1993). Embora seja um classificador bastante simples, este é muito usado em análises exploratórias de dados (MUDA et al., 2011). O classificador Comitê Aleatório – Random Committee – consiste em um conjunto de classificadores binários, escolhidos aleatoriamente que procedem sua aprendizagem com o mesmo conjunto de dados e produzem um resultado de classificação. A predição final é uma média das predições geradas pelos classificadores individualmente (CHOU et al., 2009). O classificador Floresta Aleatórias – Random Forest – consiste na criação de diversos classificadores do tipo árvore de decisão (QUINLAN, 1994) e a combinação entre essas “árvores” com o objetivo de obter uma classificação mais acurada e com maior estabilidade (BREIMAN, 2001). O classificador Support Vector Machine (SVM) é um algoritmo de aprendizado de máquina supervisionado cujo seu processo de classificação consiste em plotar, para cada amostra utilizada, um ponto no espaço “n-dimensional”, sendo n a quantidade de atributos analisados, e os valores desse atributos usados como 27 coordenadas. A aprendizagem objetiva encontrar um hiperplano que diferencie as amostras entre as classes utilizadas (HEARST et al., 1998). O classificador Zero-R consiste em classificar todas as amostras como pertencentes a classe com maior número de amostras (moda). Este classificador é usado como referência para avaliação de outros classificadores, sendo que a performance de classificação de outros algoritmos não podem ser inferior a aquelas obtidas pelo Zero-R (WITTEN; FRANK, 2005). O algoritmo Linear Regression Utiliza a regressão linear como técnica para predição, utilizando o critério de Akaike para a seleção do modelo (AKAIKE, 1974; WITTEN; FRANK, 2005). Diante do exposto, as técnicas de inteligência artificial vem se tornando uma grande aliada no ambiente agrícola, desde a detecção de doenças, sua severidade e principalmente, no auxílio a tomada de decisão dos profissionais envolvidos nesse meio (KAUNDAL; KAPOOR; RAGHAVA, 2006; MCQUEEN et al., 1995; MOHANTY; HUGHES; SALATHÉ, 2016; SINGH et al., 2016). Dessa forma, diversos esforços veem sendo feitos para unir técnicas de espectrometria e inteligência artificial com a finalidade de prever ou classificar doenças em plantas e também seus estresses abióticos de forma a obter maior assertividade ou mesmo mais agilidade na detecção de possíveis patógenos (HUANG et al., 2007; JONES; JONES; LEE, 2010; LIRA et al., 2007). A MFB do eucalipto é uma doença muito preocupante para os produtores de mudas florestais, com isso, todo o esforço para desenvolver técnicas que auxiliem e abreviem a detecção da doença ou mesmo lancem um alerta sobre a infecção deve ser considerado de grande valia, ademais, a utilização de técnicas avançadas para o cotidiano dos profissionais resultam em celeridade e assertividade nas decisões. O objetivo geral do presente trabalho foi avaliar o potencial do uso de modelos computacionais de aprendizado de máquina para discriminação de plantas com sintomas da MFB do eucalipto causado por Xanthomonas spp. Este objetivo geral pode ser subdivido em 4 objetivos específicos, sendo eles: a) Discriminar entre plantas sintomáticas e plantas sadias utilizando algoritmos de aprendizado de máquinas e reflectância foliar espectral; 28 b) Definir o período de latência (em dias) de uma planta doente; c) Realizar a detecção pré sintomática da MFB com algoritmos computacionais; d) Predizer a severidade da MFB com base na reflectância foliar espectral. 29 CAPÍTULO 1: COMPARAÇÃO ENTRE MODELOS DE INTELIGÊNCIA ARTIFICIAL PARA DISCRIMINAÇÃO DE MUDAS DE EUCALIPTO INOCULADAS OU NÃO COM XANTHOMONAS SPP. João Ricardo Favan; José Raimundo de Souza Passos RESUMO A inteligência artificial vem ganhando cada vez mais espaço no meio agrícola e florestal, buscando solucionar problemas diversos com base em aprendizado a partir de dados anteriormente coletados. o setor florestal brasileiro tem uma importância significativa para a economia, fornecendo matéria-prima para diversas indústrias como papel e celulose, carvão, moveleiras, entre outras. Para estabelecer uma floresta com qualidade e eficiência é necessário obter mudas de boa qualidade com alto padrão fitossanitário. A mancha foliar bacteriana (MFB) do eucalipto causado por Xanthomonas spp. é uma das doenças mais importantes para essa cultura e sem o devido controle pode causar diversos prejuízos. Para a produção dessa assinatura a reflectância espectral foliar é a técnica para mensurar a energia refletida em uma folha, criando padrões de respostas que podem ser associados a diversos fenômenos que ocorrem na planta. A inteligência artificial é responsável pelo desenvolvimento de diversos modelos de aprendizagem para resolução de vários tipos de problemas. As técnicas de seleção de atributos elegem os atributos mais importantes para a modelagem do problema e os algoritmos de classificação são utilizados para ajustar o modelo de acordo com os atributos selecionados. Este trabalho testou combinações entre diversas técnicas de seleção de atributos e algoritmos de classificação para discriminação de mudas de eucalipto controle ou inoculadas. Mudas de Eucalyptus grandis x Eucalyptus urophylla foram inoculados com Xanthomonas spp., e a reflectância espectral foliar foram medidas durante oito dias consecutivos. Os padrões de reflectância foram analisados por 80 modelos de aprendizado de máquina, compostos pela combinação de dez técnicas de seleção de atributos e oito algoritmos de classificação. Os modelos foram submetidos à 1000 ensaios cada um sendo avaliados pelo percentual de classificações corretas. Os modelos testados obtiveram porcentagens de acertos em torno de 70% para classificação entre mudas sadias e mudas doentes. Para classificação em dias após a inoculação todos os modelos apresentaram médias de percentuais de 30 classificações corretas abaixo de 50%. Foi possível observar que os modelos testados permitem que seja feita uma detecção pré sintomática da doença. Os modelos testados são aptos para classificação entre plantas sadias e plantas doentes, assim como possibilitam uma detecção pré sintomática da doença, demonstrando interessantes formas de utilização como ferramenta de apoio ao especialista. Palavras-chave: Multilayer Perceptron. Detecção pré sintomática de doença. Bacteriose. Eucalipto. ABSTRACT Brazilian forestry sector has a significant importance for economy, supplying raw material for several industries such as pulp and paper, coal, furniture and others. Establish a quality forest is necessary obtain seedlings of good quality with a high phytosanitary standard. Bacterial leaf spot of eucalyptus caused by Xanthomonas spp. is one of the most important diseases for this crop, and can cause many damages. Leaf spectral reflectance is technique to measure the energy reflected in leaf, creating patterns of responses that can be associated with several phenomena that occur in plant. Artificial intelligence has been gaining more space in agriculture and forestry, and several learning models have been developed to solve various types of problems. Attributes selection techniques choose the most important attributes for problem modeling and the classification algorithms are used to fit the model according to the selected attributes. Objective was to test combinations between different attributes selection techniques and classification algorithms for discrimination between control and inoculated eucalyptus seedlings. Hybrid clone seedlings of Eucalyptus grandis x Eucalyptus urophylla were inoculated with Xanthomonas spp. while another part of the seedlings were not submitted to inoculation. Spectral reflectance of these leaves were taken during eight consecutive days. The reflectance patterns were analyzed by 80 machine learning models, composed by the combination of ten attribute selection techniques and eight classification algorithms. Models were submitted to 1000 tests each being evaluated by the percentage of correct classifications. Tested models obtained correct percentages of around 70% for classification between healthy and inoculated seedlings. Classification of latency period, all models presented averages of correct classification percentages below 50%. It was possible to observe that the models 31 tested allow a presymptomatic detection of the disease. models tested are suitable for classification between healthy and diseased plants, as well as enable a presymptomatic detection of the disease, demonstrating interesting forms of use as a tool to support the specialist. Keywords: Multilayer Perceptron. Presymptomatic detection of disease. Eucalyptus. Bacterial leaf Spot. 1.1 Introdução O setor de florestas plantadas tem grande importância para a economia do Brasil. No ano de 2017 obteve uma receita bruta de 73,8 bilhões de Reais e 1,1% de participação no PIB nacional. A área de florestas plantadas totalizam 7,84 milhões de hectares e seus produtos são destinados principalmente para o segmento industrial de papel e celulose, siderurgia e carvão vegetal, painéis de madeira e pisos laminados, etc (IBA, 2018). Dentre toda a área de florestas plantadas, as florestas de Eucalyptus spp. se destacam ocupando 5,67 milhões de hectares, sendo esta a principal cultura florestal no Brasil (IBA, 2017). Para o sucesso na condução de uma floresta plantada é importante ter um manejo apropriado, assim como, a utilização de mudas de boa qualidade e com alto padrão fitossanitários, fornecidas por viveiros idôneos que se preocupam com o padrão das mudas e que estas sejam livres de doenças. A mancha foliar bacteriana (MFB) é uma das principais doenças do eucalipto, principalmente quando se tratando de produção de mudas em viveiros. Estima-se que esta doença tenha causado perdas na ordem de 7,5 milhões de dólares entre os anos de 2003 e 2008 (ALFENAS et al., 2009). Os principais sintomas dessa doença são lesões úmidas do tipo anasarcas, com ocorrência internervurais, angulares, concentradas ao longo da nervura principal, nas margens das folhas ou distribuídas pelo limbo foliar. Com a evolução da doença, as manchas se tornam necróticas e causam a deformação da folha. Em estágios mais avançados há um aumento do número de lesões e essas adquirem um aspecto ressecado, podendo conter orifícios no centro das lesões. Em seu ápice, ocorre uma intensa desfolha devido a precoce senescência das folhas infectadas 32 (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; MAFIA; TEIXEIRA; FERREIRA, 2017). Diversos agentes etiológicos são associados a MFB do eucalipto tanto no Brasil como em diversos outros países, no entanto, o gênero Xanthomonas spp. tem maior ocorrência para esta doença do eucalipto (FERRAZ et al., 2018). A MFB do eucalipto é uma doença de alta importância para os produtores de mudas florestais, com isso, todo o esforço para desenvolver técnicas que auxiliem e abreviem o diagnóstico da doença ou mesmo lancem um alerta sobre a possível infecção deve ser considerado de grande valia. A radiação solar ao atingir a planta, interage com a mesma em três frações, a primeira é absorvida pela folha e utilizado nos processos fotossintéticos, a segunda fração é refletida pelas folhas em um fenômeno chamado reflexão, a terceira fração sofre o processo de transmissão, adentrando as camadas da folha e suas estruturas (CUNHA, 2004; MOREIRA, 2011). Dessa forma, as propriedade espectrais das folhas são funções de sua composição química, morfológica e estrutura interna (COLWELL, 1974). O comportamento espectral da vegetação se manifesta de forma distinta em três regiões do espectro eletromagnético, sendo eles, a região do visível (400 nm a 700nm) que é considerada a faixa de radiação fotossinteticamente ativa, a região do infravermelho próximo (700 nm a 1300 nm) onde a radiação interage com a estrutura interna resultando em padrões referentes a estrutura celular da folha, e a região do infravermelho médio (1300 nm a 3000 nm) onde são percebidos os padrões de respostas para o conteúdo de água na folha (CUNHA, 2004; LAW; WARING, 1994; MOREIRA, 2011; ODUM, 1983). A reflectância espectral foliar pode ser considerado como uma resposta da planta a diversos fenômenos biofísicos e bioquímicos que ocorrem em sua estrutura, dessa forma, pode ser associada a um padrão de resposta, denominado assinatura espectral, que pode variar para um dado binômio patógeno-hospedeiro, demonstrando que esta planta está sadia ou não, de acordo com suas respostas espectrais em determinadas faixas do espectro eletromagnético. Técnicas similares veem sendo usadas em trabalho de sensoriamento remoto para monitorar plantações infectadas (FRANKE; MENZ, 2007; MAHLEIN et al., 2012). 33 O aprendizado de máquina pode ser definido como o estudo e construção de algoritmos que podem “aprender” com base em seus erros e fazer previsões sobre dados. (SIMON, 2013). Os modelos de aprendizado de máquinas podem ser construídos por uma técnica de seleção de atributos e um algoritmo de aprendizagem. A técnica de seleção de atributos é utilizada com o objetivo de eleger os atributos mais relevantes para o processo de aprendizagem (LANGLEY, 1994; REZENDE; MARCACINI; MOURA, 2011). Os algoritmos de classificação tem por objetivo classificar as amostras recebidas entre as classes pré-determinadas, sendo que cada um deles segue uma estratégia própria para alcançar esse objetivo (MITCHELL, 1997). Pode ser destacado como técnicas de seleção de atributos as seguintes técnicas, Classifier Attribute Evaluation (WITTEN; FRANK, 2005); Classifier Subset Evaluation (WITTEN; FRANK, 2005); Information Gain Attribute Evaluation (KAREGOWDA; MANJUNATH; JAYARAM, 2010); Gain Ratio Attribute Evaluation (KAREGOWDA; MANJUNATH; JAYARAM, 2010); A técnica de Análise de Componentes Principais (PCA) (WOLD; ESBENSEN; GELADI, 1987); Relief Attribute Evaluation (KIRA; RENDELL, 1992; WITTEN; FRANK, 2005); Symmetrical Uncert (APPAVU et al., 2011) e Wrapper (KOHAVI; JOHN, 1997). Pode ser destacados como algoritmos de classificação a rede bayesiana (MEYER-BAESE; SCHMID, 2014); O classificador J48 (QUINLAN, 1994); O Perceptron Multicamadas (GARDNER; DORLING, 1998), conjuntamente com o método de aprendizagem Backpropagation (RUMELHART, 1986); O classificador OneR (HOLTE, 1993; MUDA et al., 2011); O classificador Comitê Aleatório (CHOU et al., 2009); O classificador Floresta Aleatórias (BREIMAN, 2001); O classificador Support Vector Machine (SVM) (HEARST et al., 1998); O classificador Zero-R (WITTEN; FRANK, 2005). Sendo esses classificadores presentes na literatura com maior potencial de utilização para o presente trabalho. 1.1.1 Objetivo Avaliar a combinação entre técnicas de seleção de atributos e algoritmos de classificação para discriminação de plantas de eucalipto com sintomas e sem sintomas de MFB por Xanthomonas spp. Permitindo identificar os comprimentos de onda em uma banda do infravermelho que possam estar associados a doença. 34 1.2 Material e Métodos Foram utilizadas 288 mudas do clone IPB02 (híbrido de Eucalyptus grandis e Eucapyptus urophylla), no estado fenológico A (95 dias de idades), cedidas pelo viveiro florestal Piraflora, situado em Holambra II – Paranapanema, São Paulo. Essas mudas foram mantidas com irrigação e nutrição padronizada conforme recomendação da cultura (VALERI; CORRADINI, 2000). As mudas foram separadas em 12 bandejas com 24 mudas. O conjunto de 6 bandejas compõem cada um dos tratamentos, denominados não inoculado (C) e inoculado (B). O isolado PATFLO38 de Xanthomonas spp., utilizado no preparo da suspensão bacteriana, pertence à coleção de culturas do Laboratório de Patologias Florestais da FCA/UNESP de Botucatu, e é mantido preservado em 30% glicerol (v/v) a -80º C, e foi cultivado em meio de cultura Nutriente-Sacarose-Ágar (NSA), este, consistindo em meio Nutriente-Ágar (NA) (SCHAAD; JONES; CHUN, 2001) acrescido de 5g L-1 de sacarose, incubado a 28º C / 48 h. A suspensão bacteriana na concentração de 108 UFC mL-1 foi ajustada em espectrofotômetro (OD600nm=0,1) e utilizada na pulverização das mudas no tratamento inoculado. O tratamento inoculado compreende ao conjunto de mudas que foram pulverizadas com suspensão bacteriana em suas folhas nas faces abaxial e adaxial até o ponto de escorrimento. Por outro lado, o tratamento controle corresponde às mudas que foram pulverizadas com água destilada também em ambas as faces das folhas até o ponto de escorrimento. As mudas foram mantidas a temperatura constante de 25º C, umidade relativa do ar controlada em 80% e fotoperíodo de 12 horas. As avaliações foram realizadas 24 (D1), 48 (D2), 72 (D3), 96 (D4), 120 (D5), 144 (D6), 168 (D7) e 192 (D8) horas após a inoculação. Para cada avaliação 6 mudas de cada tratamento foram sorteadas, sem a reposição. Para cada muda, foram coletadas aleatoriamente 4 folhas e estas acondicionadas em saco plástico identificado e mantidas em recipiente térmico até o momento da avaliação. A reflectância espectral foliar das plantas de eucalipto, em porcentagem, foram obtidas utilizando um espectroradiômetro da marca Ocean Optics modelo 35 Flame-NIR, com faixa de leitura de 900 a 1700 nm e sensibilidade de 5,51 nm, por meio do software Ocean View®, do mesmo fabricante do equipamento (OCEAN OPTICS, 2018). Sendo o equipamento calibrado diariamente antes do início das leituras. O conjunto de dados utilizado foi composto pela média da reflectância das quatro folhas analisadas de cada planta, sendo utilizado como atributos os 128 comprimentos de onda mensurado pelo espectroradiômetro, no intervalo de 900nm a 1700nm. Foram avaliados 64 modelos de classificação, sendo cada um deles uma combinação entre um algoritmo de aprendizagem e uma técnica de seleção de atributos. As técnicas de seleção de atributos avaliadas foram ClassifierAtributeEval-1R (WITTEN; FRANK, 2005), ClassifierAtributeEval-J48 (WITTEN; FRANK, 2005), ClassifierSubsetEval-1R (WITTEN; FRANK, 2005), ClassifierSubsetEval-J48 (WITTEN; FRANK, 2005), GainRatioAtrributeEval (KAREGOWDA; MANJUNATH; JAYARAM, 2010), InfoGainAttributeEval (KAREGOWDA; MANJUNATH; JAYARAM, 2010), OneRAttributeEval (WITTEN; FRANK, 2005), PCA (WOLD; ESBENSEN; GELADI, 1987), ReliefFAttributeEval (KIRA; RENDELL, 1992), SymmetricalUncertAttributeEval (APPAVU et al., 2011) e WrapperSubsetEval-J48 (KOHAVI; JOHN, 1997). As técnicas que selecionam um subconjunto de atributos para classificação, tiveram todos os atributos selecionados utilizados no processo de aprendizagem, por outro lado, as técnicas que avaliam cada atributo ranqueando-os em ordem de importância, tiveram selecionados os 12 melhores atributos para o processo de aprendizagem. Os algoritmos de aprendizado utilizados foram Rede bayesiana (BayesNet) (MEYER-BAESE; SCHMID, 2014), Árvore de decisão (J48) (QUINLAN, 1994), Multilayer Perceptron (MLP) (GARDNER; DORLING, 1998), OneR (HOLTE, 1993), Random Committee (CHOU et al., 2009), Random Forest (BREIMAN, 2001), Support Vector Machine (SVM) (HEARST et al., 1998), ZeroR (WITTEN; FRANK, 2005). Para a classificação entre plantas inoculadas e controle foram utilizadas as assinaturas espectrais das plantas colhidas em todo o período do experimento. Para 36 classificação do período de latência, foram utilizadas somente as plantas do grupo inoculado. Para a classificação entre plantas inoculadas e controle para cada dia do período de latência foram utilizadas todas as plantas coletadas, no entanto, foi testado apenas o classificador com maior porcentagem de acertos do experimento de classificação entre plantas do grupo controle (C) e inoculado (B). Cada uma das combinações entre o algoritmo de classificação e a técnica de seleção de atributos, tanto para a classificação entre infectado ou controle, quanto para a determinação do período de latência, foram avaliados por meio da porcentagem de classificações corretas do modelo, sendo as avaliações repetidas 1000 vezes cada, sempre com seleção aleatória de amostras, utilizando 70% das amostras para aprendizado e 30% das amostras para validação (JAMES et al., 2013), utilizando o software WEKA (WITTEN; FRANK, 2005). 1.3 Resultados e Discussão 1.3.1 Discriminação entre plantas sadias e plantas inoculadas com Xanthomonas spp. As técnicas de seleção de atributos utilizadas conjuntamente com os algoritmos de classificação entre plantas sadias (C) e inoculadas (B) com Xanthomonas spp. destacaram os diversos comprimentos de onda utilizados, como é mostrado na Tabela 1. 37 Tabela 1 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral (%) de eucalipto submetidos a infecção com Xanthomonas spp. Técnica de Seleção Quantidade de atributos Comprimentos de onda (nm) ClassifierAE-1R 12 1380, 1408, 1414, 1477, 1483, 1488, 1494, 1523, 1529, 1569, 1575, 1685 ClassifierSubsetEval-1R 1 1534 ClassifierSubsetEval-J48 2 1667 e 1685 OneRAE 12 1408, 1431, 1414, 1494, 1483, 1471, 1403, 1523, 1488, 1540, 1437, 1557 PCA 2 V1 e V2 (Autovalores) ReliefFAE 12 1408, 1414, 1420, 1425, 1431, 1437, 1443, 1448, 1667, 1673, 1679, 1685 WrapperSubsetEval-1R 2 1471 e 1477 WrapperSubsetEval-J48 2 1374 e 1685 A classificação das mudas de eucalipto entre infectadas ou controle foi feita utilizando diversos algoritmos de aprendizado de máquinas, sendo que o algoritmo de Perceptron de Multi Camadas (MLP) obteve por quatro vezes o maior percentual de classificações corretas, como mostra a Tabela 2. 38 Tabela 2 - Média (desvio padrão entre parênteses) do percentual de classificações corretas para curvas de reflectância espectral de mudas de eucaliptos, submetidas e não submetidas à inoculação de Xanthomonas spp, para cada algoritmo de classificação (coluna) utilizando cada uma das técnicas de seleção de atributos (linha) Seleção de Atributos Bayes Net J48 MLP OneR R. Commite R. Forest SVM ZeroR ClassifierAE-1R 60,13 (7,21) 62,77 (7,02) 68,83 (7,41) 51,95 (7,71) 56,88 (8,31) 59,02 (7,90) 55,31 (7,94) 49,17 (0,86) ClassifierSubsetEval- 1R 49,17 (0,86) 48,75 (1,95) 51,62 (6,74) 53,64 (8,26) 55,59 (7,85) 55,59 (7,85) 51,76 (6,35) 49,17 (0,86) ClassifierSubsetEval- J48 60,13 (7,19) 63,72 (6,46) 67,18 (7,30) 53,32 (8,50) 59,72 (8,54) 60,32 (8,33) 57,18 (7,79) 49,17 (0,86) OneRAE 49,16 (0,88) 48,42 (2,55) 51,60 (7,69) 52,57 (8,18) 49,20 (8,50) 46,28 (8,30) 51,92 (7,86) 49,17 (0,86) PCA 49,10 (1,13) 49,10 (2,44) 51,45 (7,77) 50,65 (8,41) 51,05 (8,78) 51,80 (8,16) 52,28 (6,47) 49,17 (0,86) ReliefFAE 60,96 (6,67) 62,03 (6,74) 69,28 (7,49) 50,65 (7,55) 57,39 (7,95) 58,86 (7,76) 54,91 (8,03) 49,17 (0,86) WrapperSubsetEval-1R 49,16 (0,88) 48,62 (2,34) 52,29 (6,70) 51,90 (8,40) 45,38 (8,28) 44,53 (815) 53,39 (6,29) 49,17 (0,86) WrapperSubsetEval- J48 60,14 (7,19) 63,54 (6,82) 70,06 (7,20) 51,75 (8,61) 61,88 (8,79) 63,12 (8,31) 57,34 (8,17) 49,17 (0,86) O algoritmo de MLP (Perceptron Multi Camadas) combinado com a técnica de seleção WrapperSubsetEval-J48 obteve a maior porcentagem de acerto, com 70,06%, seguido pelo mesmo algoritmo com a técnica ReliefFAE com 69,28% e o mesmo algoritmo com a técnica ClassifierAE-1R com 68,83%. Mostrando que o algoritmo MLP consegue obter maiores porcentagens de classificações corretas para o presente estudo. Os modelos baseados em MLP obtiveram as maiores porcentagens de classificações corretas com 4 combinações nesse estudo, os modelos baseados em SVM obtiveram maior porcentagem de classificação, 2 combinações, e os modelos baseados em J48, OneR e Random Forest, obtiveram maiores porcentagens de classificações corretas uma única vez. Pode ser percebido que o algoritmo MLP consegue modelar melhor o problema investigado quando comparado com os demais algoritmos testados. O trabalho de Tamouridou et al., (2018) mostra o uso da mesma técnica para identificação da doença causada por Microbotryum silybum para controle de plantas indesejadas. Por outro lado, o trabalho de Odabas et al., (2017) mostrou o uso do 39 mesmo algoritmo para estimar o índice de concentração de clorofila em plantas de alface. Demonstrando a grande diversidade de problemas que podem ser modelados utilizando o algoritmo MLP. Os demais modelos de classificação testados performaram porcentagens de acertos entre 45% e 63% de classificações corretas, diferenciando-se da pontuação obtida pelos modelos destacados com as 3 maiores porcentagens de classificações corretas, que obtiverem resultados entre 68% e 70% de classificações corretas, como mostrado na Figura 2. As técnicas de seleção de atributos destacam os comprimentos de onda mais importantes para que o algoritmo de classificação possa ter resultados mais assertivos. As técnicas WrapperSubsetEval-J48, ReliefFAE e ClassifierAE-1R selecionaram comprimentos de onda diversos, como já mostrado na Tabela 1, no entanto, os comprimentos de onda selecionados sempre estão acima de 1350 nm, região onde há maior distanciamento da curva de reflectância das plantas doentes da curva de reflectância das plantas saudáveis, como Mostra a Figura 3. Figura 2 - Boxplot das porcentagens de acertos para as três melhores técnicas de seleção, utilizando algoritmo de Perceptron de multicamadas, para as mil rodadas de testes executadas. 40 Para Moreira (2011) o intervalo entre 1300nm até 3000nm compreende a região do infravermelho médio, associado a absorção de água da planta, onde a reflectância na assinatura espectral está ligado ao conteúdo relativo de água das folhas analisadas. Outros pontos importantes selecionados estão no intervalo de 1100nm e 1300nm do comprimento de onda, que, para Mahlein et al., (2012) são pontos da assinatura espectral cuja reflectância exprimem comportamentos da estrutura celular da folha. A infiltração das células bacterianas no mesófilo da folha do hospedeiro ocorre pois bactérias que causam manchas foliares respondem aos estímulos químicos em seus pontos de entradas como estômatos, hidatódios e lenticelas para penetrar e se multiplicas nos espaços intracelulares (GONÇALVES et al., 2008). Dessa forma, essas alterações provocadas pelas Xanthomonas spp causam diversas alterações em suas estruturas celulares que são refletidas em sua assinatura espectral, sendo possível verificar pontos de divergências nos valores de Figura 3 - Curva média da reflectância foliar espectral de mudas de Eucalyptus grandis x E. urophylla submetidos (B) e não submetidos (C) a infecção com Xanthomonas spp. destacado os comprimentos de onda (nm) elegidos pelas técnicas de seleção de atributos 41 reflectância, para os tratamentos analisados, entre os comprimentos de onda de 1000 nm e 1200 nm. Essa diferenciação dos valores de reflectância para a região de comprimento de onda citado, embora presente nesse estudo, não foram apontadas por nenhuma das técnicas de seleção estudadas, demonstrando que esses pontos são capazes de detectar mudanças na estrutura celular das folhas inoculadas, no entanto, a maior diferenciação na assinatura espectral está presente na faixa do infravermelho médio. Na região do Infravermelho médio, pode utilizar a técnica de reflectância espectral para analisar o conteúdo de água das folhas, pois nessa região, são observados os pontos de absorção de água (SOUSA; RIBEIRO; PONZONI, 1996). No presente trabalho foi observado estes pontos de absorção de água, principalmente entre os comprimentos de onda 1350nm e 1550nm, sendo que esta região, teve comprimentos de ondas selecionados por todas técnicas de seleção de atributos. O processo de infecção promovido por fitopatógenos, os quais pertencem ao grupo sintomático conhecido como “mancha”, causam efeitos sobre a translocação de água na planta devido a alterações na taxa de transpiração e por consequência mudanças no potencial hídrico (LEITE; PASCHOLATE, 2018). Dessa forma, este efeito pode estar relacionado as alterações na assinatura espectral das plantas doentes, no entanto, se faz necessários testes específicos para comprovação dessas informações. Os três modelos com maiores porcentagens de classificações corretas selecionaram diversos comprimentos de onda nessa região, sugerindo que as alterações contidas nesses comprimentos de ondas são suficientes para distinguir entre as plantas inoculadas com Xanthomas spp e as plantas controle. A técnica de Perceptron de Multi Camadas conjuntamente com a seleção de atributos pela técnica de WrapperSubSetEval-J48 apresentaram os melhores percentuais de classificações corretas dentre os modelos testados devido a sua assertividade na escolha dos comprimentos de onda que foram utilizados como parâmetros de decisão, sendo que estes pontos, contemplam a região da assinatura espectral referente ao conteúdo de água das folhas. 42 O trabalho de Griffel et al. (2018) que objetivou determinar se plantas de batatas estavam infectadas com Potato Virus Y (Potyviridae, PVY) utilizando as assinaturas espectrais dessas plantas e classificando com a técnica de Support Vector Machine, a qual alcançou 89,8% de acertos, o que se considera valores altos, diferentemente dos valores encontrados para esta técnica no presente trabalho, que variou entre 51% e 58% de classificações corretas. Zhu et al., (2017) utilizou as técnicas de aprendizado de máquina Back Propagation Neural Network, Extreme Learning Machine e Least Square Support Vector Machine e assinaturas espectrais (380 – 1023 nm) para detecção de folhas doentes de tabaco, conseguindo valores de acurácia acima de 80% para todas as técnicas testadas. Os trabalhos citados acima demostram a utilização das técnicas utilizadas no presente trabalho e sua efetividade na classificação de diversas doenças foliares, trazendo a luz que essas técnicas teem grande potencial de utilização no meio agroflorestal. 1.3.2 Classificação das mudas em dias após a inoculação Para a classificação do tempo em dias após a inoculação as técnicas de seleção de atributos utilizadas resultaram na seleção dos comprimentos de onda apresentado na Tabela 3. 43 Tabela 3 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral de folhas de eucaliptos submetidos a infecção com Xanthomonas spp. para classificação em dias após inoculação Técnica de Seleção Quantidade de Atributos Comprimentos de onda (nm) ClassifierAE-1R 12 1149, 1154, 1177, 1182, 1188, 1194, 1199, 1205, 1210, 1216, 1679, 1685 ClassifierAE-J48 12 1289, 1295, 1363, 1374, 1380, 1627, 1650, 1656, 1661, 1667, 1679, 1685 ClassifierSubsetEval-1R 1 1673 ClassifierSubsetEval-J48 3 1374, 1386, 1685 GainRatioAE 12 1261, 1272, 1278, 1284, 1289, 1295, 1301, 1312, 1329, 1334, 1679, 1685 InfoGainAE 12 1082, 1087, 1093, 1099, 1110, 1115, 1121, 1126, 1132, 1188, 1679, 1685 OneRAE 12 1177, 1194, 1199, 1205, 1210, 1216, 1222, 1227, 1233, 1244, 1673, 1679 PCA 2 V1 e V2 (Autovalores) ReliefFAE 12 977, 1182, 1216, 1222, 1289, 1295, 1301, 1306, 1312, 1673, 1679, 1685 SymmetricalUncertAE 12 1082, 1087, 1093, 1099, 1110, 1115, 1121, 1126, 1132, 1188, 1679, 1685 WrapperSubsetEval-J48 4 1391, 1627, 1679, 1685 A combinação entre técnicas de seleção de atributos e algoritmos de classificação resultaram em 80 modelos que tiveram como parâmetro de avaliação a porcentagem de classificações corretas, conforme apresentado na Tabela 4 44 Tabela 4 - Média (desvio padrão entre parênteses) do percentual de classificações corretas para curvas de reflectância espectral de mudas de eucaliptos, submetidas à inoculação de Xanthomonas spp, para cada algoritmo de classificação (coluna) utilizando cada uma das técnicas de seleção de atributos (linha) para a classificação em dias após a inoculação Seleção de Atributos Bayes Net J48 MLP OneR R. Commite R. Forest SVM ZeroR ClassifierAE-1R 27,16 (7,55) 31,92 (10,30) 23,58 (8,83) 8,04 (2,06) 28,05 (10,23) 29,30 (10,29) 23,28 (9,43) 8,04 (2,06) ClassifierAE-J48 26,27 (7,85) 36,99 (11,08) 42,88 (11,65) 8,04 (2,06) 33,17 (11,06) 34,84 (10,62) 19,96 (9,24) 8,04 (2,06) ClassifierSubsetEval- 1R 17,12 (6,06) 25,89 (8,94) 20,34 (8,32) 8,04 (2,06) 18,98 (8,84) 18,97 (8,84) 12,54 (7,09) 8,04 (2,06) ClassifierSubsetEval- J48 22,27 (6,15) 38,66 (12,03) 46,37 (11,63) 8,04 (2,06) 37,63 (11,20) 37,39 (11,03) 18,61 (9,04) 8,04 (2,06) GainRatioAE 26,93 (7,21) 33,08 (10,16) 28,62 (10,14) 8,04 (2,06) 30,03 (10,32) 30,59 (10,43) 23,13 (9,24) 8,04 (2,06) InfoGainAE 26,00 (7,09) 30,59 (10,15) 23,43 (8,96) 8,04 (2,06) 26,31 (10,15) 26,26 (10,09) 22,24 (9,28) 8,04 (2,06) OneRAE 23,50 (6,79) 29,76 (9,78) 23,05 (9,21) 8,04 (2,06) 23,96 (9,52) 26,11 (9,65) 22,03 (9,27) 8,04 (2,06) PCA 11,86 (3,42) 22,53 (6,59) 20,98 (6,22) 19,16 (5,12) 21,15 (6,67) 23,07 (6,43) 17,52 (5,46) 10,51 (0,57) ReliefFAE 26,63 (7,55) 32,69 (10,08) 26,41 (9,92) 8,04 (2,06) 29,53 (10,25) 30,43 (10,28) 23,13 (9,48) 8,04 (2,06) SymmetricalUAE 26,00 (7,09) 30,59 (10,15) 23,43 (8,96) 8,04 (2,06) 26,31 (10,15) 26,26 (10,09) 22,24 (9,28) 8,04 (2,06) WrapperSubsetEval- J48 25,81 (7,78) 42,64 (12,58) 49,38 (12,20) 8,04 (2,06) 38,15 (11,53) 35,59 (10,96) 20,17 (8,82) 8,04 (2,06) Dentre todos os modelos testados, aqueles com maior média de porcentagem de classificações corretas foram as combinações de MLP com WrapperSubsetEval- J48, com média de 49,37%, MLP com ClassifierSubsetEval-J48 com média de 46,36% e MLP com ClassifierAtributeEval-J48 com média de 42,88% de classificações corretas. Foi percebido que os modelos testados, não alcançam percentagens de classificações corretas acima de 50% o que pode ser considerado como um resultado insatisfatório para a resolução do problema modelado, dessa forma, outros modelos e outras técnicas de investigação devem ser utilizados para resolução desse tipo de classificação 45 1.3.3 Detecção pré sintomática da doença O algoritmo com melhor desempenho na classificação entre plantas inoculadas e controle – MLP com WrapperSubsetEval-J48 – foi testado para classificar as plantas entre sadias e doentes, no entanto, o dataset foi separada por dias após a inoculação, a fim de perceber a partir de qual dia após a inoculação seria possível ter uma boa classificação entre plantas doentes e saudáveis. A Figura 3 apresenta o resultado da classificação para cada dia de experimento. Ao primeiro dia após a inoculação (D1) a média de classificações corretas é baixa, em torno de 36%, mostrando que não há uma boa discriminação entre plantas saudáveis e doentes com este modelo. No entanto, no segundo e terceiros dias, há um aumento significativo no percentual de classificações corretas, em torno de 83% Figura 4 - Boxplot das porcentagens de acertos entre plantas não inoculadas e inoculadas com Xanthomonas spp. em folhas de clone híbrido de Eucalyptus grandis x E. urophylla para cada dia após a inoculação utilizando algoritmo de Perceptron de multicamadas. 46 e 89% mostrando que o modelo testado pode classificar corretamente entre as plantas controle e inoculadas com alta taxa de acertos. No quarto (D4) e sexto (D6) dias houve um decréscimo da percentagem de classificações corretas, obtendo valores respectivamente de 74% e 69%, valores estes ainda considerados aceitáveis, mas ainda sim, abaixo da média obtida nos outros dias testados. O quinto (D5), sétimo (D7) e oitavo (D8) dias apresentam novamente um aumento no percentual médio de classificações corretas, obtendo respectivamente 84%, 82% e 85%, mostrando assim que nesses últimos dias há uma retomada nos acertos obtidos pelo modelo. Ferraz et al., (2018) Mostraram em seu trabalho que os primeiros sintomas da MFB do eucalipto causada por Xanthomonas spp. surgiram no sétimo dia após a inoculação, tempo este considerado correto, por outros autores, dependendo das condições de plantio e manejo da cultura (AUER; SANTOS; NETO, 2011; GONÇALVES et al., 2008). Zhu et al. (2017) apresentaram o uso de técnicas de machine learning como back propagation neural network para detecção pré sintomática de Tobacco mosaic Virus (TMV) em fumo, conseguindo detectar a doença em 48 horas após inoculação. Mesmo não havendo nenhuma relação do patógeno ou do hospedeiro trabalhado nesse artigo, foi demonstrado como técnicas de inteligência artificial vem sendo empregadas em uma tentativa de antecipar a detecção de diversas doenças. A detecção pré sintomática de doenças utilizando reflectância espectral e inteligências artificial pode ser encontrado em diversos cenários, como o trabalho de Rumpf et al. (2010) que utilizou Support Vector Machine para detecção de mancha foliar de Cercospora, mancha de ferrugem e oídio em cana-de-açúcar. VEYS et al. (2019) utilizou a técnica de Support Vector Machine para a detecção precoce de mancha de Pyrenopeziza brassicae em Brassica napus L. Neste trabalho, a detecção se deu ao terceiro dia, com acurácia de 82%. Dessa forma, metodologias de detecção precoce de doenças veem sendo criadas, utilizando inclusive imagens de veículos aéreos não tripulados (VANT) para observação em grandes talhões (SANDINO et al., 2018) 47 Isto posto, a possibilidade da detecção da MFB do eucalipto causada por Xanthomonas spp, aos dois dias após a infecção, e com resultados melhores aos três dias após a infecção, indica que o modelo testado no presente trabalho apresenta grande potencial de aplicação da metodologia utilizada, sendo esta complementada com estudos posteriores. 1.4 Conclusão De todas as combinações entre técnicas de seleção de atributos e algoritmos de classificação testadas, o algoritmo de Multilayer Perceptron (MLP) obteve os melhores resultados, sendo que utilizando a seleção de atributos por WrapperSubsetEval-J48, obteve a maior porcentagem de classificações corretas para mudas sadias e infectadas com Xanthomonas spp. Esta técnica de seleção de atributos elegeu como comprimentos de onda mais importantes para classificação os comprimentos 1374 nm e 1685 nm, demonstrando que estes são suficientes para classificar entre mudas sadias e doentes. Os modelos testados para classificação de dias após a inoculação apresentaram resultados inferiores aos considerados recomendados para uma boa classificação, dessa forma, se faz necessário maior aprimoramento dos modelos para testes futuros. O modelo MLP, utilizando os comprimentos de ondas 1374 nm e 1685 nm possibilitaram a detecção pré sintomática da doença, com resultados considerados altos a partir do segundo dia, e apresentando seus melhores resultados três dias após a inoculação Referências ALFENAS, A. C. et al. Clonagem e Doenças do Eucalipto. 2 ed. ed. Viçosa, MG: Editora UFV, 2009. APPAVU, S. et al. Bayes Theorem and Information Gain Based Feature Selection for Maximizing the Performance of Classifiers. (N. Meghanathan, B. K. Kaushik, D. Nagamalai, Eds.)Advances in Computer Science and Information Technology. Anais...: Communications in Computer and Information Science.Springer Berlin Heidelberg, 2011 48 AUER, C. G.; SANTOS, Á. F. DOS; NETO, J. R. Mancha foliar bacteriana em plantios de eucalipto na região Sul do Brasil. Colombo, PR: Embrapa, 2011. BREIMAN, L. Random Forests. Machine Learning, v. 45, n. 1, p. 5–32, 1 out. 2001. CHOU, T. et al. Ensemble of machine learning algorithms for intrusion detection. 2009 IEEE International Conference on Systems, Man and Cybernetics. Anais... In: 2009 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS. out. 2009 COLWELL, J. E. Vegetation canopy reflectance. Remote Sensing of Environment, v. 3, n. 3, p. 175–183, 1 jan. 1974. CUNHA, C. A. H. DA. Relação entre comportamento espectral, índice de área foliar e produção de matéria seca em capim Tanzânia submetido a diferentes níveis de irrigação e doses de nitrogênio. text—[s.l.] Universidade de São Paulo, 5 out. 2004. FERRAZ, H. G. M. et al. Xanthomonas axonopodis pv. eucalyptorum pv. nov. Causing Bacterial Leaf Blight on Eucalypt in Brazil. The Plant Pathology Journal, v. 34, n. 4, p. 269–285, ago. 2018. FRANKE, J.; MENZ, G. Multi-temporal wheat disease detection by multi-spectral remote sensing. Precision Agriculture, v. 8, n. 3, p. 161–172, 1 jun. 2007. GARDNER, M. W.; DORLING, S. R. Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences. Atmospheric Environment, v. 32, n. 14, p. 2627–2636, 1 ago. 1998. GONÇALVES, R. C. et al. Etiology of bacterial leaf blight of eucalyptus in Brazil. Tropical Plant Pathology, v. 33, n. 3, p. 180–188, jun. 2008. GRIFFEL, L. M.; DELPARTE, D.; EDWARDS, J. Using Support Vector Machines classification to differentiate spectral signatures of potato plants infected with Potato Virus Y. Computers and Electronics in Agriculture, v. 153, p. 318–324, 1 out. 2018. HEARST, M. A. et al. Support vector machines. IEEE Intelligent Systems and their Applications, v. 13, n. 4, p. 18–28, jul. 1998. HOLTE, R. C. Very Simple Classification Rules Perform Well on Most Commonly Used Datasets. Machine Learning, v. 11, n. 1, p. 63–90, 1 abr. 1993. IBA. Relatório 2017. [s.l.] Industria Brasileira de Arvores, 2017. Disponível em: . Acesso em: 15 out. 2018. IBA. Sumário Executivo 2018. [s.l.] Industria Brasileira de Arvores, 2018. Disponível em: . Acesso em: 13 fev. 2019. 49 JAMES, G. et al. (EDS.). An introduction to statistical learning: with applications in R. New York: Springer, 2013. KAREGOWDA, A. G.; MANJUNATH, A. S.; JAYARAM, M. A. COMPARATIVE STUDY OF ATTRIBUTE SELECTION USING GAIN RATIO AND CORRELATION BASED FEATURE SELECTION. International Journal of Information Technology and Knowledge Management, v. 2, n. 2, p. 7, 2010. KIRA, K.; RENDELL, L. A. A Practical Approach to Feature Selection. In: SLEEMAN, D.; EDWARDS, P. (Eds.). . Machine Learning Proceedings. San Francisco (CA): Morgan Kaufmann, 1992. p. 249–256. KOHAVI, R.; JOHN, G. H. Wrappers for feature subset selection. Artificial Intelligence, Relevance. v. 97, n. 1, p. 273–324, 1 dez. 1997. LANGLEY, P. Selection of Relevant Features in Machine Learning.: Fort Belvoir, VA: Defense Technical Information Center, 1 nov. 1994. Disponível em: . Acesso em: 13 fev. 2019. LAW, B. E.; WARING, R. H. Remote Sensing of Leaf Area Index and Radiation Intercepted by Understory Vegetation. Ecological Applications, v. 4, n. 2, p. 272– 279, 1994. LEITE, B.; PASCHOLATE, S. ALTERAÇÕES FISIOLÓGICAS EM PLANTAS DOENTES. In: AMORIM, L.; BERGAMIN FILHO, A.; REZENDE, J. A. M. (Eds.). . Manual de Fitopatologia. 5. ed. [s.l.] Agronômica Ceres, 2018. v. 1p. 573. MAFIA, R. G.; TEIXEIRA, L. P.; FERREIRA, M. A. Produção de mudas de eucalipto sob dois sistemas de irrigação e a ocorrência da bacteriose foliar (Xanthomonas axonopodis Vauterin). Scientia Forestalis, v. 45, n. 116, 1 dez. 2017. MAHLEIN, A.-K. et al. Recent advances in sensing plant diseases for precision crop protection. European Journal of Plant Pathology, v. 133, n. 1, p. 197–209, 1 maio 2012. MEYER-BAESE, A.; SCHMID, V. Chapter 6 - Statistical and Syntactic Pattern Recognition. In: MEYER-BAESE, A.; SCHMID, V. (Eds.). . Pattern Recognition and Signal Analysis in Medical Imaging. 2. ed. Oxford: Academic Press, 2014. p. 151– 196. MITCHELL, T. M. Machine Learning. New York: McGraw-Hill, 1997. MOREIRA, M. A. Fundamentos do Sensoriamento Remoto. 4 Ed ed. Viçosa, MG: Editora UFV, 2011. MUDA, Z. et al. Intrusion detection based on k-means clustering and OneR classification. 2011 7th International Conference on Information Assurance and Security (IAS). Anais... In: 2011 7TH INTERNATIONAL CONFERENCE ON INFORMATION ASSURANCE AND SECURITY (IAS). dez. 2011 OCEAN OPTICS. OceanView 1.6.7Ocean Optics, 2018. Disponível em: . Acesso em: 13 fev. 2019 50 ODABAS, M. S. et al. Multilayer Perceptron Neural Network Approach to Estimate Chlorophyll Concentration Index of Lettuce (Lactuca sativa L.). Communications in Soil Science and Plant Analysis, v. 48, n. 2, p. 162–169, 19 jan. 2017. ODUM, E. P. Ecologia. 1 ed ed. Rio de Janeiro: Editora Interamericana, 1983. v. 1 QUINLAN, J. R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann, 1994. REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento. Revista de Sistemas de Informação, n. 7, p. 15, 2011. RUMELHART, D. E. Learning internal representations by error propagation. In: RUMELHART, D. E.; MCCLELLAND, J. L. (Eds.). . Parallel distributed processing: explorations in the microstructure of cognition. Cambridge: MIT Press, 1986. v. 1p. 318–362. RUMPF, T. et al. Early detection and classification of plant diseases with Support Vector Machines based on hyperspectral reflectance. Computers and Electronics in Agriculture, v. 74, n. 1, p. 91–99, 1 out. 2010. SANDINO, J. et al. Aerial Mapping of Forests Affected by Pathogens Using UAVs, Hyperspectral Sensors, and Artificial Intelligence. Sensors, v. 18, n. 4, p. 944, abr. 2018. SCHAAD, N. W.; JONES, J. B.; CHUN, W. (EDS.). Laboratory guide for identifiction of plant pathogenic bacteria. 3rd ed ed. St. Paul, Minn: American Phytopathological Society, 2001. SIMON, P. Too big to ignore: the business case for big data. Hoboken, New Jersey: John Wiley & Sons, Inc, 2013. SOUSA, C. L. DE; RIBEIRO, M. C.; PONZONI, F. J. Influência Do Tempo E Do Tipo De Armazenamento Na Reflectância Espectral De Folhas De Eucalyptus Grandis “EX-SITU”. Revista Árvore, v. 20, n. 2, p. 255–265, 1996. TAMOURIDOU, A. A. et al. Spectral Identification of Disease in Weeds Using Multilayer Perceptron with Automatic Relevance Determination. Sensors, v. 18, n. 9, p. 2770, set. 2018. VALERI, S. V.; CORRADINI, L. Fertilização em viveiros para produção de mudas de eucaliptos e pinus. In: GONÇALVES, J. L. DE M.; BENEDETTI, V. (Eds.). . Nutrição e fertilização florestal. 1. ed. Piracicaba: UPEF, 2000. p. 427. VEYS, C. et al. Multispectral imaging for presymptomatic analysis of light leaf spot in oilseed rape. Plant Methods, v. 15, n. 1, p. 4, 24 jan. 2019. WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques. 2nd ed ed. Amsterdam ; Boston, MA: Morgan Kaufman, 2005. 51 WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine Learning Tools and Techniques. 2. ed. [s.l: s.n.]. WOLD, S.; ESBENSEN, K.; GELADI, P. Principal component analysis. Chemometrics and Intelligent Laboratory Systems, Proceedings of the Multivariate Statistical Workshop for Geologists and Geochemists. v. 2, n. 1, p. 37– 52, 1 ago. 1987. ZHU, H. et al. Hyperspectral Imaging for Presymptomatic Detection of Tobacco Disease with Successive Projections Algorithm and Machine-learning Classifiers. Scientific Reports, v. 7, n. 1, p. 4125, 23 jun. 2017. 52 CAPÍTULO 2: MODELOS COMPUTACIONAIS E ESTATÍSTICOS PARA A PREDIÇÃO DA SEVERIDADE DA MANCHA FOLIAR CAUSADA POR XANTHOMONAS SPP. EM CLONE HÍBRIDO DE EUCALYPTUS GRANDIS X EUCALYPTUS UROPHYLA João Ricardo Favan; José Raimundo de Souza Passos RESUMO A mancha foliar bacteriana (MFB) do eucalipto causada por Xanthomonas spp. é uma das principais doenças da eucaliptocultura no Brasil, causando perdas de milhares de reais anualmente. A forma tradicional de quantificação da doença feita por um observador com auxílio de uma escala diagramática esta sujeita a diversas fontes de erros, por isso, métodos alternativos utilizando imagens digitais e reflectância foliar espectral veem surgindo com promessas de alta acurácia e menor termo de avaliação. O presente trabalho teve por objetivo avaliar diversos modelos computacionais baseado em aprendizado de máquinas e modelos estatísticos de regressão linear múltipla para a predição da severidade da MFB do eucalipto. Mudas de clone híbrido de Eucalyptus grandis x Eucalyptus urophylla foram submetidos a inoculação de Xanthomonas spp. A reflectância foliar espectral dessas mudas foram tomadas durante oito dias consecutivos. Os padrões de reflectância foram analisados por 35 modelos baseados em aprendizado de máquina e dois modelos de regressão linear múltipla. Os modelos foram submetidos à 1000 ensaios cada um sendo avaliados pelo coeficiente de correlação para os modelos de aprendizado de máquinas e pelo coeficiente de determinação ajustado para os modelos estatísticos. Os modelos baseados em aprendizado de máquina obtiveram coeficiente de correlação abaixo de 0,35; enquanto os modelos estatísticos resultaram em coeficientes de determinação ajustado acima de 55%. Nenhum dos modelos testados obtiveram resultados considerados elevados, no entanto, os modelos baseados em regressão linear múltipla obtiveram valores superiores aos modelos baseados em aprendizado de máquinas. Palavras-chave: Aprendizado de máquina. Regressão linear múltipla. Máquinas de vetores de suporte. 53 ABSTRACT Bacterial leaf spot of eucalyptus caused by Xanthomonas spp. is one of the main disease of eucalyptus crops in Brazil, causing losses annually. Traditional form of quantification of the disease are made by an observer with a diagrammatic scale is subject to several sources of errors. Alternative methods using digitizing images and spectral leaf reflectance promises high accuracy and shorter evaluation time. Present work objectives evaluate several computational models based on machine learning and statistical models of multiple linear regression for the prediction of the severity of the eucalyptus bacterial spot. Hybrid clone seedlings of Eucalyptus grandis x Eucalyptus urophylla were inoculated with Xanthomonas spp. The spectral leaf reflectance of these seedlings were taken during eight consecutive days. The reflectance patterns were analyzed by 35 models based on machine learning and two models of multiple linear regression. Models were submitted to 1000 tests each being evaluated by the correlation coefficient for the machine learning models and by the adjusted determination coefficient for the statistical models. Models based on machine learning obtained correlation coefficient below 0.35; while the statistical models resulted in adjusted determination coefficients upper to 55%. No one models obtained high results, however, the models based on multiple linear regression obtained better values than models based on machine learning. Keywords: Machine Learning. multiple linear regression. Support vector machines. 2.1 Introdução O setor de florestas plantadas brasileiro tem grande importância para a economia nacional. No ano de 2017 obteve uma receita bruta de 73,8 bilhões de Reais e 1,1% de participação no PIB nacional. A área de florestas plantadas totalizam 7,84 milhões de hectares e seus produtos são destinados principalmente para o segmento industrial de papel e celulose, siderurgia e carvão vegetal, painéis de madeira e também a indústria moveleira (IBA, 2018). Dentre toda a área de florestas plantadas, as florestas de Eucalyptus spp. se destacam ocupando 5,67 milhões de hectares, sendo esta a principal cultura florestal no Brasil (IBA, 2017). Para o sucesso na condução de uma floresta plantada é importante ter um manejo apropriado, assim como, a utilização de mudas de boa qualidade e com alto 54 padrão fitossanitários, fornecidas por viveiros idôneos que se preocupam com o padrão das mudas e que estas sejam livres de doenças. A mancha foliar bacteriana (MFB) do eucalipto é uma doença bastante preocupante para os produtores de mudas florestais, com isso, todo o esforço para desenvolver técnicas que auxiliem e abreviem o diagnóstico da doença ou mesmo lancem um alerta sobre a possível infecção deve ser considerado de grande valia. A MFB é uma das principais doenças do Eucalipto, principalmente quando se tratando de produção de mudas em viveiros. Estima-se que esta doença tenha causado perdas na ordem de 7,5 milhões de dólares entre os anos de 2003 e 2008 (ALFENAS et al., 2009). Os principais sintomas dessa doença são lesões úmidas do tipo anasarcas, com ocorrência internervurais, angulares, concentradas ao longo da nervura principal, nas margens das folhas ou distribuídas pelo limbo foliar. Com a evolução da doença, as manchas se tornam necróticas e causam a deformação da folha. Em estágios mais avançados há um aumento do número de lesões e essas adquirem um aspecto ressecado, podendo conter orifícios no centro das lesões. Em seu ápice, ocorre uma intensa desfolha devido a precoce senescência das folhas infectadas (ALFENAS et al., 2009; AUER; SANTOS; NETO, 2011; MAFIA; TEIXEIRA; FERREIRA, 2017). Diversos agentes etiológicos são associados a MFB do eucalipto tanto no Brasil como em diversos outros países, no entanto, o gênero Xanthomonas spp. tem maior ocorrência para esta doença do eucalipto (FERRAZ et al., 2018). A quantificação da severidade de doenças sempre foi alvo de diversos estudos, inicialmente, eram feitas com observadores com e sem apoio de uma escala diagramática (PARKER; SHAW; ROYLE, 1995), posteriormente, passou-se a utilizar imagens digitais e software como o QUANT (VALE; FERNANDES FILHO; LIBERATO, 2003) e mais recentemente, veem se adotando o uso de reflectância foliar espectral associado ao uso de algoritmos computacionais e modelos estatísticos (BOCK et al., 2010; HUANG et al., 2007). 55 A radiação solar ao atingir a planta, interage com a mesma em três frações, a primeira é absorvida pela folha e utilizado nos processos fotossintéticos, a segunda fração é refletida pelas folhas em um fenômeno chamado reflexão, a terceira fração sofre o processo de transmissão, adentrando as camadas da folha e suas estruturas (CUNHA, 2004; MOREIRA, 2011). Dessa forma, as propriedade espectrais das folhas são funções de sua composição química, morfológica e estrutura interna (COLWELL, 1974). O comportamento espectral da vegetação se manifesta de forma distinta em três regiões do espectro eletromagnético, sendo eles, a região do visível (400 nm a 700nm) que é considerada a faixa de radiação fotossinteticamente ativa, a região do infravermelho próximo (700 nm a 1300 nm) onde a radiação interage com a estrutura interna resultando em padrões referentes a estrutura celular da folha, e a região do infravermelho médio (1300 nm a 3000 nm) onde são percebidos os padrões de respostas para o conteúdo de água na folha (CUNHA, 2004; LAW; WARING, 1994; MOREIRA, 2011; ODUM, 1983). A reflectância espectral foliar pode ser considerado como uma resposta da planta a diversos fenômenos biofísicos e bioquímicos que ocorrem em sua estrutura, dessa forma, pode ser associada a um padrão de resposta, denominado assinatura espectral, que pode variar para um dado binômio patógeno-hospedeiro, demonstrando que esta planta está sadia ou não, de acordo com suas respostas espectrais em determinadas faixas do espectro eletromagnético. Técnicas similares veem sendo usadas em trabalho de sensoriamento remoto para monitorar plantações infectadas (FRANKE; MENZ, 2007; MAHLEIN et al., 2012). O aprendizado de máquina é considerado como o estudo e construção de algoritmos que podem “aprender” com base em seus erros e fazer previsões sobre dados. Esses algoritmos constroem modelos a partir das amostras direcionadas como entradas a fim de fazer previsões ou decisões guiadas por esses dados em vez de seguir instruções previamente programadas (SIMON, 2013). Os modelos de aprendizado de máquinas são formados por um algoritmo de aprendizagem, que pode objetivar a classificação de amostras, a predição de valores e o agrupamento de conjuntos semelhantes, e, podem contar com uma técnica de seleção de atributos. A técnica de seleção de atributos é utilizada com o 56 objetivo de selecionar os atributos mais relevantes para o processo de aprendizagem (LANGLEY, 1994). As técnicas de seleção de atributos buscam encontrar os atributos mais importantes ou com maior relação com o fenômeno estudado, de forma a eliminar os atributos que não sejam relevantes ou que possam causar redução na efetividade do modelo desenvolvido (REZENDE; MARCACINI; MOURA, 2011). Em destaque pode ser citada as técnicas Classifier Subset Evaluation (WITTEN; FRANK, 2005); Análise de Componentes Principais (WOLD; ESBENSEN; GELADI; 1987) e Wrapper (KOHAVI; JOHN,1997) Os algoritmos de predição tem por objetivo predizer o valor de determinado atributo baseado nos valores das dos demais atributos apresentados, cada algoritmo busca uma estratégia diferente para alcançar tal objetivo (MITCHELL, 1997). Sendo destacado no presente trabalho os algoritmos Linear Regression (AKAIKE, 1974; WITTEN; FRANK, 2005); O Perceptron Multicamadas (GARDNER; DORLING, 1998), conjuntamente com o método de aprendizagem Backpropagation (RUMELHART, 1986); Support Vector Machine (Shevade et al., 2000; Smola; Schölkopf, 2004); Floresta Aleatórias (BREIMAN, 2001) e Comitê Aleatório (CHOU et al., 2009); 2.1.1 Objetivo Avaliar a performance de modelos computacionais baseados em aprendizado de máquinas e de modelos estatísticos para a predição da severidade da mancha foliar bacteriana do eucalipto causada por Xanthomonas spp. a partir de dados de reflectância foliar espectral. 2.2 Material e métodos Foram utilizadas 144 mudas do clone IPB02 (híbrido de Eucalyptus grandis e Eucapyptus urophylla), no estado fenológico A (95 dias de idades), cedidas pelo viveiro florestal Piraflora, situado em Holambra II – Paranapanema, São Paulo. Essas mudas foram mantidas com irrigação e nutrição padronizada conforme recomendação da cultura (VALERI; CORRADINI, 2000). As mudas utilizadas no experimento foram separadas em 6 bandejas com 24 mudas cada uma. 57 As mudas foram pulverizadas com suspensão bacteriana em suas folhas nas faces abaxial e adaxial até o ponto de escorrimento. O isolado PATFLO38 de Xanthomonas spp., utilizado no preparo da suspensão bacteriana, pertence à coleção de culturas do Laboratório de Patologia Florestais da FCA/UNESP de Botucatu, e foi mantido preservado em 30% glicerol (v/v) a -80º C, e foi cultivado em meio de cultura Nutriente-Sacarose-Ágar (NSA), este, consistindo em meio Nutriente-Ágar (NA) (SCHAAD; JONES; CHUN, 2001) acrescido de 5g L-1 de sacarose, incubado a 28º C / 48 h. A suspensão bacteriana na concentração de 108 UFC mL-1 foi ajustada em espectrofotômetro (OD600nm=0,1) e utilizada na pulverização das mudas do presente trabalho. As bandejas com as mudas foram acondicionadas na Câmara de Inoculação do Departamento de Proteção Vegetal da FCA/UNESP de Botucatu, sendo este ambiente mantido a temperatura constante de 25º C, umidade relativa do ar controlada em 80% e fotoperiodo de 12 horas. A partir de 24 horas após a inoculação das mudas, iniciou-se o período de avaliação. Durante 8 dias consecutivos 6 mudas foram sorteadas, sem a reposição. Para cada muda, eram coletadas aleatoriamente 4 folhas e estas acondicionadas em saco plástico identificado e mantidas em recipiente térmico até o momento da avaliação. Anteriormente a avaliação, foi reduzida a umidade superficial de cada folha utilizando-se toalhas de papel e estas folhas foram coladas em um gabarito de papel sulfite contendo a identificação da folha no experimento. A reflectância espectral foliar das plantas de eucalipto, em porcentagem, foram obtidas utilizando um espectroradiômetro da marca Ocean Optics modelo Flame-NIR, com faixa de leitura de 900nm a 1700nm e sensibilidade de 5,51nm, por meio do software Ocean View®, do mesmo fabricante do equipamento (OCEAN OPTICS, 2018). Sendo o equipamento calibrado diariamente antes do início das leituras, conforme orientação do fabricante. Foi obtida imagem digital de cada folha utilizando uma câmera fotográfica da marca Canon, modelo EOS Rebel T5i Full HD 18MP, equipada com lentes 18-55mm, f/3,5-5,6; Devidamente travada em um tripé e posicionada a 50 cm do alvo. 58 A severidade da doença bacteriana foi avaliada através da razão entre o número de pústulas observadas na folha e sua área foliar (cm2). O número de pústulas de cada folha foi obtido por meio de contagem visual com auxílio de um microscópio digital 2MP LED USB com ampliação de 500X. A área foliar foi obtida a partir da imagem digital da folha, utilizando o software de processamento de imagem ImageJ® (SCHNEIDER; RASBAND; ELICEIRI, 2012). O conjunto de dados utilizado foi composto pela reflectância espectral (%) das 192 folhas analisadas, sendo utilizado como atributos cada comprimento de onda (nm) mensurado pelo espectroradiômetro e o valor de severidade (número de pústulas/cm2) calculado. As técnicas de seleção de atributos procuram definir os comprimentos de onda mais importantes para a predição da severidade. Foram utilizadas as técnicas de seleção de atributos Classifier Subset Evaluation (WITTEN; FRANK, 2005), com os classificadores de atributos Linear Regression (Classifier-LR) (WITTEN; FRANK, 2005), M5 Rules (Classifier-M5) (HOLMES; HALL; PRANK, 1999) e Support Vector Machine para regressão (Classifier-SMOReg) (SMOLA; SCHÖLKOPF, 2004), Análise de componentes principais (PCA) (WOLD; ESBENSEN; GELADI, 1987) e a técnica Wrapper Subset Evaluation (KOHAVI; JOHN, 1997), com os classificadores de atributos Linear Regression (Wrapper-LR) (WITTEN; FRANK, 2005), M5 Rules (Wrapper-M5) (HOLMES; HALL; PRANK, 1999) e Support Vector Machine para regressão (Wrapper-SMOReg) (SMOLA; SCHÖLKOPF, 2004). Os algoritmos de predição buscam calcular a severidade da mancha bacteriana do eucalipto a partir dos comprimentos de ondas selecionados. Foram utilizados os algoritmos de aprendizado de máquina Linear Regression (Linear Regression) (WITTEN; FRANK, 2005), Multilayer Perceptron (MLP) (RUMELHART, 1986), Support Vector Machine para regressão (SMOReg) (SMOLA; SCHÖLKOPF, 2004), Random Forest (R Forest) (BREIMAN, 2001) e Random Committee (R Committee) (CHOU et al., 2009). Cada um dos 35 modelos de predição de severidade da mancha foliar bacteriana do eucalipto causado por Xanthomonas spp. foram compostos pela combinação de uma das 7 técnicas de seleção de atributos apresentadas e um dos 5 algoritmos de aprendizagem de máquinas apresentados. 59 Cada modelo foi testado mil vezes, sendo que em cada rodada eram selecionados aleatoriamente 70% das amostras do conjunto de dados para o processo de aprendizado, denominado conjunto de aprendizado e os 30% restantes eram utilizadas para validação do modelo, denominado conjunto de teste, utilizando a metodologia de bootstrap para seleção aleatória das amostras (JAMES et al., 2013). Os modelos foram avaliados segundo o coeficiente de correlação de Pearson entre os valores de severidade preditas pelo modelo e o valor de severidade calculado para cada amostra do conjunto de teste. Todo esse processo foi feito utilizando o software Waikato Environment for Knowledge Analysis (WEKA) desenvolvido pela Universidade de Waikato em Hamilton, na Nova Zelândia (WITTEN; FRANK, 2005). Foram ajustados modelos de regressão linear múltipla entre a severidade (no. pústulas/cm2) e os comprimentos de onda (nm), com a opção de redução dos atributos (comprimentos de onda) pelo método stepwise com o critério de seleção de entrada no modelo p<0,05. Os dois modelos ajustados diferem com relação à variável resposta: a) Considerando a variável dependente como a severidade: y i=∑ i=1 n β i λi+e i (1) b) Considerando a variável dependente como logaritmo natural da severidade adicionado de uma unidade: ( ln ( y+1 ) )i=∑ i=1 n β i λ i+ei (2) em que, y ié a severidade (no. pústulas/cm2); λ i são os comprimentos de onda (nm) selecionados pelo método stepwise; β i são os coeficientes estimados de regressão linear múltipla; e i é o componente aleatório, com e i N (0,σ e 2). 60 Para a seleção do melhor modelo, foram utilizados os seguintes diagnósticos: valor-p do teste F do quadro ANAVA; coeficiente de determinação ajustado p/ graus de liberdade (%); critério de Akaike corrigido ( AIC c); resíduos padronizados de Pearson e normal Q-Q plot. 2.3 Resultados e Discussão 2.3.1 Modelagem computacional com aprendizado de máquinas As técnicas de seleção de atributos utilizadas destacaram comprimentos de ondas diferentes para predição de severidade de Xanthomonas spp. em mudas do clone híbrido de Eucalyptus grandis x Eucalyptus urophyla, como é mostrado na Tabela 5. Tabela 5 - Quantidade de atributos e comprimentos de onda (nm) selecionados para cada técnica de seleção de atributos testadas com dados da reflectância foliar espectral de folhas de eucaliptos submetidos a infecção com Xanthomonas spp. para predição da severidade da doença. Técnica de seleção de atributos Quantidade de atributos Comprimentos de onda (nm) ClassifierSE-M5Rules 8 1166, 1380, 1403, 1408, 1569, 1598, 1650 e 1656 ClassifierSE-LR 4 1087, 1443, 1667 e 1685 ClassifierSE-SMOReg 7 977, 988, 993, 1289, 1301, 1632 e 1656 PCA 2 V1 e V2 (Autovalores) WrapperSE-M5Rules 2 1408 e 1425 WrapperSE-LR 7 1087, 1099, 1121, 1205, 1295, 1465 e 1667 WrapperSE-SMOReg 16 971, 977, 999, 1026, 1032, 1082, 1138, 1149, 1278, 1289, 1295, 1301, 1306, 1317, 1656 e 1661 A predição da severidade da folha com base em sua assinatura espectral foi feita utilizando diversos algoritmos de predição, sendo que os algoritmos Linear Reg