UNIVERSIDADE ESTADUAL PAULISTA - UNESP CÂMPUS DE JABOTICABAL COLHEITA DE PRESCRIÇÃO PARA O CAFÉ, É POSSÍVEL? Elizabeth Haruna Kazama Engenheira Agrícola e Ambiental 2019 UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” - UNESP CÂMPUS DE JABOTICABAL COLHEITA DE PRESCRIÇÃO PARA O CAFÉ, É POSSÍVEL? Discente: Elizabeth Haruna Kazama Orientador: Prof. Dr. Rouverson Pereira da Silva Coorientador: Dr. Walter Maldonado Júnior Tese apresentada à Faculdade de Ciências Agrárias e Veterinárias – Unesp, Câmpus de Jaboticabal, como parte das exigências para a obtenção do título de Doutor em Agronomia (Produção Vegetal). 2019 K23c Kazama, Elizabeth Haruna Colheita de prescrição para o café, é possível? / Elizabeth Haruna Kazama. -- Jaboticabal, 2019 97 p. : il., tabs., fotos, mapas Tese (doutorado) - Universidade Estadual Paulista (Unesp), Faculdade de Ciências Agrárias e Veterinárias, Jaboticabal Orientador: Rouverson Pereira da Silva Coorientador: Walter Maldonado Júnior 1. Engenharia Agrícola. 2. Agricultura de Precisão. 3. Colheita de café. 4. Deep learning. 5. Geoestatística. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Ciências Agrárias e Veterinárias, Jaboticabal. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. DADOS CURRICULARES DO AUTOR ELIZABETH HARUNA KAZAMA – nascida em Rondonópolis, Mato Grosso, no dia 27 de março de 1988, filha de Yoshikazu Kazama e Mariza Yoshie Kazama, cursou o ensino médio na Escola Estadual de Ensino Médio Major Otávio Pitaluga, em Rondonópolis, Mato Grosso, tendo finalizado o Ensino Médio no ano de 2005. Ingressou no Ensino Superior no ano de 2006 no curso de Engenharia Agrícola e Ambiental, e recebeu o título de Engenheira Agrícola e Ambiental, formada, pela Universidade Federal do Mato Grosso – UFMT em julho de 2011. Iniciou sua carreira no Grupo Petrópolis em Rondonópolis, Mato Grosso, em março de 2012 como analista ambiental. Ainda em março de 2012 iniciou a especialização em Projetos Sustentáveis e Mercado de Carbono, pela UFPR (Universidade Federal do Paraná), tendo obtido o título de especialista em julho de 2014. Em março de 2013 foi engenheira agrícola e ambiental da Santo Antônio Consultoria e Engenharia, responsável pelo reflorestamento de 100 mil árvores, entre outros projetos que desenvolveu na consultoria. Em fevereiro de 2014 assumiu as aulas de Hidrologia para o curso de Engenharia Civil, na Faculdade Anhanguera de Rondonópolis. Em agosto de 2014, iniciou o curso de Mestrado no Programa de Agronomia (Ciência do Solo), na área de Máquinas Agrícolas, pela Universidade Estadual Paulista “Júlio de Mesquita Filho” – Câmpus de Jaboticabal, São Paulo, no Departamento de Engenharia Rural. Em fevereiro de 2016, obteve o título de Mestre em Agronomia (Ciência do Solo). Em março de 2016, iniciou o curso de Doutorado no Programa de Agronomia (Produção Vegetal). Em julho de 2019, submeteu-se à banca examinadora para obtenção do título de Doutora em Agronomia (Produção Vegetal). “Quando eu era criança, aprendi que as montanhas eram montanhas, as árvores, árvores, e os rios, rios... Quando iniciei a escola, fui aprendendo que as plantas fazem fotossíntese e a água possui composição molecular “H2O”. Na pós-graduação, aprendemos que na fase fotoquímica da fotossíntese, ocorre uma acumulação de prótons em concentrações elevadas dentro do espaço interno do tilacóide, e o movimento dos prótons de uma região de alta concentração de íons H+ para outra de baixa concentração (estroma) ativa a conversão de ADP e Pi à ATP. Mas quando estudamos com mais compreensão e humildade, percebemos que por mais que a ciência seja maravilhosa e desenvolva tecnologias que permitem descrever o quão complexa, singela, misteriosa e perfeita a agricultura e a natureza são, a ciência dos homens ainda é um pedacinho da ciência que Deus criou... Para mais uma vez percebermos, com beleza no olhar, que as montanhas são montanhas, as árvores, árvores, e os rios, rios”. Você lia os gibis para mim, quando eu ainda não sabia ler, me ensinou a olhar no relógio, me incentivou a começar o inglês, e sempre me ajudava com os trabalhos da escola quando você chegava da faculdade a noite, mesmo cansada. Com certeza, se sou quem sou, você foi parte fundamental da minha formação escolar e principalmente, de caráter. Me ensinou a ter doçura e a ajudar as pessoas em todas as oportunidades. Você, com seu próprio exemplo, era uma mulher linda, alegre, amiga, dedicada, humilde, carinhosa, justa, inteligente e guerreira. Você, que é a minha saudade mais genuína. E saiba que onde quer que você esteja, ali também estará o meu coração. Para você. Dedico. À minha irmã mais velha, Kênia Keiko Kazama In memorian No meu primeiro dia de aula na pré-escola, eu chorei. E minha mãe me disse que eu precisaria estudar, para me tornar um adulto com um futuro brilhante. No segundo dia de aula, ela me disse: “Vai repetindo durante o caminho 10 vezes: Eu sou forte, eu vou conseguir, que você será forte e irá conseguir”. Porém quando eu cheguei da escola e a vi disse: chorei de novo. Ela me ensinou a repetir então mais mil vezes. Minha mãe me fez repetir esse ensinamento durante o ano todo. Até eu entender que seria para vida toda. Um dia perguntei ao meu pai se ele me amava. E ele respondeu: “Você pode entrar dentro do meu olho”. Eu: “Como?” Pai: “Você pode entrar dentro do meu olho”. Eu: “não entendi”. Pai: “Quando um simples cisquinho entra dentro do nosso olho, já é uma dor horrível, imagina você inteira dentro do meu olho, seria uma dor insuportável. Mas não importa, porque você é minha filha, e o quanto eu amo você, suportaria qualquer dor”. Aos meus pais, Mariza e Yoshikazu Ofereço. Vocês são minhas raízes e minhas asas. AGRADECIMENTOS A Deus, Meishu Sama, Jesus e Maria, por cada dia vivido. Por toda proteção, benção, amor, perdão e esperança. Sendo minha base em todos os momentos... Hoje e sempre. Obrigada também ao meu anjo da guarda, que nunca me abandona, sempre me protegendo e me mostrando o caminho pela intuição. À Unesp – FCAV, essa escola que nos acolhe como uma mãe. Obrigada ao diretor, vice, todos os professores, técnicos e funcionários que colocam seu esforço diário para manter o ensino a tantos alunos e pesquisadores de maneira tão paternalista. Ao professor Rouverson Pereira da Silva, por todo o apoio e orientação no mestrado e doutorado, e por sempre acreditar nos projetos, sendo otimista e incentivando a pesquisa. Sendo também um professor inteligente, didático. Palestrante em diversos eventos. Coordenador da PV, sempre humano, ouvindo com o coração aberto a tantos alunos que o procuram. Consegue tempo para nos apoiar nos experimentos (sim no campo!). Além de estar sempre envolvido com causas sociais e culturais da FCAV. Fotógrafo. Alegre e engraçado. Saiba que nos inspira com suas atitudes, e que sempre somos observados. Motivo pelo qual, agradeço ter escolhido a profissão de professor, influenciando tantos alunos que passam pela sua sala de aula. Obrigada. Ao professor Walter Maldonado Júnior, por ter me ajudado desde o planejamento do experimento, com a elaboração da hipótese, nos experimentos de campo e na análise e programação de dados. Sempre muito inteligente, didático, engraçado e focado. Obrigada pela amizade e coorientação! Aos professores Gener, Barbosa, Durvalina, Afonso, Eduardo, Cristiano, Alexandre, Fabiano, Ferraudo, Glauco, Leandro, Pedro, Rogério, Zanini, Mário, por todas as aulas que me ensinaram tanto de agricultura, ciência, tecnologia e didática. Sobretudo, agradeço por serem grandes profissionais, e grandes pessoas. Obrigada por todas as vezes que abriram as portas para ajudarem os alunos com generosidade. Saibam que cada um de vocês me inspiraram com as qualidades que carregam. Aos meus amigos do Lamma: Franciele Morlin, Francielle Morelli, Renata, Nivanda, Edcarla, Jean, Maria, Patrícia, Lucas, Tássio, Mailson, Letícia, Alex, Noronha, Bertonha, Adão, João, Borba, Bruninho, Aline, Lígia, Tiago, Luan, Leonardo, Aycon, Samira, Danilo, Watus, Marco Antonio, Rafael, Paulo ... (espero não ter esquecido ninguém) pela companhia nesses 5 anos. Por toda ajuda tanto nos experimentos, quanto na caminhada da pós, de risos, cervejas, bafões, às vezes reflexão, amizades que fazem a caminhada da vida com mais emoção. Ao melhor secretário da Unesp: Davi Aparecido Trevizolli, sempre prestativo, sorridente, calmo, melhor pessoa do mundo! Ao motorista da van, Mafra. Pessoa mais animada da viagem pra Franca, que foram inúmeras nesses dois anos de experimento com café. Sempre sorridente, prestativo, maleável, um amigão! À UFMT, que me proporcionou a base dos conhecimentos em Engenharia Agrícola e Ambiental. Ao seu Ismael, João, João Tato, Augusto e Zé, da fazenda Aleluia. Em que foram muito receptivos, queridos, educados e dispuseram de todas as condições para realização desse experimento. Mil milhões de obrigada! A Fran 1, Fran 2 e Magda! Por sempre termos nos ajudado na nossa rotina diária no nosso Lar fofo lar. Graças a Deus, sempre tivemos um lar harmônico, cheio de paz, almoços e jantares juntas, companhia para séries e filmes. Ajuda profissional e pessoal. Enfim, ter amigas com o melhor coração do mundo, que você pode contar e que moram com você é gratificante. Ao Reginaldo, Vinicius, Daniel, Marcilene, Daniele, Milene, Renata, Gustavo, Kamila, Bruna, Renato, Kathleen, Hugo, Domingos, Leonardo, Fabiano, Alexia. Vários amigos que a vida acadêmica nos proporciona, só pelo simples fato de compartilhar as mesmas preocupações e alegrias. Com certeza, nunca tive uma fase com tantos amigos e colegas. Ao Antônio Martinez, que foi a pessoa que mais me ajudou nos experimentos. Praticamente viajou todas as vezes para Franca. Além de ser três vezes mais rápido para colher café, também sempre levou a alegria e graça, o que motivava todos da equipe, deixando o trabalho de campo mais leve. Sempre serei imensamente grata, pois reconheço que ia de bom coração, já que não possuía envolvimento com a vida acadêmica. A todos os estagiários do Lamma que me ajudaram na coleta de dados do experimento. Em especial, minha família: Yoshikazu, Mariza, Vilma, Cintiana e Vinícius. Por todo o apoio incondicional e amor incomensurável. Pai e mãe, obrigada por terem segurado minha mão em todas as vezes que pensei que não iria conseguir. Por terem apoiado a chegar ao doutorado, sei do vosso esforço para que eu chegasse até aqui. E aos meus irmãos, porque ter a vida juntos é muito melhor do que sozinhos, amo vocês. Aos meus sobrinhos: Kayani e Calebe – os bebês eternos. Aos meus tios e primos: Kiyoji, Massae, Akemi, Mit, Kiyomi, Teiji, Mizinha, Kazu, Kôji, Mikio, Imako, Makoto, Satomi, Pri, Massanori, Licka, Midori e Hidemi, entre os agregados e mais filhos. Família grande é a coisa mais linda e maravilhosa do mundo. Eu realmente sou muito abençoada, porque todos vocês têm uma alma que não cabem dentro de vocês. Obrigada por serem tão lindos. Aos meus amigos de longa data: Lohan, Flávia, Adonnay, Marcella, Patrícia, Letícia e Mariana! Distância de cidades não distanciam nossos corações. São tantos anos de amizade! Obrigada por ouvirem tantos desabafos e reflexões. Vocês são os best friends que eu poderia ter. Aos meus amigos e colegas do coral (que são muitos, e não irei citar nomes para não correr o risco de esquecer alguém), pela companhia nos diversos momentos de frio na barriga que antecediam as apresentações, e especialmente ao maestro Rafael Andrade, pela oportunidade de aprender música, e esse outro mundo da arte, que torna a vida mais bela. E a Rosinha, Vera (as duas), Edison, Pedro, Carmelita, Fátima, Conceição, Dino, Juliana, Rafael, Marcelo, Paulo Gregio, Lucia Ganeko, Luís, Beth Reginato, Elza, Liliana, Jussara, Bada, Helen, Lucia, Maristela, Irineu, Letícia, obrigada por me acolherem todas as vezes sem julgamento, de braços abertos, sempre com muito amor no coração. E por tudo que eu aprendi nesses anos de Jaboticabal, que com certeza vai muito além de ciência. É muito mais sobre amor, respeito, caminhada, aceitação, superação, esperança e sobretudo fé. A Priscila Fioresi, que surgiu bem no final da caminhada do doutorado. Mas tem me ajudado muito no meu processo de reflexões e a buscar praticar uma caminhada mais leve. Aos membros da banca examinadora – professores Daniel, Gabriel, Luís Carlos e Glauco, que dispuseram do seu tempo, energia e conhecimento para sugerir melhorias, que são sempre muito bem-vindas. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. Meus agradecimentos mais sinceros a vocês. “Essa é uma tese caminhada junto a pessoas que doaram um pouco de si em diversos momentos da vida”. i SUMÁRIO RESUMO ................................................................................................................... III ABSTRACT ............................................................................................................... IV CAPÍTULO 1 – CONSIDERAÇÕES GERAIS .............................................................. 1 INTRODUÇÃO ............................................................................................................ 1 OBJETIVOS ................................................................................................................ 4 REVISÃO BIBLIOGRÁFICA ........................................................................................ 5 CULTURA DO CAFÉ ...................................................................................................... 5 COLHEITA MECANIZADA DO CAFÉ .................................................................................. 6 Funcionamento da colhedora de café ................................................................... 8 AGRICULTURA DE PRECISÃO ........................................................................................ 9 Geoestatística ..................................................................................................... 10 Processamento de imagens no café ................................................................... 12 Redes Neurais Artificiais ..................................................................................... 13 Redes Neurais Convolucionais - Aprendizado Profundo (Deep Learning) .......... 13 R-CNN (Region-Convolutional Neural Network) .................................................. 15 Fast-RCNN ......................................................................................................... 19 Faster R-CNN ..................................................................................................... 21 NAS (Neural architecture search with reinforcement learning) ........................... 23 Banco de dados .................................................................................................. 25 Avaliação de detecção – Métricas Coco ............................................................. 26 REFERÊNCIAS ......................................................................................................... 28 CAPÍTULO 2 - PREDIÇÃO AUTOMÁTICA DE PRODUTIVIDADE E MATURAÇÃO EM IMAGENS DE FRUTOS DE CAFÉ ............................................................................ 36 1. INTRODUÇÃO .................................................................................................... 37 1.1 TRABALHOS RELATADOS ...................................................................................... 39 2. MATERIAL E MÉTODOS ................................................................................... 41 2.1 BANCO DE DADOS ............................................................................................... 41 2.2.1 Rotulagem e divisão do banco de dados para treinamento e validação .... 43 2.2 DETECÇÃO DA MATURAÇÃO DOS FRUTOS DE CAFÉ ................................................. 44 2.3 R-CNN FASTER NAS .......................................................................................... 45 2.4 TÉCNICA DE AUMENTO DE DADOS ......................................................................... 48 2.5 AVALIAÇÃO DO DESEMPENHO DE TREINAMENTO E VALIDAÇÃO ................................. 49 2.6 PREDIÇÃO DA PRODUTIVIDADE DIGITAL VERSUS REAL ............................................. 50 3. RESULTADOS E DISCUSSÃO .......................................................................... 51 ii 3.1 AVALIAÇÃO DO DESEMPENHO DE TREINAMENTO E VALIDAÇÃO ................................. 51 3.2 DESEMPENHO DO TESTE.................................................................................. 52 3.3 PRODUTIVIDADE ESTIMADA VERSUS REAL.......................................................... 60 CONCLUSÕES ......................................................................................................... 63 REFERÊNCIAS ......................................................................................................... 64 CAPÍTULO 3 - MAPAS DE PRESCRIÇÃO DE PRODUTIVIDADE E MATURAÇÃO DO CAFÉ PARA COLHEITA SELETIVA ......................................................................... 67 INTRODUÇÃO .......................................................................................................... 68 MATERIAL E MÉTODOS .......................................................................................... 70 ÁREA EXPERIMENTAL ................................................................................................ 70 AVALIAÇÕES ............................................................................................................ 72 ANÁLISE ECONÔMICA ................................................................................................ 74 ANÁLISES ESTATÍSTICAS ............................................................................................ 75 RESULTADOS E DISCUSSÃO ................................................................................. 76 1ª COLHEITA (SELETIVA, SOMENTE TERÇO SUPERIOR) ................................................. 76 2ª COLHEITA (TOTAL – JULHO/2018).......................................................................... 84 ANÁLISE ECONÔMICA ................................................................................................ 90 CONCLUSÕES ......................................................................................................... 92 REFERÊNCIAS ......................................................................................................... 93 CAPÍTULO 4 – CONSIDERAÇÕES FINAIS .............................................................. 96 iii COLHEITA DE PRESCRIÇÃO PARA O CAFÉ, É POSSÍVEL? RESUMO - O café é uma commodity cujo preço é ajustado conforme parâmetros de qualidade, sendo a colheita uma operação que está intimamente ligada à qualidade final do produto. Sabemos que frutos no estádio cereja apresentam melhor qualidade de bebida em comparação aos frutos verdes ou secos. Além disso, a planta de café em suas condições naturais, apresenta maturação em todos os estádios na mesma planta. Sendo assim, o café seria uma cultura com potencial que justifique mais pesquisas na colheita. Surge então a hipótese: e se fosse possível colher somente frutos maduros – cereja e seco? Permanecendo os frutos verdes ainda na planta, para completar seu ciclo de maturação fisiológica, sendo colhidos em um segundo momento? E se com um celular em mãos o produtor pudesse tirar fotografias dos grãos, e um estimador digital reconhecesse os frutos e estimasse a produtividade e classificasse os frutos em seus respectivos estádios de maturação. Seria possível ter uma quantidade de informação suficiente de pontos em uma área, para gerar um mapa de produtividade e maturação? De posse do mapa, poderíamos gerar um “projeto de colheita” a ser realizado pela colhedora, buscando colher apenas os frutos de interesse. Para comprovar tal situação dividimos o trabalho em duas etapas: 1) Por meio de imagens identificar os frutos de café digitalmente. Esperamos que por meio de imagens tiradas por celulares ou câmeras possam estimar a produtividade e maturação, utilizando as técnicas de processamento de imagens por Deep Learning; 2) Por meio de mapas de produtividade e maturação de uma área, definir zonas de manejo, buscando-se determinar qual a melhor regulagem para colher em diferentes graus de maturação e produtividade, buscando-se colher somente os frutos maduros (cereja e seco) e análise econômica da operação. Como resultados, observou-se que o modelo identifica os frutos de café de maneira satisfatória independente da condição de captura de foto. O reconhecimento dos frutos apresentou R2 = 0,92, no modelo proposto, reconhecendo frutos inclusive de um terço inteiro da planta de café. Também observamos que não foi possível colher somente os frutos maduros para cada regulagem testada em cada zona de manejo definida pela produtividade e maturação dos frutos de café. Recomendando-se, portanto, a regulagem com maior velocidade operacional. Palavras-chave: Coffea arabica, processamento de imagens, machine learning, neural networks, agricultura de precisão, velocidade de colheita. iv PRESCRIPTION HARVESTING FOR COFFEE, IS IT POSSIBLE? ABSTRACT: Coffee is a commodity which price is adjusted according to quality parameters, the harvest is an operation that is closely linked to the final quality of the product. We know that fruits in the cherry stage have better quality drink compared to green or dry fruits. In addition, the coffee plant in its natural conditions, shows maturation in all stages in the same plant. Therefore, coffee would be a crop with potential to justify more research at harvesting. The hypothesis then arises: what if it were possible to harvest only ripe fruits - cherry and dry? Remaining the green fruits still in the plant, to complete their physiological maturation cycle, being harvested in a second moment? And if with a cell phone in hand farmers could take pictures of the grains, and a digital estimator would recognize the fruits and estimate the productivity and classify the fruits in their respective stages of maturation. It would be possible to have enough information in the area to generate maps of productivity and maturation. In the possession of the map, we could generate a "harvest project" to be carried out by the harvester, seeking to reap only the fruits of interest. To prove this situation, we divide the work into two stages: 1) With images, digitally identifies coffee fruits. We hope that by means of images taken by cell phones or cameras can estimate the productivity and maturation, using the techniques of image processing by Deep learning; 2) Through maps of productivity and maturation of an area, to define management zones, seeking to determine the best regulation to harvest in different degrees of maturity and productivity, seeking to harvest only mature fruits (cherry and dry) and economic analysis of the operation. As results, it was observed that the model identifies coffee fruits satisfactorily independent of the photo capture condition. The fruit recognition obtained R2 = 0.92, in the proposed model, recognizing fruits even of the whole third of the coffee tree. We also observed that it was not possible to harvest only the ripe fruits for mechanized harvesting adjustments within the management zones defined by the productivity and ripening of the coffee fruits. Therefore, it is recommended to regulate with higher operating speed. Keywords: Coffea arabica, image processing, machine learning, neural networks, precision agriculture, harvest speed. 1 CAPÍTULO 1 – Considerações gerais INTRODUÇÃO Em 2018 o café brasileiro atingiu R$ 25 bilhões de faturamento, com uma produção de 61,7 milhões de sacas. Ficando em quinto lugar no ranking de valor bruto da produção, atrás das culturas de soja, cana-de-açúcar, milho e algodão (EMBRAPA, 2018). Os dados demonstram assim, a importância econômica do café na agricultura brasileira. O café é uma commodity cujo preço é ajustado conforme parâmetros de qualidade, sendo a colheita uma operação que está intimamente ligada à qualidade final do produto. Sabemos que frutos no estádio cereja apresentam melhor qualidade de bebida em comparação aos frutos verdes ou secos, uma vez que colher frutos verdes proporcionarão sabor adstringente, e o frutos em fase de senescência ficam mais sujeitos à ação de microrganismos ocasionando a fermentação. Além disso, a planta de café em suas condições naturais, apresenta maturação em todos os estádios na mesma planta (Figura 1). Figura 1. (A) Variação de estádio de maturação dos frutos de café na mesma planta; (B) Exemplos dos estádios de maturação verde, verde-cana, cereja e seco. Para efeitos de comparação, o preço médio de venda da saca de café (60 kg) especial ou gourmet no Brasil para exportação foi de US$ 143,44 (R$ 565) e a média dos cafés tradicionais de US$ 128,16 (R$ 506) em março de 2019, ou seja, em média 11% superior (Cecafé, 2019). Embora essa variação possa ser muito mais ampla, já sendo observados vendas de lotes de R$ 19000/sc, em um leilão em Uberlândia. O (A) )0A (B) 0A 2 café apresentava características: sabor e aroma de goiabada, morango, jabuticaba, frutas cítricas, notas de vinho tinto e uísque, o café foi produzido pela Fazenda São João Grande, de Eduardo Pinheiro Campos, e arrematado pela exportadora Cafebras (Revista Globo Rural, 2018). Sendo assim, o café seria uma cultura com todo o potencial que justifique mais pesquisas na colheita, uma vez que a qualidade de bebida é fortemente influenciada pelo grau de maturação, que é condição intrínseca da planta. Além do alto valor agregado à commodity, em função da qualidade dos frutos. Pensando nisso, a demanda por melhorias em tecnologias existentes nas máquinas ou no manejo na operação, se torna concebível. A possibilidade de se colher somente frutos maduros (cereja e seco), permanecendo os frutos verdes ainda na planta, para completar seu ciclo de maturação fisiológica, sendo colhidos em um segundo momento, seria possível? E se com um celular em mãos, o produtor pudesse tirar fotografias dos grãos, e um estimador digital reconhecesse os frutos e estimasse a produtividade e classificasse os frutos em seus respectivos estádios de maturação? Seria possível ter uma quantidade de informação suficiente de determinados pontos em uma área, para gerar um mapa de produtividade e maturação. De posse do mapa, poderíamos gerar um “projeto de colheita” a ser realizado pela colhedora, colhendo os frutos de interesse e mantendo os verdes na planta, para completarem o ciclo fisiológico de maturação. Alguns estudos comprovam que a força de desprendimento de frutos de café cereja é menor que em frutos verdes (Ferraz et al., 2012a; Silva et al., 2010). Se pudéssemos colher com regulagens que se alternam em função da produtividade e maturação do talhão, levando um projeto de colheita pré-determinado à máquina, como já existente para adubação à taxa variada, por exemplo, otimizaria a colheita do café. Pensaríamos então em “colheita de prescrição”, sendo possível levar um projeto à máquina, com mudanças nas regulagens, de acordo com a necessidade. Buscando- se a máxima eficiência em colher os frutos de interesse. Para avaliar tal situação o trabalho foi dividido em duas etapas: 1) Proposta de um modelo, que possa identificar e classificar digitalmente os frutos de café, por meio de imagens. Sabemos que atualmente, para estimar a 3 produtividade da lavoura, algumas plantas de café são derriçadas manualmente, e uma amostra dos frutos é separada, também manualmente, para ser classificada em cada estádio de maturação. Dessa forma, como o trabalho manual desprende muito tempo e mão-de-obra. Esperamos que por meio de imagens tiradas por celulares ou câmeras possamos estimar a produtividade e maturação, utilizando as técnicas de processamento de imagens por Deep learning. 2) Por meio de mapas (geoestatística) de produtividade e maturação de uma área, definir zonas de manejo, buscando-se determinar qual a melhor regulagem para colher em diferentes graus de maturação e produtividade, buscando-se colher somente os frutos maduros (cereja e seco), além de mínimo dano a parte vegetativa da planta. Assim como, definir se a operação é viável economicamente, uma vez que pode ser requerida mais de uma operação para colheita seletiva (Figura 2). Figura 2. Esquematização para colheita de prescrição em duas etapas: 1) Reconhecimento e classificação de frutos de café por meio de processamento de imagens; e 2) Colheita seletiva do café com regulagens para cada zona de manejo de produtividade e maturação. 4 Este trabalho visa compreender essa relação e pensar nas possíveis tecnologias que podem ser utilizadas e embarcadas na colheita mecanizada do café, como já existem atualmente nas colhedoras de soja, por exemplo, em que uma câmera instalada no interior da colhedora, treinada por machine learning identifica grãos com impurezas, e automaticamente realiza as auto-regulagens, trocando as regulagens de peneiras, ventiladores. Ou de grãos não debulhados, que permitem alterar a configuração da velocidade da trilha e do côncavo. Para atender o objetivo proposto, esta tese foi estruturada em três capítulos. O primeiro capítulo apresenta o embasamento teórico necessário para compreender os temas abordados. O segundo capítulo apresenta-se em forma de artigo, apresentando a predição automática de produtividade e maturação de frutos de café por meio de machine learning. No terceiro capítulo, estudou-se os mapas de prescrição de produtividade e maturação para colheita seletiva do café, buscando encontrar se haveria uma melhor regulagem para cada zona de manejo, visando colher maior quantidade de frutos maduros, apenas. Ressalta-se que cada capítulo apresenta formatação independente, de acordo com as normas da revista em que pretende-se publicar. OBJETIVOS - Identificar frutos de café digitalmente e classificá-los em seus respectivos estádios de maturação, realizando a estimativa de produtividade e maturação automaticamente, utilizando técnicas de processamento de imagens por Deep Learning; - Por meio da confecção de mapas de produtividade e maturação de uma área, definir zonas de manejo. E também definir se a operação é viável economicamente, uma vez que pode ser requerida mais de uma operação para colheita seletiva. 5 REVISÃO BIBLIOGRÁFICA Cultura do café Atualmente o café é um dos principais produtos agrícolas na pauta de exportações brasileiras e grande gerador de receitas na agricultura do Brasil (Cecafe, 2018). Segundos dados do Ministério da Agricultura, Pecuária e Abastecimento, em 2017 as exportações foram de 30,9 milhões de sacas e a receita de US$ 5,24 bilhões, gerando na cadeia produtiva, mais de 8 milhões de empregos no país (MAPA, 2018). O café expandiu-se para 15 estados, destacando-se, principalmente, Minas Gerais cuja produtividade foi cerca de 33,08 sacas por hectare, sendo também responsável por mais da metade da área plantada, seguido de Espírito Santo, São Paulo, Bahia e Paraná. O estado de São Paulo situa-se com destaque na produção brasileira de café. Produziu, no ano de 2018, 6,3 milhões de sacas de café, apresentando produtividade média de 31,1 sacas por hectare (CONAB, 2018). O cafeeiro é um arbusto da família das Rubiaceae (Coffea arábica). Suas flores são hermafroditas, pequenas, brancas e dispostas em glomérulos, e seu aroma lembra do jasmim. Quando cultivado o cafeeiro mede até quatro metros de altura, porém em estado selvagem pode chegar a 12 metros (Bianco, 2006). As inflorescências que se desenvolvem na axila foliar dão origem a até quatro flores, em uma estrutura denominada de glomérulo. Os frutos são de formato oblongo, de coloração amarela ou vermelha (Alves, 2008). O cafeeiro (Coffea sp.), do ponto de vista morfofisiológico, apresenta três particularidades que influenciam, principalmente, na variação de sua produtividade. A primeira delas é que os frutos do cafeeiro se originam apenas dos nós oriundos do crescimento do ano anterior, entre uma floração e outra (Damatta, 2007). A segunda peculiaridade é que o cafeeiro frutifica e cresce concomitantemente. Por conta disso, necessita fornecer metabólitos para estes dois drenos em quantidades e proporções distintas, já que o dreno de frutificação possui prioridade frente ao de crescimento (Cannell, 1976). Em anos de elevada produtividade, há menor crescimento e, devido a isso, menor produtividade na próxima safra. Está descrito, portanto, o fenômeno da bienalidade observado no cafeeiro (Pereira, et al., 2011; Valadares et al., 2013). 6 A terceira singularidade está na floração do cafeeiro (Camargo e Camargo, 2001). A florada, que vai dar origem aos frutos, não é uniforme e, dessa forma, nos leva a produtividades também desuniformes e variáveis, bem como a maturação dos frutos. Ocorre uma florada a cada estímulo hídrico que as gemas sofrerem a este ponto (Santinato, 2016). Eventualmente, também a temperatura tem sido relacionada com a quebra de dormência dos botões florais de café (Rena e Maestri, 1987). Colheita mecanizada do café O uso da mecanização agrícola nas diversas operações de campo é uma das grandes ferramentas do produtor rural na redução de custos, mediante o aumento da velocidade de realização de tarefas (Silva et al., 2009). A cafeicultura brasileira se encontra cada vez mais mecanizada, principalmente nas atividades relacionadas à colheita, principal operação entre as operações mecanizadas do manejo, que, anteriormente, era realizada de forma manual com grande dispêndio de tempo e mão- de-obra (Silva et al., 2006). Em um contexto geral, a colheita ocorre preferivelmente mecanizada, visto que a colheita manual é um fator limitante da produção, devido a falta de mão-de-obra, tempo e custo. A colheita mecanizada acarreta em menores custos em relação à colheita manual, reduzindo em média 62% dos valores, considerando que quanto maior é a eficiência de colheita, menores são os custos operacionais (Oliveira et al., 2007). É um momento importante e complexo, devido ao fato de que é nessa operação em que se alcança melhor produção, e o retorno financeiro para investimentos que podem representar 30% do total dos custos de produção (Silva et al., 2006). Na colheita mecanizada, um dos principais entraves verificados pelos produtores está na determinação do momento ideal para iniciar a operação, assim como definir vibração e velocidade operacional adequada para cada momento e cultivar utilizada. A regulagem da vibração das hastes e da velocidade operacional das máquinas é feita, na maioria das vezes, de modo empírico, buscando o melhor desempenho da operação por meio de tentativas arbitrárias (Silva et al., 2013). 7 A operação da colheita acontece em duas fases: na primeira ocorre a derriça e o recolhimento do café contido nas plantas, enquanto que na segunda fase tem-se o recolhimento do café presente no solo, comumente chamado de café de varrição (Santinato et al., 2015). A derriça de uma planta ocorre por meio da vibração de hastes da colhedora, que retiram os frutos do cafeeiro por meio da força mecânica empregada em seus galhos. Para certificar que a colheita seja eficiente é necessário o ajuste correto da vibração das hastes da máquina em função da variedade, produtividade, estádio de maturação dos frutos e das condições da lavoura (Santinato et al., 2014). Para colheita seletiva do café, o conhecimento das interações como frequência e amplitude de vibração, grau de maturação e número de frutos por pedúnculo são importantes variáveis a serem consideradas. Santos et al. (2010) observou que frequência e amplitude de vibração apresentam interação significativa, ou seja, uma variável influencia a outra. Além disso, somente a 1600 rpm (26,7 Hz) foi a frequência de vibração que conseguiu diferir a derriça dos frutos cereja e verde-cana, em ensaios realizados no laboratório. Por último, quanto maior a quantidade de frutos no pedúnculo, maior média da eficiência de derriça. Silva (2008) estudando o efeito da força de desprendimento e maturação dos frutos cafeeiros na colheita mecanizada, recomenda em seu trabalho, que o melhor momento para iniciar a colheita mecanizada ocorra quando a diferença da força de desprendimento dos frutos verdes e cereja seja em torno de 3N para a primeira passada da colheita seletiva. A análise de imagens obtida por meio da microscopia eletrônica comparando a morfologia das células na região do pedúnculo do café não apresenta diferenças entre os frutos verdes e maduros, ou seja, de maneira geral, não foi possível detectar diferenças estruturais das células, não sendo observado uma evidência de uma zona clara de abscisão. Permitindo dizer que o fruto amadurece no ramo, mudando sua coloração e passando pelas fases de verde, cereja e seco, permanecendo ainda no mesmo local de origem. Esse fato explica porque é observado nas lavouras de café a presença de frutos secos nos ramos, acreditando que a queda dos frutos secos ocorra, em decorrência mecânica do rompimento dos tecidos dos pedúnculos em função da desidratação, ou a fatores externos como vento e chuva (Brandão et al., 2016; Chaves Filho, 2007) 8 A queda do café no solo pode acontecer por vários motivos tais como: estádio avançado de maturação dos frutos, incidência de pragas e doenças, pluviosidade, ou ainda, pela própria ação da colheita mecanizada (Santinato et al., 2015). Recentemente, a indústria desenvolveu máquinas capazes de realizar a colheita em áreas de até 30% de declividade, entretanto, conforme aumenta a declividade do terreno, aumenta o tempo efetivo necessário para realizar a operação (Santinato et al., 2016). Funcionamento da colhedora de café Para realizar a colheita de forma mecanizada, as máquinas podem ser utilizadas colhedoras automotrizes ou colhedoras de arrasto. A colhedora de café envolve a planta (Figura 3A) com hastes vibratórias. Quando em contato com os ramos, a vibração das hastes promove a derriça da planta, derrubando os frutos. Os grãos caem em esteiras, na parte inferior da máquina (Figura 3B) e são transportados horizontalmente até elevador. Ao final dos transportadores verticais, encontram-se os ventiladores que promovem a limpeza dos frutos. Em seguida, os frutos são transportados até o tanque graneleiro, onde ficam armazenados ou são diretamente transferidos pela bica lateral para uma carreta que anda em linha vizinha (Figura 3C) (Silva, 2004). (A) (B) (C) Figura 3. Colhedora de café: (A) rolos derriçadores envolvem a planta durante a colheita; (B) hastes de derriça e sistema de esteiras; (C) bica lateral para descarga dos frutos colhidos. 9 Normalmente três regulagens são feitas nas colhedoras, que são: vibração – quanto maior a vibração, mais energia é adicionada aos frutos, aumentando a derriça; velocidade de deslocamento – quanto menor a velocidade, maior o tempo da máquina sobre a planta, aumentando a derriça e força exercida pelas molas da cinta de freio, quanto mais justa, maior é a força de inércia das varetas nos cilindros sobre as plantas. Agricultura de Precisão A tendência crescente em direção aos avanços tecnológicos de sensores e softwares pretende auxiliar o produtor rural a identificar as estratégias a serem adotadas para aumentar a eficiência no gerenciamento da agricultura, maximizando a rentabilidade das colheitas, tornando o agronegócio mais sustentável e competitivo. Buscando-se assim, contribuir para o sucesso da atividade agrícola (Silva et al., 2008; Carvalho et al., 2009; Alves et al., 2009). A Agricultura de Precisão (AP) gerencia mais detalhadamente o sistema de produção agrícola como um todo, utilizando um sistema de orientação via satélite e técnicas que consideram a variação espacial e temporal dos fatores que a envolvem. Em complemento, a AP tem utilizado tecnologias mais sofisticadas de sistemas de aplicações a taxas variadas de produtos agroquímicos adaptadas e combinadas com Sistema de Informação Geográfica (SIG) e sensoriamento remoto (imagens de satélite, indução eletromagnética, fotografia aérea, etc.), sistemas de monitoramento de campo, sistemas GNSS (Global Navigation Satellite System), ou tecnologias de medidas rápidas de propriedades do solo, como por exemplo, TDR (Time Domain Reflectometry) e a resistividade elétrica (Plant, 2001). A AP também tem desenvolvido pesquisas contínuas na agricultura para desenvolvimento de sensores (Reyns et al., 2002). Neste contexto, o processamento de imagens também entra como ferramenta para diversas aplicações na agricultura de precisão: identificação de plantas daninhas, para aplicação localizada do agrotóxico (Lati et al., 2019); Uso de câmeras para obtenção de imagens periodicamente, para utilizar no manejo de irrigação e colheita, em culturas de alface 10 (Mateo-Aroca et al., 2019). Atualmente, as imagens estão sendo utilizadas como estimadores da produtividade, o que pode ser uma informação útil para a gestão industrial, como já realizado para contagens em laranjas (Maldonado Junior e Barbosa, 2016). Além do uso mais comum da agricultura de precisão, a possibilidade de gerar mapas relacionados à produtividade agrícola utilizando a geoestatística, constitui um avanço no manejo localizado, já que é a ferramenta mais correta que se tem conhecimento para analisar a variabilidade espacial (Vieira, 2000). Valente et al. (2012) sucinta o uso de zonas de manejo por meio da condutividade elétrica e altitude (relevo da área) como precursores para produtividade do talhão, encontrando também relação do potássio com a qualidade da bebida do café e o fósforo para adubação e estudo da variabilidade dos tipos de solo. Geoestatística Quando se utiliza a chamada estatística clássica para representar as propriedades dos valores amostrais, presume-se que estes sejam realizações de uma variável casual, as posições relativas das amostras são ignoradas e que todos os valores amostrais tenham a mesma probabilidade de serem escolhidos. A geoestatística procura estudar o comportamento das variáveis regionalizadas, ou seja, que possuem dependência espacial, que sugere que as variáveis não sejam totalmente casuais, e possam ser determinísticas, uma vez que possuem uma continuidade no espaço (Matheron, 1963). A continuidade espacial é representada por uma função, que estima um valor definido a cada ponto no espaço, matematicamente descrevendo um fenômeno natural. Tal princípio parte da suposição que a variável apresentará valores mais próximos em pontos vizinhos e valores com maior diferença à medida que os pontos vão ficando mais distantes. Sendo assim, o modelo que mostra a medida do grau de dependência espacial entre amostras ao longo de uma distância é definido como variograma. O variograma é a parte mais importante do processo geoestatístico (Landim, 1997). 11 A krigagem é um processo de estimação para valores de variáveis distribuídas no espaço a partir de valores adjacentes enquanto considerados como interdependentes pelo variograma. A krigagem é um bom estimador, pois leva em consideração todos os valores observados, a partir de uma série de técnicas de análise de regressão, minimizando a variância (Journel, 1989). Para propriedades espacialmente dependentes, espera-se que a diferença entre valores [Z(xi)-z(x+h)], em média seja crescente com a distância até um determinado ponto, a partir do qual se estabiliza um valor, determinado patamar, próximo ao valor da variância. A dependência espacial foi analisada por meio da geoestatística, com estimativas de variogramas experimentais e ajustes de modelos permissíveis. Sob a pressuposição da hipótese intrínseca, os variogramas são estimados pela equação 1 (Burrough e McDonnel, 2006): 𝛾 ̂(h) = 1 2 𝑁 (ℎ) ∑ [𝑧 (𝑥𝑖 𝑁 (ℎ) 𝑖=1 + ℎ) − 𝑧 (𝑥𝑖)]2 (1) em que: N(h) significa o número de pares experimentais de observações Z (xi) e Z (xi + h) separados por uma distância h. O variograma é representado pelo gráfico de 𝛾 ̂(h) versus h. A distância de estabilização da variância recebe o nome de alcance, e representa o raio de um círculo dentro do qual os valores são parecidos uns com os outros e são correlacionados. O valor em que se inicia a curva do variograma no eixo y tem o nome de efeito pepita e representa a variabilidade da propriedade em estudo em espaçamentos menores que os amostrados. Assim, quanto maior for o efeito pepita (C0), mais fraca é a dependência espacial do atributo. O alcance é a linha divisória para aplicação da geoestatística ou estatística clássica, e por isso, o cálculo do variograma deveria ser feito rotineiramente para dados a campo, para garantir as hipóteses estatísticas sob as quais serão analisadas (Farias, 1999). No mapeamento das áreas produtoras de café, a geoestatística tem sido usada principalmente para mapear produtividade, atributos do solo e desprendimento dos frutos verdes e maduros do cafeeiro (Ferraz et al. 2012a, b, c; Molin et al., 2010). 12 Processamento de imagens no café Sistemas de visão de máquinas em ambientes agrícolas estão se tornando cada vez mais comuns, crescendo em demandas tecnológicas como: veículos agrícolas autônomos, detecção de culturas, tratamentos específicos para o local, monitoramento do dossel e confecção de mapeamento, entre diversas outras aplicações (Pajares et al., 2016), sendo o processamento de imagens uma parte fundamental neste contexto. A detecção de objetos é uma das abordagens atuais mais discutidas no meio digital, assim, é necessário realizar duas importantes condições: identificar a classe do objeto e detectar o local em que o objeto se encontra na imagem. Para tal, as técnicas de deep learning, são consideradas as mais avançadas, pois, utilizam exemplos do modelo, diretamente da base de dados, e apresentam boa acurácia. Avendano et al. (2017) desenvolveram um sistema para classificar as estruturas vegetativas nos ramos de café: folhas, ramos, flores, frutos verdes, cana e maduros. Os autores utilizaram uma reconstrução 3D utilizando técnicas de Structure from motion (SfM) e Patch-based multi-view stereo (PMVS). Porém o sistema demora uma hora para que cada ramo seja classificado, além de confundir os frutos canas com os maduros ou verde, e os frutos verdes com as folhas. Pesquisadores do Timor Leste em conjunto com a Universidade do Japão, utilizaram o Deep learning, para processamento de imagens que classifica os grãos de café verde em cada tipo de defeito. As condições eram totalmente controladas em laboratório, com os grãos dispostos sobre folhas de papel branco, com lâmpadas artificiais que iluminavam a captação das imagens. Os autores encontraram precisão de 99% para grãos pretos e menor precisão (68%) para grãos quebrados (Pinto et al., 2017). A seguir serão descritos com maiores detalhes os modelos de processamento de imagens, partindo das redes neurais artificiais até a evolução do modelo utilizado neste trabalho, que foi o RCNN Faster-NAS. 13 Redes Neurais Artificiais As Redes Neurais Artificiais (RNA) apresentaram destaque no final da década de 80. É uma forma computacional não linear, que lembra a estrutura do cérebro humano. São sistemas paralelos com unidades de processamento simples (neurônios), que calculam as funções matemáticas dispostas em camadas e interligadas por um grande número de conexões. As conexões estão associadas a pesos, que armazenam o conhecimento adquirido pelo modelo e servem para ponderar a entrada recebida para cada neurônio da rede (Braga et al., 2007). Trabalhos demonstram que as RNAs possuem capacidade de classificar e reconhecer padrões, generalizando a partir da experiência. Em RNA, os procedimentos são: aprendizagem (conjunto de exemplos mostrados a rede), extrair as características necessárias para representar a informação fornecida. Essas características são usadas para gerar as respostas para o problema. Tem capacidade de aprender por exemplos e de generalizar informações aprendidas, além de auto-organização e processamento temporal (Widrow et al., 1994; Braga et al., 2007). Uma rede neural típica é constituída de uma camada de entrada de dados, uma camada de modificação desses dados, chamada camada oculta, e uma camada de saída que são os resultados objetivos. Cada camada é constituída de neurônios, nos quais ocorre a modificação dos dados segundo uma função de transferência, por exemplo, funções como a sigmoide, senoide, linear, etc. Todos os neurônios de uma camada estão interligados com todos os neurônios da camada subsequente. Cada uma dessas interligações possui um peso wi,j, que multiplica a saída do neurônio anterior para gerar a entrada do neurônio subsequente (Bufo, 2000). Redes Neurais Convolucionais - Aprendizado Profundo (Deep Learning) O aprendizado profundo (Deep Learning - DL) pertence ao campo computacional de aprendizado de máquina e é semelhante a redes neurais artificiais. No entanto, o DL é sobre redes neurais “mais profundas” que fornecem uma representação hierárquica dos dados por meio de várias convoluções. Isso permite 14 maior capacidade de aprendizado e, portanto, maior desempenho e precisão (Kamilaris e Prenafeta-Boldú, 2018). Uma forte vantagem do DL é o aprendizado de características, isto é, a extração automática de características de dados brutos, com características de níveis mais altos da hierarquia sendo formadas pela composição de características de nível inferior (LeCun et al., 2015). Consiste em vários componentes diferentes (por exemplo: convoluções, camadas de agrupamento, camadas totalmente conectadas, portas, células de memória, funções de ativação, esquemas de codificação / decodificação etc.), dependendo da arquitetura de rede usada (ou seja, redes pré-treinadas não supervisionadas, redes neurais de convolução, redes neurais recorrentes, redes neurais recursivas) (Kamilaris & Prenafeta-Boldú, 2018). Embora, atualmente existam bancos de dados que auxiliam no reconhecimento das redes treinadas (por exemplo, Pascal VOC, Microsoft COCO) com um número amplo de imagens, se comparado aos objetos que podem ser reconhecidos por seres humanos, as redes artificiais possuem capacidade ainda limitada. Por mais que as redes neurais imitem o funcionamento do cérebro humano, sabe-se que a capacidade dos humanos pode identificar 3 mil categorias na entrada e 30 mil categorias visuais no geral, com domínio de expertise de 100.000, algo ainda inalcançável para máquinas (Liu et al., 2018). Durante o treinamento, é mostrado ao modelo a imagem que produz na saída um vetor de pontuações, uma para cada categoria. Queremos que a categoria desejada tenha a maior pontuação, mas é improvável que isso aconteça antes do treinamento. Assim, é calculada uma função que mede o erro entre as pontuações de saída e o padrão desejado, e o modelo modifica os parâmetros ajustáveis internos para reduzir o erro. Esses parâmetros ajustáveis geralmente chamados de pesos, são números que definem a função de entrada-saída. Após o treinamento, o desempenho do sistema é medido em um conjunto diferente de exemplos chamado de conjunto de testes. Isso serve para testar a capacidade de generalização da máquina, que é a capacidade de produzir respostas sobre entradas que nunca foram vistas durante o treinamento (Lecun et al., 2015). Várias convoluções são realizadas em algumas camadas da rede, começando com as mais gerais nas primeiras camadas maiores, tornando-se mais específicas nas 15 camadas mais profundas. As camadas convolucionais atuam como extratores de características das imagens de entrada cuja dimensionalidade é então reduzida pelas camadas de agrupamento. As camadas convolucionais codificam múltiplas características de baixo nível para características mais discriminativas, de uma maneira espacialmente sensível ao contexto. Eles podem ser entendidos como bancos de filtros que transformam uma imagem de entrada em outra, destacando padrões específicos. As camadas totalmente conectadas, colocadas em muitos casos perto da saída do modelo, atuam como classificadores que exploram os recursos de alto nível aprendidos para classificar as imagens inseridas em classes predefinidas ou para fazer previsões numéricas (Kamilaris e Prenafeta-Boldú, 2018). Uma desvantagem do Deep Learning é o tempo de treinamento, geralmente mais longo. No entanto, o tempo de teste é geralmente mais rápido do que outros métodos baseados em Machine Learning (Chen et al., 2014). Existem várias arquiteturas populares e bem-sucedidas, que os pesquisadores podem usar para começar a construir seus modelos, em vez de começar a partir do rascunho. Estes incluem AlexNet (Krizhevsky et al., 2012), CaffeNet (Jia et al., 2014), VGG (Simonyan e Zisserman, 2014), GoogleNet (Szegedy et al., 2015) e Inception- ResNet (Szegedyet al., 2017), entre outros. Cada arquitetura tem diferentes vantagens. Assim como, existem alguns conjuntos de dados usados para arquiteturas de pré- treinamento de DL: ImageNet (Deng et al., 2009) e PascalVoc (Pascal Voc Project, 2012) e Microsoft COCO (Lin et al., 2015). Além disso, existem várias ferramentas e plataformas, os mais populares são o Theano, o TensorFlow, o Keras, o Caffe, o Py- Torch, o TFLearn, o Pylearn2 e o Deep Learning Matlab Toolbox (Schmidhuber, 2015; Deng e Yu, 2014; Wan et al., 2014). R-CNN (Region-Convolutional Neural Network) A R-CNN é uma das abordagens na detecção de objetos de aprendizagem profunda, considerada de última geração. Baseados nessa abordagem, existem dois modelos: Fast R-CNN e Faster R-CNN, que serão descritos nos tópicos a seguir. Existem outras abordagens de detecção de objetos, como Yolo e SSD, entre outros métodos (Tsang, 2018a). 16 Para detecção de objetos, precisamos conhecer a classe à qual o objeto pertence e também o tamanho e a localização da caixa delimitadora. Estes parâmetros são considerados essenciais para a detecção, e influenciarão nos resultados das métricas a serem avaliadas. Ou seja, é preciso identificar o objeto (saber o que é), assim como onde se encontra na imagem e o tamanho deste objeto (Liu et al., 2018). Convencionalmente, para cada imagem, é confeccionada uma janela deslizante para pesquisar todas as posições dentro da imagem (Figura 7). É uma solução simples, porém, temos um problema, que os objetos podem ter proporções diferentes, dependendo do tamanho do objeto e da distância da câmera. A imagem também pode conter diferentes tamanhos, o que afeta o tamanho da janela. Sendo assim, esse processo é extremamente lento para classificação (Tsang, 2018a). (A) (B) Figura 7. (A) Ilustração de Janela Deslizante; (B) com diferentes proporções e tamanhos (Fonte: Tsang, 2018a). As etapas que o R-CNN utiliza para realizar a detecção dos objetos são descritas a seguir: 1) O R-CNN usa a pesquisa seletiva para gerar as propostas, aproximadamente 2k regiões, ou seja, gera as caixas delimitadoras para classificação de imagens; 2) Para cada caixa delimitadora, a classificação é feita por meio da CNN; 17 3) Finalmente, cada caixa delimitadora é refinada por meio da regressão (Figura 8). Figura 8. Fluxograma R-CNN exemplificando a detecção de automóveis em uma imagem (Fonte: Tsang, 2018a adaptado). Explicando com maiores detalhes cada etapa, o R-CNN realiza a pesquisa seletiva e a classificação e pontuação baseada no modelo. Na pesquisa seletiva, a busca é proposta por meio da similaridade de cores, textura, tamanho da região e preenchimento da região. Portanto, são geradas várias pequenas áreas segmentadas (Figura 9A). Então, as redes realizam cálculo para mesclar pequenas áreas, formando áreas maiores (Figura 9B e 9C). Finalmente, cerca de 2k caixas delimitadoras são criadas como regiões de propostas para detecção (Figura 9D) (Tsang, 2018a). A classificação e pontuação baseada na CNN extrai as características pela arquitetura AlexNet, que possui para cada proposta um vetor de características calculada para uma imagem de 224 x 224 (RGB), contendo oito camadas com pesos, sendo que as primeiras cinco camadas são convolucionais e as últimas três são completamente conectadas. A saída da última camada é alimentada por um extrator softmax de 1000 vias que produz uma distribuição sobre os rótulos de 1000 classes. A rede maximiza a regressão logística multinomial, que maximiza a média da correta distribuição da probabilidade de treinamento da previsão. A entrada possui tamanho fixo de 224 x 224, enquanto as caixas delimitadoras têm vários formatos e tamanhos. Para cada classe, se Imagem Imagem e espaço de busca Detecções com peso Método proposto Classificador/Detector Descarta locais de objetos improváveis Descarta locais de objetos improváveis 18 houver altos valores de IoU (intersection over union) serão rejeitados, pois estão limitando o mesmo objeto. As caixas delimitadoras são então aperfeiçoadas pelas regressões (Krizhevsky, 2012) (Figura 10 A e B). Figura 9. Exemplo da busca seletiva e criação das regiões de proposta R-CNN; (A) Pequenas áreas segmentadas; (B) e (C) Maiores áreas segmentadas; (D) Regiões de proposta. Fonte: Tsang, 2018a. (A) (B) Figura 10. Esquematização; (A) Fluxograma da abordagem CNN com maior detalhamento; (B) Estrutura interna da arquitetura CNN - AlexNet. Fonte: Tsang, 2018a adaptado. (A) (B) (C) (D) Avião? Não. Pessoa? Sim. Geladeira? Não. 1. Input imagem 2. Extração da região de propostas ~2k 3. Calcula as características procuradas 4. Classifica regiões 19 Fast-RCNN O R-CNN primeiro treina o CNN para o classificador softmax, e em seguida, usam os vetores de recurso para treinar o regressor da caixa delimitadora. Assim, não são treinamentos de ponta a ponta. E como são armazenados em um disco rígido, ocupam memória, que tornam o treinamento muito lento. Surge então, o Fast RCNN, que melhora a velocidade de treinamento e teste, e aumenta a precisão de detecção (Girshick, 2015). Os tipos de camadas (layers) mais utilizados podem ser definidos como: convolução (definem os filtros, exemplo: aprendizado / backpropagation); ativação (neurônios ex.: Relu / sigmoid / Tang H); pooling (reduzem as escalas, exemplos: Max, median, etc). A convolução funciona como filtros que “varrem” toda a imagem captando os traços mais marcantes, formando no final um feature map. O filtro é formado por pesos inicializados aleatoriamente, atualizando-os a cada nova entrada durante o processo de backpropagation. As funções de ativação servem para trazer a não-linearidade ao sistema, para que a rede consiga aprender qualquer tipo de funcionalidade. Há muitas funções, mas a mais indicada para redes convolucionais é a Relu, por ser mais eficiente computacionalmente, zerando todos os valores negativos da saída da camada anterior (Alves, 2018). Uma camada de pooling serve para simplificar a informação da camada anterior. Suponhamos que tenhamos uma proposta de região h x w, e gostaríamos de ter uma saída de tamanho H x W, ou seja, a entrada de tamanho 5 x 7, terá saída de 2 x 2 ou 3 x 3, após o arredondamento, sendo considerado na saída, o maior valor para cada grade, o que economiza espaço e torna a rede mais rápida (Figura 11) (Tsang, 2018b). É necessária uma função que compute a qualidade da predição realizada. Essa função é conhecida como função de custo (em inglês loss function). Essa função é responsável por dizer quão longe estamos da predição ideal (Goodfellow et al., 2016). Normalmente, um modelo de rede neural é treinado usando o algoritmo de otimização de descida de gradiente estocástico e os pesos são atualizados usando a retropropagação. O algoritmo de gradiente descendente procura alterar os pesos para 20 que a próxima avaliação reduza o erro, o que significa que o algoritmo está navegando pelo gradiente (ou declive do erro) (Brownlee, 2019). Figura 11. Pool de ROI. Fonte: Tsang 2018b adaptado. No Fast R-CNN, a perda é em multitarefas, dada pelas equações: 𝐿 (𝑝, 𝑢, 𝑡𝑢, 𝑣) = 𝐿𝑐𝑙𝑠 (𝑝, 𝑢) + 𝜆[𝑢 ≥ 1]𝐿𝑙𝑜𝑐(𝑡𝑢, 𝑣) 𝐿𝑐𝑙𝑠(𝑝, 𝑢) = −𝑙𝑜𝑔𝑝𝑢 𝐿𝑙𝑜𝑠(𝑡𝑢, 𝑣) = ∑ 𝑠𝑚𝑜𝑜𝑡ℎ 𝐿1(𝑡𝑖 𝑢 − 𝑣𝑖) 𝑖 ∈{𝑥,𝑦,𝑤,ℎ) 𝑠𝑚𝑜𝑜𝑡ℎ 𝐿1(𝑥) = { 0.5𝑥2 𝑖𝑓 |𝑥| < 1 |𝑥| − 0.5 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 Lcls é a perda de log da verdadeira classe u; Llos é a perda da caixa delimitadora; [𝑢 ≥ 1] significa que é igual a 1 quando 𝑢 ≥ 1; 𝑢 = 0 é classe de fundo. Comparado com OverFeat, R-CNN e SPPNet, o Fast R-CNN usa a perda multitarefa para obter aprendizado de ponta a ponta. Maior mAP é obtido em comparação com o treinamento em etapas, ou seja, treinamento separado de softmax e regressor de caixa delimitadora (Figura 12). Figura 12. Fast R-CNN. Fonte: Girshick, 2015. 21 Assim, tanto o R-CNN quanto o Fast R-CNN, as propostas de região são geradas por busca seletiva, para então uma rede baseada em CNN classificar e detectar a caixa delimitadora, sendo a principal diferença é que o R-CNN insere as propostas no nível do pixel e o Fast no nível do mapa de características. Portanto, existem duas abordagens: 1) Proposta de região e 2) Detecção, sendo elas dissociadas. Já o Faster R-CNN, as tarefas de geração de proposta de região e detecção de objetos são todas executadas pelas mesmas redes de convolução, proporcionando um design mais rápido (Tsang, 2018b). Faster R-CNN No modelo Faster R-CNN, a CNN é compartilhada com a rede de detecção. E isso contribui até mesmo para a precisão, pois quando a rede é dissociada, se a busca seletiva apresenta um falso negativo, esse erro impacta na detecção diretamente. Além disso, a RPN e Fast R-CNN foi fundida em uma única rede, compartilhando seus recursos convolucionais - usando a terminologia popular de redes neurais com mecanismos de “atenção”, o componente RPN informa ao Fast R-CNN onde procurar. A observação é que a característica convolucional utilizando os mapas baseados em regiões, como o Fast RCNN, também pode ser usado para gerar propostas de região. Assim, foi construída uma RPN adicionando camadas convolucionais que simultaneamente fazem a regressão da região de propostas e os pesos dos objetos em cada local em um grid regular (Ren et al., 2015). As etapas são descritas a seguir: 1) A imagem passa pelas camadas convolucionais e os mapas de recursos são extraídos; 2) Em seguida, uma janela deslizante é usada para cada local no mapa de recursos; 3) Para cada local, são utilizadas caixas de ancoragem k para gerar as propostas de região; 4) Uma camada cls (camada de classificação de caixa) gera 2k pesos, quer haja ou não objeto para as caixas delimitadoras; 22 5) Uma camada de regressão gera 4 k coordenadas do centro da caixa, largura e altura das k caixas; 6) Um mapa de recursos W x H, terão WHk âncoras no total (Figura 13). (A) (B) Figura 13. Arquitetura do Faster R-CNN. (A) Rede única e unificada para detecção de objetos; (B) Rede de proposta de região. A saída do RPN A função de perda é: 𝐿({𝑝𝑖}, {𝑡𝑖}) = 1 𝑁𝑐𝑙𝑠 ∑ 𝐿𝑐𝑙𝑠(𝑝𝑖, 𝑝𝑖 ∗) 𝑖 +𝜆 1 𝑁𝑟𝑒𝑔 ∑ 𝑝𝑖 ∗𝐿𝑟𝑒𝑔(𝑡𝑖, 𝑡𝑖 ∗) 𝑖 23  O primeiro termo é a perda de classificação em duas classes (há objeto ou não);  O segundo termo é a perda de regressão de caixas delimitadoras somente quando há objeto (ou seja, pi* = 1);  𝑖 é o índice da âncora em um mini-lote. É considerado provavelmente verdadeiro;  camada 𝑝𝑖 ∗ igual a 1 se houver âncora positiva, e 0 se a âncora for negativa;  𝑡𝑖 representa um vetor com as quatro coordenadas parametrizadas da região de proposta prevista; e  𝑡𝑖 ∗ é quando a caixa verdadeira é associada a uma âncora positiva.  A perda por classificação (𝐿𝑐𝑙𝑠) é uma perda logarítmica sobre duas classes (objetos ou não objetos). A parte restante é semelhante ao Fast R-CNN. O pooling da região de interesse é executado primeiro, e então a área de pooling passa pela CNN e duas ramificações de funções convolucionais vão para serem classificadas pelo softmax e o regressor da caixa delimitadora (Tsang, 2018c). NAS (Neural architecture search with reinforcement learning) O extrator Neural Architecture Search (NAS) pode projetar bons modelos a partir do zero, o que não era possível com outros métodos. Além de apresentar maior velocidade e menor erro, em comparação a outras arquiteturas, como o CIFAR-10, RNN e LSTM. O extrator NAS é baseado na observação de que a estrutura e a conectividade de uma rede neural podem ser tipicamente especificadas por uma cadeia de comprimento variável. Portanto, treinar a rede especificada nos dados reais resultará em uma precisão em um conjunto de validação. Usando esta precisão como o sinal de recompensa, podemos calcular o peso correto para atualizar o controlador. Como resultado, na próxima iteração, o controlador dará maiores probabilidades às arquiteturas que recebem altas precisões. Em outras palavras, o controlador aprenderá a melhorar sua pesquisa ao longo do tempo (Zoph and Le, 2017). 24 No NAS usamos um controlador para gerar hiperparâmetros arquitetônicos de redes neurais. Para ser flexível, o controlador é implementado como uma rede neural recorrente. O processo segue um cronograma em que aumentamos conforme o treinamento progride. Os parâmetros do controlador RNN, são então otimizados para maximizar o valor esperado na validação. Assim, o controlador RNN gera pesos para melhorar a arquitetura ao longo do tempo, usando métodos de gradiente. O cronograma prevê a altura do filtro, a largura do filtro, a altura da passada, a largura da passada e o número de filtros para uma camada e repete. Cada predição é realizada por um classificador softmax e depois é alimentada na próxima iteração como entrada (Figura 14) (Zoph and Le, 2017). (A) (B) Figura 14. Arquitetura do NAS (neural architecture search). (A) Visão geral da arquitetura; (B) Como a rede neural recorrente do controlador coleta uma rede convolucional simples, prevendo os parâmetros necessários e repetindo as iterações. O controlador no NAS é auto-regressivo, o que significa que ele prevê hiperparâmetros um por vez, condicionados às previsões anteriores. Esta ideia é Calcula o gradiente e atualiza o controlador Controlador (RNN) Treina uma rede “filho” com arquitetura e precisão Arquitetura de exemplo A com probabilidade p Altura filtro Largura filtro Altura passo Largura passo Nº filtro Altura filtro Camada N-1 Camada N Camada N+1 ... ... Nº filtro 25 emprestada do decodificador na sequência de ponta a ponta para sequenciar a aprendizagem (Sutskever et al., 2014). Banco de dados Os bancos de dados têm desempenhado um papel fundamental em toda a história do reconhecimento de objetos. Eles são um dos fatores mais importantes para o progresso no campo do Deep Learning, pois permite comparar o desempenho de modelos concorrentes, e impulsiona para problemas cada vez mais complexos e desafiadores. O acesso ao grande número de imagens na internet possibilita a criação de uma diversidade cada vez maior dos objetos (Liu et al., 2018). As imagens do MS Coco se tornaram o banco de dados mais utilizado na detecção de objetos genéricos. São cenas cotidianas contendo objetos comuns em seu contexto natural, mais próximos à vida real, e os objetos são rotulados utilizando instâncias segmentadas para fornecer uma avaliação mais precisa do detector (Liu et al., 2018) (Figura 15). Figura 15. Exemplo de imagens do banco de dados MS Coco (Fonte: cocodataset.org). São exemplos de banco de dados: Caltech, Scenes, Pascal Voc, Tiny images, Cifar, SUN, ImageNet, Places, MS Coco e Open Images (Li et al., 2007; Griffin et al., 2007; Lazebnik et al., 2006; Everingham et al., 2015; Krizhevsky, 2009; Xiao et al., 2003; Deng et al., 2009; Zhou et al., 2017; Lin et al., 2015; Krasin et al., 2017). 26 Avaliação de detecção – Métricas Coco Existem três critérios para avaliar o desempenho da detecção de algoritmos: velocidade de detecção (quadros por segundo – frames per second, FPS), precisão e recuperação. A métrica mais utilizada é a precisão média (AP – average precision), derivada da precisão e recuperação (Lin et al., 2015). IoU: (intersection over union) interção sobre união A IoU (intersection over union) mede a sobreposição entre dois limites das caixas delimitadoras com o seu rótulo de categoria. Usamos para medir quanto o limite predito se sobrepõe à verdade fundamental (limite real do objeto) (Lin et al., 2015). Dada por: IoU = 𝑎𝑟𝑒𝑎 (𝑎𝑙𝑣𝑜 ∩ 𝑝𝑟𝑒𝑑𝑖𝑡𝑜) 𝑎𝑟𝑒𝑎 (𝑎𝑙𝑣𝑜 ∪ 𝑝𝑟𝑒𝑑𝑖𝑡𝑜) Um valor típico para IoU é 0.5. Precisão média (PM ou AP) A precisão mede a exatidão das previsões, ou seja, a porcentagem correta das previsões. A precisão média (Average precision – AP) é calculada em todas as categorias, chamado de mAP (medium Average Precision). É a métrica mais importante ao considerar o desempenho no COCO. Para retornar o mAP, é calculada a precisão média e a recuperação média. 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉𝑃 𝑉𝑃 + 𝐹𝑃 em que, VP = verdadeiro positivo; FP = falso positivo AP = %AP em IoU 0,05: 95% (métrica de desafio principal); AP = %AP em IoU 0,50: 50% (métrica de PascalVOC e Coco); AP = %AP em IoU 0,25: 75% (métrica estrita). 27 Recuperação média (RM ou AR – average recall) A recuperação média é o retorno máximo, dado um número fixo de detecções por imagem, calculadas sobre a categoria e IoU. A RM está relacionada à métrica de mesmo nome usada na avaliação de proposta, mas é calculada por categoria. 𝑅𝑒𝑐𝑢𝑝𝑒𝑟𝑎çã𝑜 = 𝑉𝑃 𝑉𝑃 + 𝐹𝑁 em que, VP = verdadeiro positivo; FN = falso negativo; ARmax = 1 %AR retorna uma detecção por imagem; ARmax = 10 %AR retorna dez detecções por imagem; ARmax = 100 %AR retorna cem detecções por imagem; 28 REFERÊNCIAS Alves G (2018) Entendendo redes convolucionais (CNNs). Disponível em: https://medium.com/neuronio-br/entendendo-redes-convolucionais-cnns- d10359f21184. Alves JD (2008) Morfologia do cafeeiro. In: CARVALHO, C.H.S. (Ed.). Cultivares de café: origem, características e recomendações. Brasília: Embrapa Café, p.35-56. Alves MC, Silva FM, Moraes JC, Pozza EA, Oliveira MS, Souza JCS, Alves LS (2009) Geostatistical analysis of the spatial variation of the berry borer and leaf miner in a coffee agroecosystem. Precision Agriculture 10, 12: 1-14. Avendano J, Ramos PJ, Prieto FA (2017) A system for classifying vegetative structures on coffee branches based on vídeos recorded in the field by a mobile device. Expert systems with applications 88: 178-182. Bianco JL (2006) A trajetória do café. São Paulo: All Print Editora, 202 p. Braga AP, Ludermir AP, Leon FC, Bernarda T (2007) Redes Neurais Artificiais: Teoria e Prática. 2ª ed: LTC. Brandao IR, Silva DM, Souza RD, Boas LVV, Santos MO, Silva FM, Alves JD (2016) Physiological and ultrastructural analysis reveal the absence of a defined abscission zone in coffe fruits Bragantia 75 (4): 386-395. Bufo MJ (2000) Aplicação de rede neural artificial como auxiliar na predição do desempenho de um land farming. 192 p. Dissertação (Mestrado em Engenharia Agrícola) - Universidade Estadual de Campinas, Campinas. Burrough PA, Mcdonnell RA (2006) Principles of geographical systems. New York: Oxford University Press. https://medium.com/neuronio-br/entendendo-redes-convolucionais-cnns-d10359f21184 https://medium.com/neuronio-br/entendendo-redes-convolucionais-cnns-d10359f21184 29 Camargo AP, Camargo MBP (2001) Definições e esquematização das fases fenológicas do cafeeiro arábica nas condições tropicais do Brasil Bragantia 60, 1: 65- 68. Cannell MG (1976) Crop physiological aspects of coffee bean yeld – a review Kenya Coffee 41: 245-253. Carvalho GR, Botelho CE, Bartholo GF, Pereira AA, Nogueira ÂM, Carvalho AM (2009) Comportamento de progênies F4 obtidas por cruzamentos de 'Icatu' com 'Catimor'. Ciência e Agrotecnologia 33, 1: 47-52. Cecafe (2018) Relatório mensal – dezembro 2018. Conselho dos Exportadores de Café do Brasil. Disponível em: http://www.sapc.embrapa.br/arquivos/consorcio/informe_estatistico/CECAFE_Relator io_Mensal_Dezembro_2018.pdf Chaves Filho JT (2007) Novos paradigmas na fisiologia do cafeeiro. Documentos- IAC, 80: 67-74. Chen Y, Lin Z, Zhao X, Wang G, Gu Y (2014) Deep learning-based classification of hyperpectral data. IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 7 (6): 2094- 2107. CONAB - COMPANHIA NACIONAL DE ABASTECIMENTO (2018) Acompanhamento de safra brasileiro – café: quarto levantamento, dezembro 2018. Brasília: Companhia Nacional de Abastecimento. Disponível em file:///C:/Users/user/Downloads/BoletimZCafeZdezembroZ2018_1.pdf. Damatta FM (2007) Ecophysiology of coffee growth and production Braz J Plant Physiol 19, 4: 485-510. Deng J, Dong W, Socher R, Li L, Li K, Li F (2009) ImageNet: A large scale hierarchical image database. In: CVPR, pp. 248–255. http://www.sapc.embrapa.br/arquivos/consorcio/informe_estatistico/CECAFE_Relatorio_Mensal_Dezembro_2018.pdf http://www.sapc.embrapa.br/arquivos/consorcio/informe_estatistico/CECAFE_Relatorio_Mensal_Dezembro_2018.pdf file:///C:/Users/user/Downloads/BoletimZCafeZdezembroZ2018_1.pdf 30 Deng L, Yu D (2014) Deep learning: methods and applications. Found. Trends Signal Process, 7 (3-4): 197-387. Everingham M, Eslami S, Gool LV, Williams C, Winn J, Zisserman A (2015) The pascal visual object classes challenge: A retrospective IJCV 111(1):98–136. Farias PRS (1999) Distribuição espacial do nematoide reniforme com o uso da geoestatística, em um solo com rotação de culturas. 109 f. Tese (Doutorado em Agronomia – Produção Vegetal). Universidade Estadual Júlio de Mesquita Filho, Jaboticabal. Ferraz GAS, Silva FM, Oliveira MS, Custódio AAO, Ferraz PFP (2012c) Agricultura de precisão no estudo de atributos químicos do solo e da produtividade de lavoura cafeeira. Coffee Science 7, 1: 59-67. Ferraz GAS, Silva FM, Oliveira MS, Custódio AAO, Ferraz PFP (2012b) Variabilidade espacial e temporal do fósforo, potássio e da produtividade de uma lavoura cafeeira. Engenharia Agrícola 32, 1: 140-150. Ferraz GAS, Silva FM, Alves MC, Bueno RL, Costa PAN (2012a) Geostatistical analysis of fruit yield and detachment force in coffee. Precision Agriculture 13, 1: 76- 89. Girshick R (2015) Fast R-CNN in IEEE International Conference on Computer Vision (ICCV) Proceedings... Santiago: Chile. Goodfellow I, Bengio Y, Couville A (2016) Deep learning (Adaptive computation and machine learning series). The MIT Press. P. 775. Griffin G, Holub A, Perona P (2007) Caltech 256 object category dataset. In: California Institute of Technology Technique Report 7694. 31 Jia Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Darrel T (2014) Caffe: Convolutional architecture for fast feature embedding. In: Proceedings of the 22nd International Conference on Multimedia. Proceedings... Orlando, FL: USA, pp. 675- 678. Journel AG (1989) Fundamentals of Geostatistics in Five Lessons. American Geophysical Union, 1-40. Kamilaris A, Prenafeta-Boldú, Francesc X (2018) Deep learning in agriculture: a survey. Computers and electronics in agriculture 147: 70-90. Krasin I, Duerig T, Alldrin N, Ferrari V, AbuElHaija S, Kuznetsova A, Rom H, Uijlings J, Popov S, Kamali S, Malloci M, PontTuset J, Veit A, Belongie S, Gomes V, Gupta A, Sun C, Chechik G, Cai D, Feng Z, Narayanan D, Murphy K (2017) OpenImages: A public dataset for large scale multilabel and multiclass image classification. Dataset. available from: https://storagegoogleapiscom/openimages/web/indexhtml Krizhevsky A (2009) Learning multiple layers of features from tiny images. Master’s thesis, University of Toronto. Krizhevsky A, Sutskever I, Hinton G (2012) ImageNet classification with deep convulational neural networks. In: NIPS, pp. 1097-1105. Landim PMB (1997) Análise estatística de dados geológicos. São Paulo: Ed. UNESP, pp 226. Lati RN, Filin S, Elnashef B, Eizenberg H (2019) 3-D image-driven morphological crop analysis: a novel method of sunflower broomrape initial subsoil parasitismo. Sensors, 19, 7: 1-14. DOI: 10.3390/s19071569 Lazebnik S, Schmid C, Ponce J (2006) Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In: CVPR, vol 2, pp. 2169–2178. https://storagegoogleapiscom/openimages/web/indexhtml 32 Lecun Y, Bengio Y (1995) Convolutional networks for images, speech, and time series. Handbook Brain Theory Neural Networks 3361 (10). Lecun Y, Bengio Y, Hinton G (2015) Deep learning. Nature 521, 7553: 436-444. Li F, Fergus R, Perona P (2007) Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding 106(1): 59–70. Lin T, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollar P, Zitnick CL (2015) Microsoft coco: Common objects in context. p. 1-15. Disponível em: https://arxiv.org/pdf/1405.0312.pdf Liu L, Ouyang W, Wang X, Fieguth P, Chen J, Liu X, Pietikainen M (2018) Deep learning for generic object detection: A survey arXiv preprint arXiv:1809.02165. Maldonado Junior W, Barbosa JC (2016) Automatic green fruit counting in Orange trees using digital images Computers and electronics in agriculture 127: 572-581. MAPA - Ministério da agricultura, pecuária e abastecimento (2018) Café no Brasil. Disponível em: < http://www.agricultura.gov.br/assuntos/politica-agricola/cafe> Acessado em 27 de maio de 2019. Mateo-Aroca A, García-Mateos G, Ruiz-Canales A, Molina-García-Pardo JM, Molina- Martínez JM (2019) Remote image capture system to improve aerial supervision for precision irrigation in agriculture. Water 11, 255: 1 – 21. Doi: 10.3390/w11020255 Matheron, G (1963) Principles of Geostatistics. Economic Geology 58, 1246-1266. Molin JP, Motomiya AVA, Frasson FR, Faulin GC, Tosta W (2010) Teste procedure for variable rate fertilizer on coffee. Acta Scientiarum Agronomy 32, 4: 569-575. https://arxiv.org/pdf/1405.0312.pdf http://www.agricultura.gov.br/assuntos/politica-agricola/cafe 33 Oliveira E, Silva FM, Salvador N, Souza ZM, Chalfoun SM, Figueiredo CAP (2007) Custos operacionais da colheita mecanizada do cafeeiro Pesquisa Agropecuária Brasileira 42: 827-831. Pajares G, García-Santillán I, Campos Y, Montalvo M, Guerrero JM, Emmi L, Romeo J, Guijarro M, Gonzalez-de-Santos P (2016) Machine-vision systems selection for agricultural vehicles: a guide. Journal of imaging 2, 34: 1-31. Doi: 10.3390/jimaging2040034 Pascal Voc Project (2012) The PASCAL Visual Object Classes. Disponível em: http://host.robots.ox.ac.uk/pascal/VOC/. Pereira SO, Bartholo GF, Baliza DP, Sogreira FM, Guimarães RJ (2011) Productivity and coffee biannuality depending on the crop spacing Pesquisa Agropecuária Brasileira 46, 2: 152-160. Pinto C, Furukawa J, Fukai H, Tamura S (2017) Classification of green coffee bean imagees based on defect types using convolutional neural network (CNN). In: International Conference on advanced informatics, concepts, theory and applications (ICAICTA) IEE. Proceedings... Denpasar: Indonesia. Plant RE (2001) Site-specific management: the application of information technology to crop production. Computers and Electronics in Agriculture 30: 9-29 Ponti MA, Costa GBP (2017) Como funciona o deep learning. Tópicos em gerenciamento de dados e informações. 1ª ed. São Carlos: SBC. Disponível em: http://conteudo.icmc.usp.br/pessoas/moacir/papers/Ponti_Costa_Como-funciona-o- Deep-Learning_2017.pdf. Ramos PJ, Prieto FA, Oliveros CE (2017) Automatic fruit count on coffee branches using computer vision. Computers and Electronics in Agriculture 137: 9-22. http://host.robots.ox.ac.uk/pascal/VOC/ http://conteudo.icmc.usp.br/pessoas/moacir/papers/Ponti_Costa_Como-funciona-o-Deep-Learning_2017.pdf http://conteudo.icmc.usp.br/pessoas/moacir/papers/Ponti_Costa_Como-funciona-o-Deep-Learning_2017.pdf 34 Ren S, He K, Girshick R, Sun J (2015) Faster R-CNN: Towards real time object detection with region proposal networks. In: NIPS, pp 91-99. Revista Globo Rural (2018) Saca de café é vendida por R$ 19 mil em leilão de prêmio. Disponível em: https://revistagloborural.globo.com/Noticias/Agricultura/Cafe/noticia/2018/11/saca- de-cafe-de-mg-e-vendida-por-r-19-mil-em-leilao-de-premio.html Reyns P, Missoten B, Ramon H, Baerdenaeker J (2002) A review of combine sensors for precision farming. Precision Agriculture 3: 169-182. Schmidhuber J (2015) Deep learning in neural networks: An overview. Neural Networks 61, 85-117. Santinato F (2016) Inovações tecnológicas para cafeicultura de precisão.119f. Dissertação (Doutorado em Agronomia) - Faculdade de Ciências Agrárias e Veterinárias, Universidade Estadual Paulista, Jaboticabal, São Paulo. Santinato F, Ruas RAA, Silva RP, Carvalho Filho A, Santinato R (2015) Número de operações mecanizadas na colheita do café Ciência Rural 45, 10: 1809-1814. Santinato F, Silva RP, Cassia MT, Santinato R (2014) Análise quali-quantitativa da operação de colheita mecanizada de café em duas safras Coffee Science 9, 4: 495- 505. Santos FL, Queiroz DM, Pinto FAC, Resende FC (2010) Efeito da frequencia e amplitude da vibração sobre a derriça de frutos de café Revista Brasileira de Engenharia Agrícola e Ambiental 14 (4): 425-431. Silva AF, Lima JSS, Souza GS, Oliveira RB (2010) Variabilidade espacial de atributos químicos do solo cultivado com café arábica (Coffea arabica) sob diferentes manejos. Coffee Science 5, 2: 173-182. https://revistagloborural.globo.com/Noticias/Agricultura/Cafe/noticia/2018/11/saca-de-cafe-de-mg-e-vendida-por-r-19-mil-em-leilao-de-premio.html https://revistagloborural.globo.com/Noticias/Agricultura/Cafe/noticia/2018/11/saca-de-cafe-de-mg-e-vendida-por-r-19-mil-em-leilao-de-premio.html 35 Silva FC, Silva FM, Silva AC, Barros MM, Palma MAS (2013) Desempenho operacional da colheita mecanizada e seletiva do café em função da força de desprendimento dos frutos Coffee Science 8, 1: 53 – 60. Silva FM (2004) Colheita mecanizada e seletiva do café: cafeicultura empresarial, produtividade e qualidade. Lavras: UFLA/FAEPE, pp 75. Silva FM, Arré TJ, Tourino ES, Gomes TS, Alves MC (2009) Uso de Ethrel na colheita mecanizada e seletiva de café arábica (Coffea arabica L.) Coffee Science 4, 2: 178- 182. Silva FM, Souza ZM, Arré TJ, Juan RS, Oliveira E (2006) Avaliação da colheita mecanizada do café com o uso do ethephon Coffee Science 1, 1: 1-6. Silva FM, Souza ZM, Figueiredo CAO, Vieira LHS, Oliveira E (2008) Variabilidade espacial de atributos químicos e produtividade da cultura do café em duas safras agrícolas. Ciência e Agrotecnologia 32, 1: 231-241. Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556. Sutskever I, Vinyals O, Le Q (2014) Sequence to sequence learning with neural networks. In NIPS. arXiv:1409.3215v3. Disponível em: https://arxiv.org/pdf/1409.3215.pdf Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A (2015) Going deeper with convolutions. In CVPR. Disponível em: https://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf Szegedy C, Ioffe S, Vanhoucke V, Alemi AA (2017) Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. AAAI, pp. 4278-4284. https://arxiv.org/pdf/1409.3215.pdf https://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf 36 Torralba AFW, Fergus R (2008) 80 million tiny images: A large dataset for non- parametric object and scene recognition. IJCV 30,11:1958–1970. Tsang SH (2018a) Review: R-CNN (Object Detection). Disponível em : https://medium.com/coinmonks/review-r-cnn-object-detection-b476aba290d1. Tsang SH (2018b) Review: Fast R-CNN (Object Detection). Disponível em: https://medium.com/coinmonks/review-fast-r-cnn-object-detection-a82e172e87ba Tsang SH (2018c) Review: Fast R-CNN (Object Detection). Disponível em: https://towardsdatascience.com/review-faster-r-cnn-object-detection-f5685cb30202 Valadares SV, Neves JCL, Rosa GNGP, Martinez HEP, Venegas VHA, Lima PC (2013) Productivity and biennial production of dense coffee plantations under different doses of N and K Pesquisa Agropecuária Brasileira 98: 296-303. Valente DSM, Queiroz DM, Pinto FAC, Santos NT, Santos FL (2012) Definition of management zones in coffee production field based on apparent soil electrical condutivity Scientia Agrícola 69 (3): 173-179. Vieira SR (2000) Geoestatística em estudos de variabilidade espacial do solo. In: Novais RF, Alvarez VH, Schaefer CEGR (Ed.). Tópicos em ciência do solo. Viçosa, MG: Sociedade Brasileira de Ciência do Solo 1: 1-54. Wan J, Wang D, Hoi SC, Wu P, Zhu J, Zhang Y, Li J (2014) Deep learning for content- based image retrieval: A comprehensive study. Proceedings... of the 22nd ACM International Conference on Multimedia. ACM, Orlando, FL, p. 157-166. Widrow B, Rumelhart DE, Lehr MA (1994) Neural networks: Applications in industry, business and science. Communications of the ACM 3: 93–105. https://medium.com/coinmonks/review-r-cnn-object-detection-b476aba290d1 https://medium.com/coinmonks/review-fast-r-cnn-object-detection-a82e172e87ba https://towardsdatascience.com/review-faster-r-cnn-object-detection-f5685cb30202 37 Xiao J, Ehinger K, Hays J, Orralba A, Oliva A (2014) SUN Database: Exploring a large collection of scene categories. IJCV 119, 1:3–22. Zhou B, Lapedriza A, Khosla A, Oliva A, Torralba A (2017) Places: A 10 million image database for scene recognition. IEEE Trans Pattern Analysis and Machine Intelligence. Zoph B, Le Quoc V (2017) Neural architecture search with reinforcement learning. Disponivel em: arXiv:1611.01578v2 [cs.LG] 15 Feb 2017 36 CAPÍTULO 2 - Predição automática de produtividade e maturação em imagens de frutos de cafeeiro Resumo: A colheita, é uma operação agrícola, que pode influenciar diretamente na qualidade de bebida do café, pensando nisso: e se fosse possível identificar a produtividade e maturação digitalmente? Poderia facilitar no manejo da colheita. Assim, o objetivo desse trabalho foi desenvolver um método automático e não destrutivo para a contagem de frutos de café em seus respectivos estádios de maturação: verde, verde-cana, cereja e seco. O estudo foi conduzido no município de Franca, São Paulo, Brasil. A coleta do banco de dados foi robusta com 191 imagens de campo, com diferentes datas de coleta, acompanhando a evolução da maturação. Também avaliou-se diferentes condições de captura das imagens, de ramos e do terço inteiro, em toda a estrutura da planta (terço superior, médio e inferior). O modelo utilizado foi o Faster R-CNN Nas. Para etapa de teste foram utilizados para cada condição de captura da imagem (terço, ramo na planta e ramo sobre a lona, com flash ligado e desligado) 15 imagens, totalizando 90 imagens analisadas. Posteriormente, a identificação automática dos frutos foi relacionada com a produtividade real (colheita manual das plantas) possibilitando a inferência da verdadeira estimativa de produtividade e maturação. Um sistema automatizado de baixo custo para detectar, classificar nos estádios de maturação e contar os frutos de café em imagens utilizando inteligência artificial foi desenvolvido e avaliado, o sistema não precisa de câmeras sofisticadas com resoluções altas. A coleta de imagens é robusta (condição de campo comercial), analisando a planta por inteiro, e com diferentes níveis de maturação, além de análises agronômicas reais, comparando a produtividade real e estimada. O modelo identifica os frutos de café de maneira satisfatória, independente da condição de captura de foto, ou seja, mesmo que a foto possua flash ou não, se é de apenas um ramo, ou do terço e, se há controle 37 sobre o fundo (lona ou folhas e solo). Identifica a maioria dos frutos em condição semi-oculta, pela conformação dos frutos de café serem em glomérulos; também identifica independente da escala (tamanho do fruto), devido a distância da câmera com o objeto. O reconhecimento dos frutos obteve R2 = 0,92 no modelo proposto, podendo auxiliar na estimativa da produtividade e maturação do talhão. Palavras-chave: Coffea arabica, processamento de imagens, Deep Learning, machine learning, visão de máquina, neural networks. 1. INTRODUÇÃO O café é uma planta que apresenta maturação desuniforme, condição intrínseca da planta, quando em condições naturais (Rena e Barros, 2004). Essa desuniformidade prejudica a qualidade de bebida, uma vez que colher frutos verdes proporcionará sabor adstringente, enquanto que frutos em fase de senescência ficam mais sujeitos à ação de microrganismos, ocasionando a fermentação. O café é uma commodity cujo preço é altamente influenciado pela sua qualidade. A média do preço de venda no Brasil do café especial ou gourmet para exportação foi de US$ 143,44 (R$ 565,00) e a média dos cafés tradicionais de US$ 128,16 (R$ 506) em março de 2019, ou seja, em média 11% superior (Cecafé, 2019). A colheita é uma operação mecanizada que influencia na qualidade da bebida, pois, quando não se faz a colheita seletiva, sugere-se uma faixa de 5 a 20% dos grãos verdes para o início da colheita (Mesquita et al., 2016), o que pode ocasionar no início da colheita, muitos grãos verdes, que conferem sabor adstringente a bebida, ou ainda, a permanência de frutos nas árvores (colheita atrasada) e conferir a fermentação dos frutos com alterações qualitativas, 38 ocasionando aroma e sabor indesejável. Conhecendo a variabilidade da produtividade e maturação do talhão, podemos pensar em regulagens da colhedora que possam ser ajustáveis para cada condição, que vise colher somente os frutos maduros, e permita permanecer os verdes na planta. Portanto, surge a demanda de pesquisas para o desenvolvimento de tecnologias para a colheita inteligente do café. O desenvolvimento da Agricultura 4.0 em todos os setores da mecanização viabiliza a compreensão mais minuciosa da variabilidade das áreas agricultáveis, e o acompanhamento dessa variabilidade permite um tratamento ideal para cada condição. No início dos anos 1960, o conceito de colheita automática foi proposto para a cultura de citros, utilizando um dispositivo automático de coleta robótica. Foi proposto um sistema que posiciona um braço robótico que manipula dentro da faixa de escolha do fruto alvo antes de destacá-lo da árvore. A orientação para o manipulador era obtida por um sistema de visão robótica, para detectar o fruto (Shertz e Brown, 1968). No entanto, a detecção de frutos ainda é desafiadora, e as soluções eficientes para utilização no campo ainda precisam de mais pesquisas, uma vez que o ambiente natural não é estruturado e o controle dos fatores externos é complexo. Além disso, as metodologias precisam de mais pesquisa para desenvolvimento de sensores, principalmente os métodos de processamento de imagens, que são utilizados nos módulos de visão de máquinas. Em reconhecimento de sistemas de visão, as câmeras são a principal solução para se comunicar com o ambiente. O processamento de imagem é o principal problema para reconhecer os frutos, pois, é necessário adquirir as imagens e, em seguida, algoritmos que identifiquem o fruto do cenário e o classifique (Li et al., 2011). Pensando nisso, surge a hipótese: é possível identificar a produtividade e maturação digitalmente, isso facilitaria a estimativa de tais variáveis, favorecendo a prática do campo, uma 39 vez que, atualmente o método consiste em derriçar manualmente as plantas e em seguida, coletar uma amostra para separá-las em cada estádio de maturação, fruto por fruto, sendo trabalhoso e com consumo de tempo e mão-de-obra. Sendo que a estimativa possa ser automatizada, várias amostras poderiam ser coletadas para confecção de mapas de precisão, que exigem grande quantidade de coleta de informações. Dessa maneira , o manejo poderia ser idealizado para cada zona, visando a melhor regulagem para cada variação delimitada. Assim, pensando em facilitar as técnicas de amostragem da produtividade e maturação do cafeeiro, objetivou-se nesse trabalho desenvolver um método automático e não destrutivo para a contagem de frutos de café e classificá-los em seus respectivos estádios de maturação: verde, verde-cana, cereja e seco, utilizando redes neurais convolucionais. 1.1 Trabalhos relatados Ramos et al. (2017) utilizando imagens de café para contagem automática de frutos, escolhendo apenas as fotos em condições ideais em seu banco de dados (condição favorecida), criaram uma ferramenta com detectores de contorno dos frutos, criando elipses (arcos para o contorno dos frutos) e obtiveram um coeficiente de determinação R2 = 0,94. Embora o trabalho dos autores seja enriquecedor para cafeicultura, ocorrem dois contratempos: em média o modelo utiliza um minuto para cada ramo, pois foram utilizados métodos de processamento de imagens clássicos, tempo este muito longo em comparação ao método de Deep Learning. Além disso, este trabalho superestima a produtividade (em 28%), pois a produtividade do fruto depende do estádio de maturação, e a coleta do banco de dados deveria ter ocorrido em vários momentos no tempo, acompanhando a evolução da maturação. 40 Na esperança de utilizar dispositivos móveis na produtividade de uma árvore de café, aliada ao georreferenciamento da planta (Ramos et al., 2017b) buscaram desenvolveram um sistema que faz a aquisição de imagens e ao mesmo tempo tentar detectar pelo movimento do dispositivo a coordenada da planta. No entanto, para velocidades muito baixas de movimento do celular (menor que 5 cm s-1), não foi possível detectar a coordenada da planta, porém, as imagens apresentam boa qualidade de captura, já em velocidades maiores, é possível detectar o movimento, (o acelerômetro do dispositivo é acionado) sendo possível encontrar a coordenada da planta, porém, as imagens ficam desfocadas. Modelos de inteligência artificial foram utilizados para investigar as relações existentes entre as propriedades de fertilidade do solo e a produtividade do café Robusta em algumas regiões no Vietnã. Os modelos foram: Aprendizado de Máquina ao Extremo (Extreme Learning Machines – ELM), Regressão Linear Múltipla (Multiple Linear Regression) e Floresta Aleatória (Random Forest), o modelo que melhor representou a produtividade estimada foi o ELM, coeficiente de determinação foi R2 = 0,534, os outros modelos apresentaram valores menores. Os autores acreditam que a inteligência artificial pode melhorar a produtividade de pequenas fazendas de café, implementando um sistema de apoio à decisão na agricultura de precisão (Kouadio et al., 2018). Os trabalhos acima citados são recentes, demonstrando que a inteligência artificial no café ainda tem um vasto caminho a ser pesquisado, o que justifica ainda mais pesquisas para alavancar as tecnologias na cafeicultura. Nosso trabalho apresenta reconhecimento geral dos frutos de R2 = 0,92, e a coleta do banco de dados foi robusta, sendo utilizadas 191 imagens para treinamento e validação e, para teste 90 imagens da safra no ano seguinte. É importante ressaltar que a coleta variou no tempo (início do mês de maio a metade de junho), acompanhando a maturação. E que também houve diferentes condições de captura das imagens, de ramos e do 41 terço. Igualmente importante, neste trabalho relacionou-se a identificação automática dos frutos com a produtividade real, obtida por meio da colheita manual das plantas, o que permite inferir no verdadeiro valor de produtividade e maturação. 2. MATERIAL E MÉTODOS 2.1 Banco de dados O trabalho foi realizado no município de Restinga, São Paulo, Brasil, em uma propriedade localizada próxima às coordenadas geodésicas 20°36’45” latitude Sul e 47°29’10” longitude Oeste de Greenwich, microrregião de Franca, na Alta Mogiana, com altitude média de 910 m e clima tropical de altitude Cwb, segundo a classificação climática de Kö