UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" INSTITUTO DE QUÍMICA DE ARARAQUARA DEPARTAMENTO DE ENGENHARIA, FÍSICA E MATEMÁTICA CAMILA PRONI DESENVOLVIMENTO DE MODELOS NEURAIS E FLORESTAS ALEATÓRIAS PARA ESTUDO DE TINTAS DA INDÚSTRIA GRÁFICA Araraquara 2022 2 CAMILA PRONI DESENVOLVIMENTO DE MODELOS NEURAIS PARA A ESTIMATIVA DE PARÂMETROS DE QUALIDADE E CLASSIFICAÇÃO DE TINTAS DA INDÚSTRIA GRÁFICA Trabalho de Conclusão de Curso apresentado ao Instituto de Química, da Universidade Estadual Paulista “Júlio de Mesquita Filho” como parte das exigências para a obtenção do título de Bacharel em Engenharia Química. Orientadora: Profa. Dra. Érica Regina Filletti Nascimento Araraquara 2022 CAMILA PRONI DESENVOLVIMENTO DE MODELOS NEURAIS E FLORESTAS ALEATÓRIAS PARA ESTUDO DE TINTAS DA INDÚSTRIA GRÁFICA Trabalho de Conclusão de Curso apresentado ao Instituto de Química, da Universidade Estadual Paulista “Júlio de Mesquita Filho” como parte das exigências para a obtenção do título de Bacharel em Engenharia Química. Orientadora: Profa. Dra. Érica Regina Filletti Nascimento Araraquara, 02 de Agosto de 2022 BANCA EXAMINADORA _____________________________________ Prof. Dr. Elias de Souza Monteiro Filho Instituto de Química – UNESP Araraquara _____________________________________ Profa. Dra. Marisa Veiga Capela Instituto de Química – UNESP Araraquara 3 AGRADECIMENTOS Ao corpo docente, direção e administração da Universidade Estadual Paulista “Júlio de Mesquita Filho” campus Araraquara, pelas oportunidades, ensinamentos e apoio que recebi durante minhas vivências em ensino, pesquisa e extensão. À FAPESP, pelo apoio financeiro e institucional dado para a realização deste trabalho (2019/18384-6). À minha família, por nunca terem medido esforços ao apoiarem meus sonhos e cuidarem de mim mesmo de longe. À minha professora orientadora Érica, pelo ensino, apoio e incentivo durante a supervisão das minhas atividades, além da amizade, confiança e preocupação comigo no decorrer do curso. Aos meus amigos, pela parceria em todos os momentos da graduação. 4 LISTA DE FIGURAS Figura 1: Modelo do neurônio MCP .......................................................................... 11 Figura 2: Rede Neural com algoritmo perceptron ..................................................... 12 Figura 3: Rede Neural ADALINE .............................................................................. 13 Figura 4: Rede feedforward com múltiplas camadas ................................................ 14 Figura 5: Ilustração da propagação para frente dos sinais funcionais e da retropropagação dos sinais do erro em um MLP ....................................................... 15 Figura 6: Exemplo de floresta aleatória .................................................................... 16 Figura 7: Modelo do algoritmo de Florestas Aleatórias ............................................ 24 Figura 8: Valores de viscosidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 26 Figura 9: Valores de viscosidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 27 Figura 10: Valores de densidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 28 Figura 11: Valores de densidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 28 Figura 12: Valores de % de sólidos das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 29 Figura 13: Valores de % de sólidos das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 30 Figura 14: Valores de viscosidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 31 Figura 15: Valores de viscosidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 32 Figura 16: Valores de densidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 33 Figura 17: Valores de densidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 33 Figura 18: Valores de % de sólidos das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste ....................................................................... 34 5 Figura 19: Valores de % de sólidos das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ........................................ 35 Figura 20: Valores de viscosidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste ........................................................... 36 Figura 21: Valores de viscosidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ............................. 37 Figura 22: Valores de densidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste ........................................................... 38 Figura 23: Valores de densidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ............................. 39 Figura 24: Valores de % de sólidos das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste ........................................................... 40 Figura 25: Valores de % de sólidos das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação ............................. 41 Figura 26: Performance pelo número de épocas ..................................................... 42 Figura 27: Matriz de confusão para os conjuntos de treinamento, validação e teste, assim como todas as amostras juntas ...................................................................... 46 Figura 28: Curva de Característica de Operação do Receptor para classe das tintas brancas (1) e pretas (2) ............................................................................................. 47 Figura 29: Erro das amostras OOB e de teste por Número de Árvores ................... 49 Figura 30: Gráfico de pontos da importância de uma variável, medido por uma floresta aleatória ........................................................................................................ 50 6 LISTA DE TABELAS Tabela 1: Dados do conjunto de teste da viscosidade da tinta preta ........................ 26 Tabela 2: Dados do conjunto de teste da densidade da tinta preta .......................... 27 Tabela 3: Dados do conjunto de teste da % de sólidos da tinta preta ...................... 29 Tabela 4: Dados do conjunto de teste da viscosidade da tinta branca ..................... 31 Tabela 5: Dados do conjunto de teste da densidade da tinta branca ....................... 32 Tabela 6: Dados do conjunto de teste da % de sólidos da tinta branca ................... 34 Tabela 7: Dados do conjunto de teste da viscosidade das tintas brancas e pretas .. 36 Tabela 8: Dados do conjunto de teste da densidade das tintas brancas e pretas .... 37 Tabela 9: Dados do conjunto de teste da RNA da % de sólidos das tintas brancas e pretas ........................................................................................................................ 39 Tabela 10: Respostas obtidas e esperadas pela RNA para o conjunto de treinamento ............................................................................................................... 42 Tabela 11: Respostas obtidas e esperadas pela RNA para o conjunto de validação .................................................................................................................................. 44 Tabela 12: Respostas obtidas e esperadas pela RNA para o conjunto de teste ...... 45 Tabela 13: Matriz de confusão OOB para o modelo de árvores aleatórias ............... 48 Tabela 14: Matriz de confusão do conjunto de teste para o modelo de árvores aleatórias ................................................................................................................... 48 7 SUMÁRIO RESUMO..................................................................................................................... 8 ABSTRACT ................................................................................................................. 9 1. INTRODUÇÃO ................................................................................................... 10 1.1 Histórico e fundamento das redes neurais artificiais ............................. 10 1.2 Florestas aleatórias .................................................................................... 15 1.3 O problema das tintas gráficas ................................................................. 17 2. OBJETIVO .......................................................................................................... 19 3. MATERIAIS E MÉTODOS .................................................................................. 20 3.1 Amostras de tintas da indústria gráfica ................................................... 20 3.2 O algoritmo do gradiente conjugado escalonado (SCG) ........................ 20 3.3 Florestas Aleatórias (Random Forest) ......................................................... 22 4. RESULTADOS E DISCUSSÕES ....................................................................... 25 4.1 Estimando viscosidade, densidade e teor de sólidos para as tintas ........ 25 4.1.1 Tintas pretas ............................................................................................ 25 4.1.2 Tintas brancas.......................................................................................... 30 4.1.3 Tintas pretas e brancas juntas ............................................................... 35 4.2 Classificando as tintas em pretas e brancas ............................................... 41 4.2.1 Resultado usando RNA ........................................................................... 41 4.2.2 Resultado usando Florestas Aleatórias ................................................. 47 5. CONCLUSÃO ..................................................................................................... 51 6. REFERÊNCIAS .................................................................................................. 52 8 RESUMO O Brasil ocupa a 5ª posição no mercado mundial de tintas. As tintas produzidas são encontradas das mais diversas formas de emulsões, dispersões ou pastas pigmentárias e são utilizadas para os mais diferentes fins, em especial serão estudadas neste projeto aquelas que fazem parte do processo de rotogravura, na qual as características da tinta são determinantes para um bom resultado na impressão. Um estudo recente mostra que Oshiro (2019) utilizou infravermelho médio por transformada de Fourier com o dispositivo de reflexão total atenuada para realizar análise de viscosidade, densidade e teor de sólidos das tintas. Considerando tais comprovações, este projeto busca combinar a espectroscopia de infravermelho com as Redes Neurais Artificiais (RNAs) para dois diferentes fins: estimar a viscosidade, a densidade e o teor de sólidos de tintas brancas e pretas e, usando estes mesmos parâmetros, classificar essas tintas de acordo com sua coloração, para este último também será utilizado outro tipo de aprendizado de máquina: as Florestas Aleatórias (randomForest). Tanto a RNA quanto as Florestas possuem a vantagem de fornecer resultados altamente precisos com muita rapidez e pouco esforço computacional. Os resultados das RNAs criadas para o problema de estimativa dos parâmetros das tintas gráficas foram satisfatórios. Para o caso das tintas brancas e pretas separadas e juntas, as RNAs dos três parâmetros avaliados atingiram valores próximos dos reais. É importante destacar que o parâmetro de viscosidade foi o que apresentou os maiores erros percentuais nos três casos, possivelmente devido aos seus valores, tanto para tinta preta quanto para tinta branca, variarem muito de uma amostra para outra, essa observação se deve ao fato de que a viscosidade está relacionada principalmente à composição inorgânica das amostras. Já para a classificação das tintas tanto a RNA quanto a Floresta aleatória apresentaram resultados altamente precisos classificando corretamente todas as amostras. Palavras-chave: Redes Neurais Artificiais. Florestas Aleatórias. Tintas da Indústria Gráfica. 9 ABSTRACT Brazil occupies the 5th position in the world paint market. The inks produced are found in the most diverse forms of emulsions, dispersions or pigmentpastes and are used for the most different purposes, especially those that are part of the rotogravure process will be studied, in which the characteristics of the ink are determinant for a good result in printing. A recent study shows that Oshiro (2019) used fourier-transformed medium infrared with the attenuated total reflection device to perform viscosity, density and solids content analysis of the paints. Considering such evidence, this project seeks to combine infrared spectroscopy with Artificial Neural Networks (RNAs) for two different purposes: estimating the viscosity, density and solids content of white and black inks and, using these same parameters, classifying these inks according to their coloration, for the latter another type of machine learning will also be used: Random Forests (randomForest). Both RNA and Forests have the advantage of providing highly accurate results with great speed and little computational effort. The results of the RNAs created for the problem of estimating the parameters of the graphic inks were satisfactory. For the case of separate white and black inks and joints, the RNAs of the three parameters evaluated reached values close to the real ones. It is important to highlight that the viscosity parameter was the one that presented the highest percentage errors in the three cases, possibly due to their values, both for black ink and white ink, vary ing a lot from one sample to another, this observation is due to the fact that viscosity is mainly related to the inorganic composition of the samples. For the classification of paints, both RNA and random forest showed highly accurate results correctly classifying all samples. Keywords: Artificial Neural Networks. Random Forests. Printing Industry Inks. 10 1. INTRODUÇÃO O aprendizado de máquina é um campo de estudo dentro da Inteligência Artificial que lida com algoritmos de computação que podem ser aperfeiçoados com base em um treinamento, ou seja, em uma experiência própria da máquina (ALECRIM, 2018). Há três tipos de aprendizado de máquina, o aprendizado supervisionado, o não supervisionado e o por reforço. No aprendizado supervisionado a rede é treinada por um supervisor e sua saída gerada é comparada com a saída real, recebendo a resposta do supervisor sobre o erro, ela sofre ajustes a fim de minimizar este erro. Já o não supervisionado, não há a presença do supervisor, a rede por si só mapeia sua entrada e saída e no aprendizado por reforço é definido uma função para indicar se a saída da rede é boa ou não, a rede que se ajusta ou não dependendo da recompensa ou penalização recebida. (NASCIMENTO, 2007) Neste trabalho serão usadas duas técnicas distintas do aprendizado supervisionado de máquina, as Redes Neurais Artificiais e as Florestas Aleatórias. 1.1 Histórico e fundamento das redes neurais artificiais As Redes Neurais Artificiais (RNAs) são modelos computacionais capazes de realizar o aprendizado de máquina bem como o reconhecimento de padrões, adquirindo conhecimento através da experiência (BRAGA, CARVALHO & LUDERMIR, 2000). Inicialmente as RNAs passam por uma fase de aprendizagem, em que um conjunto de exemplos é apresentado para a rede, ela extrai as características necessárias para representar a informação fornecida e posteriormente essa informação obtida é utilizada para gerar respostas para o problema (MORAIS, 2010). O início da história de desenvolvimento e pesquisa sobre as redes neurais artificiais se deu no começo da década de 40, quando Warren McCulloch e Walter Pitts fizeram uma análise do neurônio biológico e propuseram um modelo simples de neurônio artificial, descrevendo o seu comportamento em termos de algoritmos lógicos (COELHO, 2017). Este modelo (nó MCP) é representado na Figura 1, onde os valores indicados pelas variáveis 𝑥𝑗 representam os vetores de entrada, as variáveis 𝑤𝑗 11 designa os pesos sinápticos, a variável 𝜃 designa o valor limiar do neurônio e juntos levam a uma única saída, y (NASCIMENTO, 2007). Figura 1: Modelo do neurônio MCP Fonte: Nascimento, 2007 No modelo proposto por eles, o neurônio artificial funciona como um circuito elétrico binário podendo ser ativado (valor 1) ou desativado (valor 0). No princípio o sistema realiza uma média ponderada sobre os vetores de entrada de acordo com os seus pesos numéricos, que funcionam como as sinapses do neurônio biológico, essa média passa por uma função de ativação que determina se a mesma é maior ou menor que o valor limiar do neurônio (𝜃). Cada neurônio tem seu próprio limiar e caso o valor resultado seja maior, o neurônio é ativado, mas se for menor, é desativado. Matematicamente, o neurônio é ativado de acordo com a Equação 1 (NASCIMENTO, 2007) ∑ 𝑥𝑗𝑦𝑗 ≥ 𝜃 𝑝 𝑗=1 (1) A estrutura do nó MCP, apesar de simples, serviu de incentivo e base para que outros pesquisadores buscassem essa área e desenvolvessem padrões mais avançados. No final de 1958, Frank Rosenblatt, baseado nos estudos de McCulloch e Pitts, publicou um livro introduzindo um novo conceito às redes neurais artificiais: os perceptrons, e mais tarde os perceptrons de múltiplas camadas (MLP). Este neurônio introduzido por Rosenblatt se tratava se uma rede neural simples e não- linear (NASCIMENTO, 2007). 12 O algoritmo de treinamento do perceptron adaptava os pesos e bias (sendo este último uma entrada de valor 𝑥1 = 1 e seu respectivo peso 𝑤1) internos do neurônio, de maneira em que os dados eram corretamente classificados e a saída obtida pelo neurônio se tornava mais próxima da saída desejada (CASTRO, 1998). A rede neural com este novo algoritmo proposto por Rosenblatt funcionava do seguinte modo: as entradas eram ponderadas de acordo com seus respectivos pesos, somadas ao bias e passam pela função de ativação, que compara este somatório ao valor limite (o limiar do neurônio). Se o somatório for maior que o limiar do neurônio o resultado é 1, caso contrário é -1. A Figura 2 mostra o funcionamento de um perceptron, sendo este em sua estrutura, muito similar ao nó MCP (CASTRO, 1998). Figura 2: Rede Neural com algoritmo perceptron Fonte: Redes Neurais Artificiais blog, 2010 De acordo com o resultado obtido é determinado o erro (𝑒𝑖), entre a saída desejada (𝑑𝑖) e a saída obtida (𝑦𝑖), chegando à Equação 2 (CASTRO, 1998): 𝑒𝑖 = 𝑑𝑖 − 𝑦𝑖 (2) A partir deste erro, os pesos (𝑤𝑖) e os bias (𝑏) do neurônio artificial são atualizados de acordo com as Equações 3 e 4: 𝑤𝑖(𝑡 + 1) = 𝑤𝑖(𝑡) + 𝛼𝑒𝑖𝑎𝑖 (3) 𝑏(𝑡 + 1) = 𝑏(𝑡) + 𝛼𝑒𝑖 (4) onde 𝑤 ∈ ℜ 1×m , 𝑎 ∈ ℜ 1×m , e 𝑏 ∈ ℜ 1×1 (CASTRO, 1998). Apesar do impacto que teve o perceptron na comundade de Inteligência Artificial, este modelo foi fortemente criticado no livro de Minsky e Papert, 13 Perceptrons. Neste livro, eles comprovavam que o perceptron de camada única era um tipo de rede com muitas limitações, onde funções simples não pudessem ser calculadas pelo mesmo e tampouco pelos perceptrons de múltiplas camadas, pois o problema consistia na atribuição de crédito destes tipos de rede (HAYKIN, 2001). No mesmo período, Bernard Widrow e Marcian Hoff, professores da Universidade de Stanford, desenvolveram um novo modelo de rede neural linear, o ADALINE (adaptive linear element) e mais tarde, seu modelo com múltiplos elementos, o MADALINE (Multiple-ADALINE). Este novo modelo introduzia o algoritmo de treinamento do mínimo quadrado médio, conhecido como Regra Delta, em que se baseava a grande diferença entre o ADALINE e os perceptrons (HAYKIN, 2001). O modelo de neurônio ADALINE consiste na saída como uma combinação linear das entradas. Em seu funcionamento, o neurônio recebe um vetor padrão de entrada e sua saída desejada. As entradas são ponderadas de acordo com seus pesos e somadas, produzindo uma saída binária desta rede que é comparada a saída desejada e o algoritmo de adaptação ajusta, automaticamente, os pesos das entradas de modo a tentar obter um valor mais próximo do requisitado. A Figura 3 demonstra este funcionamento (MINUSSI; LOTUFO, 2008). Figura 3: Rede Neural ADALINE Fonte: Carlos Roberto Minussi, 2008 Tanto a rede ADALINE, quanto a rede perceptron de múltiplas camadas (MLP) são exemplos de redes neurais do tipo feedforward, cujo fluxo de informação dos neurônios da camada de entrada segue estritamente adiante até a camada de 14 saída, ou seja, o processamento dos dados pode ser estendido por várias camadas de neurônios, mas nenhuma conexão de realimentação está presente. A Figura 4 exemplifica este tipo de arquitetura (NASCIMENTO, 2007). Figura 4: Rede feedforward com múltiplas camadas Fonte: Nascimento, 2007 Os pesquisadores Rumelhart, Hinton e Willians propuseram um algoritmo de retropropagação do erro (backpropagation) em redes neurais com múltiplos níveis. Este algoritmo se consolidou como o mais importante e mais usado na aprendizagem supervisionada dos Perceptrons de múltipla camada - MLP (BARRETO, 2004). Em seu funcionamento, a rede neural usando o algoritmo de retropropagação recebe um vetor de entrada, uma saída desejada e calcula a saída da rede, comparando-a com a saída estimada e, se preciso, obtendo um valor de erro. Com o resultado do erro o mesmo se propaga para trás, ou seja, o nível de saída ajusta seu peso e calcula o erro de saída do penúltimo nível e assim consequentemente, até o nível de entrada, modificando os pesos de acordo com o erro de cada camada. O aprendizado utilizando este algoritmo é mais lento, porém produz um resultado muito mais efetivo que as redes neurais criadas anteriormente. A Figura 5 exemplifica de maneira simples o funcionamento do algoritmo de retropropagação (NASCIMENTO, 2007). 15 Figura 5: Ilustração da propagação para frente dos sinais funcionais e da retropropagação dos sinais do erro em um MLP Fonte: Nascimento, 2007 As criações e teorias publicadas no século XX colaboraram para o aumento de interesse e desenvolvimento da área das redes neurais artificiais, pois as mesmas se estabeleceram como um projeto interdisciplinar, envolvendo matemáticos, físicos, psicólogos, biólogos entre tantos outros estudiosos. Hoje, com tamanho avanço, criam-se hardwares que venham a possibilitar a implementação e uso destas arquiteturas neurais (OSÓRIO; BITTENCOURT, 2000). 1.2 Florestas aleatórias As Florestas aleatórias (Random Forest) são algoritmos de aprendizado de máquina (Machine Learning) muito utilizado para regressão e principalmente, classificação. Este algoritmo de aprendizagem supervisionada funciona de modo a criar uma combinação de árvores de decisão aleatórias, na maioria dos casos treinados com o método de bagging. (DONGES apud SILVA, 2018) O método Bagging (Bootstrap Aggregating) consiste em criar subconjuntos a partir de sorteio do conjunto de dados de treinamento. Cada subconjunto é utilizado para a construção de uma nova classe e a classificação final também é realizada por um sistema de votação, em que se atribui para uma nova instância, a classe com maior número de votos. (BRILHADORI; LAURETTO, 2013) O algoritmo de floresta aleatória cria uma estrutura similar a um fluxograma com nós onde uma condição é verificada e se atendida o fluxo segue por um ramo, caso contrário, por outro, sempre levando ao próximo nó, até a finalização da árvore. A aleatoriedade do modelo é adicionada quando as árvores são criadas, isso porque ao invés de procurar pela melhor característica através do cálculo do índice de Gini 16 ao fazer a partição dos nós, o algoritmo irá escolher de maneira aleatória duas ou mais variáveis e então realizar os cálculos com base nas amostras selecionadas, para definir qual delas será utilizada no primeiro nó. Para escolha da variável do próximo nó, novamente serão escolhidas duas (ou mais) variáveis, excluindo as já selecionadas anteriormente e este processo de escolha se repetirá até o último nó. Este processo cria uma grande diversidade, o que geralmente leva a geração de modelos melhores (Didática Tech, 2020). A Figura 6 exemplifica uma floresta aleatória contendo duas árvores de decisão. Figura 6: Exemplo de floresta aleatória Fonte: DONGES apud SILVA, 2018 A grande vantagem deste algoritmo é ser de fácil implementação e fácil visualização da importância que ele atribui para cada característica na sua entrada. Além disso, não possui muitos parâmetros a serem ajustados e, mesmo que estejam com os valores default, geralmente produzem bons resultados. Já uma desvantagem deste método é o sobreajuste (overfitting), pois caso não haja árvores suficientes na floresta e as poucas presentes tenham sido feitas com as piores variáveis escolhidas aleatoriamente, o classificador sobreajusta o modelo (DONGES apud SILVA, 2018). 17 1.3 O problema das tintas gráficas O Brasil ocupa a 5ª posição no mercado mundial de tintas, possuindo empresas que as fabricam para todos os tipos de aplicações com tecnologia de ponta. Os dez maiores fabricantes respondem por 75% do total das vendas no país. Em 2018, houve um crescimento de 0,85%, em relação ao ano anterior, do volume de tintas produzido no país, que foi de aproximadamente 1,5 bilhões de litros (ABRAFATI, 2020). A tinta é um fluido não-newtoniano, líquido e geralmente viscoso constituído de pigmentos que, ao sofrer um processo de cura quando estendida em um substrato, forma um filme opaco e aderente à esta superfície. Por serem constituídas de partículas sólidas de pigmentos, cada tinta e cada cor apresentará diferença na sua dispersão. Em geral há vários tipos de tintas, mas serão estudadas neste trabalho aquelas utilizadas em processos de impressão de rotogravura (VASQUEZ, 2012). A rotogravura é um método de produção gráfica, utilizado na produção de revistas, embalagens e jornais, onde a imagem é gravada em baixo relevo em um cilindro metálico e a transferência da tinta se dá através da pressão entre os cilindros e o substrato (papel, filme, entre outros). Neste processo é ideal ter tintas com maior força de tingimento e menor viscosidade e, portanto, é necessário um cuidado especial na seleção de pigmento em relação aos sistemas de resinas para que seja possível imprimir um produto de alta qualidade com simplicidade, utilizando poucas variáveis (VASQUEZ, 2012). Para que os processos de impressão gráfica tenham um bom resultado final é necessário que a gráfica seja bem equipada e isso demanda um alto custo. Além disso, é preciso conhecimento e controle de qualidade da tinta utilizada, pois suas características, como viscosidade ou propriedades dos pigmentos envolvidos podem sofrer alterações (ELDRED, 2001). Assim, entendendo a necessidade de um controle de qualidade efetivo aplicado as tintas, foi verificado uma oportunidade de usar RNAs, para determinar a viscosidade, densidade e teor de sólidos de tintas da indústria gráfica, além disso, usou-se novamente RNAs e florestas aleatórias para realizar a classificação destas 18 tintas, tendo em vista que são capazes de produzir resultados altamente precisos e por serem de fácil implementação. 19 2. OBJETIVO O objetivo do presente trabalho é estimar características de viscosidade, densidade e teor de sólidos de tintas gráficas brancas e pretas (separadamente e juntas) utilizando Redes Neurais Artificiais com o algoritmo de gradiente conjugado escalonado, além de classificar essas tintas de acordo com sua coloração, utilizando também as RNAs e as Florestas Aleatórias. 20 3. MATERIAIS E MÉTODOS 3.1 Amostras de tintas da indústria gráfica As amostras empregadas foram tintas pretas e brancas utilizadas no processo de impressão de rotogravura, fornecidas pela Escola SENAI Fundação Zerrenner, como parte do projeto de mestrado do discente Eduardo Hideki Oshiro, sob a orientação do prof. Dr. Edenir Rodrigues Pereira Filho da UFSCAR. Ao todo, obteve-se 80 amostras de tintas sendo 40 amostras de tinta preta e 40 amostras de tinta branca, com variações nas proporções de resina, solvente e pigmento. Um estudo recente mostra que Oshiro (2019) utilizou infravermelho médio por transformada de Fourier com o dispositivo de reflexão total atenuada para analisar tintas à base de solventes utilizada na indústria gráfica, através do uso da regressão por quadrados mínimos parciais para a previsão de viscosidade, densidade e sólidos das amostras de tintas. Os espectros de infravermelhos gerados foram fornecidos pelo prof. Dr. Edenir Rodrigues Pereira Filho e utilizados como dados de entrada para os modelos neurais desenvolvidos neste trabalho onde os resultados foram comparados com aqueles obtidos por Oshiro (2019), combinando, portanto, espectroscopia de infravermelho e RNAs. Além disso, este mesmo conjunto de dados foram usados para realizar a classificação destas tintas em brancas ou pretas. 3.2 O algoritmo do gradiente conjugado escalonado (SCG) Antes de introduzir propriamente o algoritmo do gradiente conjugado escalonado (Scaled Conjugate Gradiente – scg) é necessário a apresentação e conhecimento do algoritmo que o precede, o algoritmo do gradiente conjugado (CG). O objetivo deste algoritmo é acelerar a taxa de convergência normalmente lenta do backpropagation evitando custos computacionais como a manipulação da matriz Hessiana como ocorre no método de Newton sendo assim, um método intermediário entre esses dois. Os algoritmos de gradiente conjugado requerem apenas um pouco mais de armazenamento do que os outros algoritmos, portanto são bons para redes com um grande número de pesos ajustáveis (ALMEIDA, 2007). Em seu funcionamento o ajuste do peso não ocorre no negativo do gradiente, como na retropropagação, mas sim ao longo de direções conjugadas, afim de determinar o tamanho do passo que minimiza a função do erro ao longo 21 desta linha. Também no algoritmo de retropropagação a taxa de aprendizado é fixa e usada para determinar o tamanho do ajuste que será aplicado aos pesos (tamanho do passo), já no CG este passo é ajustado a cada interação, gerando uma sequência de estimativas 𝜂𝑘 e só termina quando uma solução satisfatória é encontrada (ALMEIDA, 2007). Todos os algoritmos GC iniciam a busca no sentido da descida do gradiente na primeira iteração, exemplificado na Equação 5 (ALMEIDA, 2007). 𝑃0 = −𝑔0 (5) Após este processo, a busca em linha é realizada para determinar o parâmetro da taxa de aprendizado (𝜂) para se mover no sentido atual na direção de busca. Os pesos, 𝑤𝑘 são então atualizados de acordo com a Equação 6. 𝑤𝑘+1 = 𝑤𝑘 + 𝜂𝑘𝑃𝑘 (6) Então, a próxima direção de busca é determinada de modo que os sentidos das buscas anteriores sejam conjugados. O procedimento geral para determinar o novo sentido da busca deve combinar o sentido da descida mais íngreme com o sentido precedente da busca, conforme exibido na Equação 7. 𝑃𝑘 = −𝑔0 + 𝛽𝑘𝑃𝑘−1 (7) As versões dos algoritmos de GC são distinguidas pela maneira como a constante 𝛽𝑘 é calculada. No gradiente conjugado escalonado (SCG), a pesquisa de linha em cada etapa da iteração não é necessária como outras funções de treinamento conjugado, pois este algoritmo combina a abordagem do Levenberg- Marquardt com o GC, utilizando uma aproximação do cálculo da matriz Hessiana que deve ser definida positivamente. Esse mecanismo torna o algoritmo mais rápido do que qualquer outro algoritmo de segunda ordem. A função trainscg requer mais iteração para convergir do que os outros algoritmos de gradiente conjugado, mas o número de cálculos em cada iteração é significativamente reduzido porque nenhuma pesquisa de linha é realizada. Também no SCG existem dois parâmetros que necessitam ser definidos para o funcionamento do algoritmo. O parêmetro 𝜎𝑘 que é uma ponderação para o cálculo da aproximação de segunda ordem e o parâmetro 𝜆𝑘 que ajuda a regular a falta de definição da matriz hessiana. Desta forma, é necessário definir estes 22 parâmetros de acordo com o domínio do problema para que a convergência seja mais rápida e encontre bons resultados (ALMEIDA, 2007). 3.3 Florestas Aleatórias (Random Forest) O classificador de floresta aleatória se assemelha ao bagging, pois considera-se diferentes amostras bootstrap para cada árvore de classificação. Segundo Efron and Tibshirani (1993) o bootstrap é uma estimativa de distribuição obtida da distribuição amostral da estatística de interesse. De acordo com Morais (2010), A diferença crucial entre bagging e bootstrap se deve à seleção aleatória das variáveis preditoras para o CART. Isto implica que a esperança da média das B árvores é a mesma que a esperança de cada uma delas, ou seja, o viés do modelo de árvores agregadas será equivalente ao observado em cada árvore. Sendo assim, o modelo de floresta aleatória visa manter o baixo viés de cada classificador individual, à medida que reduz a variância. A diferença entre o Bagging e a Floresta Aleatória pode ser observada do ponto de vista da variância. Considerando, por exemplo, B variáveis aleatórias identicamente distribuídas com variância σ2 e correlação ρ para cada par (Hastie, Tibshirani e Friedman, 2009, p. 588 apud Morais, 2010), a variância da média é expressa pela Equação 8. 𝜌𝜎2 + 1 − 𝜌 𝐵 𝜎2 (8) Para aumentar a redução da variância, a floresta aleatória gera árvores mais independentes entre si, reduzindo a correlação entre elas. O procedimento de randomização das variáveis preditoras cria um novo parâmetro a ser considerado, o número de características utilizadas em cada iteração (MORAIS, 2010). A probabilidade de predição (p) é calculada de acordo com a Equação 9. 𝑝 = 1 𝐵 ∑ 𝑝𝑖 𝐵 𝑗=1 (9) Pela lei forte dos grandes números, à medida que o número de árvores aumenta, isto é, B →∞, o erro de generalização converge quase certamente para a Equação 10 (Breiman, 2001 apud Morais, 2010). 23 𝑃𝑋,𝑌(𝑀(𝑋, 𝑌) ≤ 0), (10) Dado a Equação 11 𝑚(𝑋, 𝑌) = 𝑃𝜃(𝑓(𝑋, 𝜃) = 𝑌) − 𝑚𝑎𝑥𝑃𝜃(𝑓(𝑋, 𝜃) = 𝑘) (11) o termo m(X, Y) expressa a função marginal, à qual, mensura pela média do número de votos, o quanto a classificação correta excede a média do número de votos de qualquer outra classificação. A letra Θ representa o conjunto dos vetores aleatórios independentemente distribuídos. Esse resultado mostra que à medida que se aumenta o número de árvores, o erro de generalização converge para um limite (MORAIS, 2010). No modelo Random Forest parte do conjunto de dados original não está incluído no conjunto de dados inicializado. Este conjunto de dados de amostra que não inclui o conjunto de dados inicializado é chamado Out-Of-Bag (OOB). O conjunto de dados Out-Of-Bag é usado para verificar a precisão do modelo, uma vez que o modelo não foi criado usando esses dados e a verificação do erro deste conjunto fornece uma boa compreensão se o modelo é eficaz ou não (ICHI.PRO, 2018). Além de fornecer uma estimativa para a precisão do modelo, os dados OOB podem ser usados para o cálculo de importância de variáveis e proximidade de observações. A medida de importância é de grande utilidade na presença de muitas variáveis preditoras. A importância da variável é dada pelo índice de Gini que captura a sensibilidade do modelo para cada preditor, quanto mais sensível, mais importante será a variável para o desempenho do modelo (MORAIS, 2010). Já as proximidades são expressas em uma matriz de dimensão n×n. A medida de proximidade considera a similaridade juntamente com a importância de cada variável. A proximidade varia entre 0, ou seja, ambas variáveis não foram classificadas nenhuma vez na mesma região, e 1, ou seja, ambas variáveis sempre foram classificadas na mesma região (Breiman, 2001 apud Morais, 2010). Dada a matriz de proximidades é definido a medida de discrepância pela Equação 12 (Breiman, 3003 apud Morais, 2010): 24 𝐷𝑖𝑠 0 = 𝑛𝑠 ∑ 𝐼(𝑦 = 𝑠) × 𝑝𝑟𝑜𝑥(𝑥𝑖,𝑥𝑗)2𝑛 𝑖𝑗 (12) onde i = 1, 2, 3....n. Também 𝑛𝑠 é o número de observações pertencentes à categoria s e 𝑝𝑟𝑜𝑥 (𝑥𝑖,𝑥𝑗). Em seguida, é definida a discrepância padronizada, de acordo com a Equação 13. 𝐷𝑖𝑠 = 𝐷𝑖𝑠 0 − 𝑚𝑠 𝑀𝐴𝐷 ∗ (𝐷𝑖𝑠 0 ) (13) onde i = 1, 2, . . . , n e ms corresponde à mediana de 𝐷𝑖𝑠 0 e MAD∗ 𝐷𝑖𝑠 0 é o desvio absoluto mediano (median absolute deviation - MAD, em inglês), multiplicado pela constante 1,4826 para que seja estimador consistente da variância. Recomenda-se, a princípio, que valores acima de 10 de discrepância sejam considerados como discrepantes, mas dependendo de cada caso, esse valor de corte pode variar (Breiman, 3003 apud Morais, 2010). A Figura 7 exibe um modelo do algoritmo de Florestas Aleatórias. Figura 7: Modelo do algoritmo de Florestas Aleatórias Fonte: MORAIS, 2010 25 4. RESULTADOS E DISCUSSÕES 4.1 Estimando viscosidade, densidade e teor de sólidos para as tintas A partir de dados experimentais da literatura publicados por Oshiro (2019) referentes aos 1798 valores dos espectros de infravermelho para cada uma das 40 amostras de tinta (preta ou branca), preparou-se uma matriz de dados de entrada a ser utilizado na RNA. Com estes valores foi possível prever um valor de viscosidade, densidade e % de sólidos de cada amostra e estes dados foram usados para montar três matrizes de saída desejada para cada parâmetro analisado separadamente. Estas matrizes de entrada 1798x40 e saída 1x40 foram montadas para as tintas pretas e brancas e montou-se também, três matrizes de saída 1x80 considerando as duas tintas juntas, uma para cada variável estimada pelas RNAs. Nos resultados apresentados trataremos do coeficiente de correlação de Pearson (r), que é um dado estatístico que mede as relações entre variáveis. Este coeficiente varia entre -1 e 1, assim, quando se aproxima de 1 é porque existe uma relação linear positiva, ou seja, se uma variável aumenta, a outra também aumenta. Quando se aproxima de 0 é porque não há relação alguma e quando se aproxima de -1 é porque existe uma relação linear negativa, ou seja, quando uma variável aumenta, a outra diminui (OLIVEIRA, 2019). Além disso, todos os resultados também abordam o erro percentual, que é calculado de acordo com a Equação 14. 𝑒𝑟𝑟𝑜 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙 = |𝑣𝑎𝑙𝑜𝑟 𝑟𝑒𝑎𝑙 − 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑡𝑖𝑑𝑜 𝑝𝑒𝑙𝑎 𝑅𝑁𝐴| |𝑣𝑎𝑙𝑜𝑟 𝑟𝑒𝑎𝑙| 𝑥 100 (14) Para implementação da Rede Neural Artificial utilizou o software Matlab com a ferramenta nnstart – fitting app e o algoritmo de gradiente conjugado escalonado (trainscg) para as três características da tinta. Para melhor entendimento, os resultados serão subdivididos para as tintas pretas, as tintas brancas e as duas tintas juntas. 4.1.1 Tintas pretas Para as tintas pretas havia 40 amostras, das quais 28 foram usadas para treinamento, 6 para validação e 6 para teste. Analisando primeiramente a 26 viscosidade, o modelo neural que forneceu o melhor resultado teve 32 neurônios na camada intermediária e 30 épocas foram realizadas. A Tabela 1 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar na Figura 8, a linha de tendência central entre os valores de viscosidade reais das tintas pretas e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,70) e a equação da reta. O erro percentual médio foi calculado realizando a média dos erros percentuais apresentados e para este conjunto foi de aproximadamente 23%. Tabela 1: Dados do conjunto de teste da viscosidade da tinta preta TESTE amostra estimado real erro percentual 5 140,7654 89,6 57,10 15 109,4825 124 11,71 23 196,2572 253 22,43 24 96,49696 133,6 27,77 35 143,2893 141,8 1,05 37 164,6071 139,6 17,91 Fonte: Autor, 2020 Figura 8: Valores de viscosidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 y = 1,0638x - 3,9245 r = 0,70 0 50 100 150 200 250 300 0 50 100 150 200 250 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade 27 O mesmo foi feito para os conjuntos de treinamento e validação cujo coeficiente de correlação deram r = 0,71 e r = 0,89 e o erro percentual médio destes conjuntos foi de aproximadamente 29% e 51%, respectivamente. A Figura 9 exibe a linha de tendência de ambos. Figura 9: Valores de viscosidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Para a segunda característica analisada, a densidade, a melhor RNA obtida conteve 16 neurônios na camada intermediária e 22 épocas foram realizadas. A Tabela 2 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar na Figura 10, a linha de tendência central entre os valores de densidade reais das tintas pretas e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,79) e a equação da reta. O erro percentual médio deste conjunto foi de aproximadamente 0,7%. Tabela 2: Dados do conjunto de teste da densidade da tinta preta TESTE amostra estimado real erro percentual 5 0,954927 0,94792 0,74 13 0,960348 0,95054 1,03 15 0,964451 0,9526 1,24 Validação y = 1,3229x - 92,644 r = 0,89 Treinamento y = 0,967x + 12,749 r = 0,71 0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade Validação Treinamento Linear (Validação) Linear (Treinamento) 28 35 0,960359 0,96186 0,16 37 0,960601 0,95397 0,70 39 0,969314 0,97397 0,48 Fonte: Autor, 2020 Figura 10: Valores de densidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo foi feito para os conjuntos de treinamento e validação da densidade, cujo coeficiente de correlação deram r=0,64 e r=0,54, respectivamente, enquanto o erro percentual médio foi de aproximadamente 1% para ambos os conjuntos. A Figura 11 exibe as linhas de tendência. Figura 11: Valores de densidade das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 y = 0,3967x + 0,5821 r = 0,79 0,954 0,956 0,958 0,96 0,962 0,964 0,966 0,968 0,97 0,972 0,945 0,95 0,955 0,96 0,965 0,97 0,975 0,98 V al o re s e st im ad o s p e la R N A Valores reais de densidade Treinamento y = 0,3303x + 0,6439 r = 0,64Validação y = 0,2192x + 0,7495 r = 0,54 0,95 0,955 0,96 0,965 0,97 0,975 0,98 0,93 0,94 0,95 0,96 0,97 0,98 0,99 V al o re s e st im ad o s p e la R N A Valores reais de densidade Treinamento Validação Linear (Treinamento) Linear (Validação) 29 Por último, a RNA de melhor desempenho obtida para avaliar os valores de % de sólidos contou com 13 neurônios na camada intermediária e 30 épocas foram realizadas. A Tabela 3 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar a linha de tendência central entre os valores de % de sólidos reais das tintas pretas e aqueles obtidos no conjunto de teste da Rede Neural, assim como seu respectivo coeficiente de correlação (r = 0,74) e a equação da reta estão disponíveis na Figura 12. O erro percentual médio deste conjunto foi de aproximadamente 4%. Tabela 3: Dados do conjunto de teste da % de sólidos da tinta preta TESTE amostra estimado real erro percentual 1 32,4544 33,392 2,81 10 30,16092 30,893 2,37 15 31,91008 30,035 6,24 16 30,54523 31,059 1,65 27 29,86779 28,688 4,11 40 32,16446 34,541 6,88 Fonte: Autor, 2020 Figura 12: Valores de % de sólidos das tintas pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 y = 1,4191x - 12,817 r = 0,74 24 26 28 30 32 34 36 29,5 30 30,5 31 31,5 32 32,5 33 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos 30 O mesmo gráfico foi feito para os conjuntos de treinamento e validação da % de sólidos, cujo coeficiente de correlação deram r = 0,69 e r = 0,91 e o erro percentual médio deste conjunto foi de aproximadamente 5% e 4%, respectivamente. A Figura 13 exibe a linha de tendência de ambos os conjuntos. Figura 13: Valores de % de sólidos das tintas pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Os resultados das estimativas de viscosidade, densidade e % de sólidos para as tintas pretas foram bons. Percebe-se que o parâmetro da viscosidade apresenta altos erros, de 29%, 51% e 23% para treinamento, validação e teste respectivamente. Isto se deve ao fato de os valores variarem muito de uma amostra para a outra, dificultando a padronização pela rede neural. 4.1.2 Tintas brancas Também se contou com 40 amostras de tintas brancas, das quais 28 foram usadas para treinamento, 6 para validação e 6 para teste. Analisando primeiramente a viscosidade, o modelo neural que forneceu o melhor resultado teve 7 neurônios na camada intermediária e 23 épocas foram realizadas. A Tabela 4 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar a linha de tendência central entre os valores de viscosidade reais das tintas brancas e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,99) e a equação da Treinamento y = 1,2049x - 6,445 r = 0,69 Validação y = 1,784x - 24,38 r = 0,91 22 24 26 28 30 32 34 36 28 29 30 31 32 33 34 35 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos Treinamento Validação Linear (Treinamento) Linear (Validação) 31 reta, exibidos na Figura 14. O erro percentual médio deste conjunto amostral é de aproximadamente 7%. Tabela 4: Dados do conjunto de teste da viscosidade da tinta branca TESTE amostra estimado real erro percentual 6 177,40 163,3 8,63 9 166,63 163,7 1,79 17 193,56 189,5 2,14 20 300,22 335,0 10,38 24 295,66 295,1 0,19 38 94,85 81,5 16,38 Fonte: Autor, 2020 Figura 14: Valores de viscosidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo foi feito para os conjuntos de treinamento e validação cujo coeficiente de correlação deram r = 0,91 e r = 0,99 e o erro percentual médio foi de aproximadamente 10% e 9%, respectivamente. A Figura 15 exibe a linha de tendência de ambos os conjuntos. y = 0,8432x + 32,125 r = 0,99 0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 400 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade 32 Figura 15: Valores de viscosidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Para a segunda característica analisada, a densidade, a melhor RNA obtida apresentou 12 neurônios na camada intermediária e realizou 70 épocas. A Tabela 5 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar a linha de tendência central entre os valores de densidade reais das tintas brancas e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,98) e a equação da reta, que estão representados na Figura 16. O erro percentual médio deste conjunto amostral é de aproximadamente 0,7%. Tabela 5: Dados do conjunto de teste da densidade da tinta branca TESTE amostra estimado real erro percentual 10 1,229187 1,2386 0,76 12 1,092356 1,0913 0,10 25 1,199554 1,1842 1,30 26 1,227728 1,218 0,80 32 1,176834 1,1864 0,81 40 1,110084 1,1041 0,54 Fonte: Autor, 2020 Validação y = 0,8744x + 27,027 r = 0,99Treinamento y = 0,8408x + 33,837 r = 0,91 0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade Validação Treinamento Linear (Validação) Linear (Treinamento) 33 Figura 16: Valores de densidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo foi feito para os conjuntos de treinamento e validação da densidade, cujo coeficiente de correlação foi de r = 0,99 para ambos, enquanto o erro percentual médio foi de aproximadamente 0,2% e 0,8% para os dois conjuntos, respectivamente. A Figura 17 exibe a linha de tendência de ambos os conjuntos. Figura 17: Valores de densidade das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Por último, a RNA de melhor desempenho obtida para avaliar os valores de % de sólidos contou com 8 neurônios na camada intermediária e realizou 18 épocas. y = 0,9667x + 0,0412 r = 0,98 1,08 1,1 1,12 1,14 1,16 1,18 1,2 1,22 1,24 1,26 1,08 1,1 1,12 1,14 1,16 1,18 1,2 1,22 1,24 1,26 V al o re s e st im ad o s p e la R N A Valores reais de densidade Validação y = 0,9549x + 0,0535 r = 0,99 Treinamento y = 1,0061x - 0,0073 r = 0,99 1 1,05 1,1 1,15 1,2 1,25 1,3 1 1,05 1,1 1,15 1,2 1,25 V al o e re s e st im ad o s p e la R N A Valores reais de densidade Validação Treinamento Linear (Validação) Linear (Treinamento) 34 A Tabela 6 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar, na Figura 18, a linha de tendência central entre os valores de % de sólidos reais das tintas brancas e aqueles obtidos no conjunto de teste da Rede Neural, assim como seu respectivo coeficiente de correlação (r = 0,99) e a equação da reta. O erro percentual médio deste conjunto foi de aproximadamente 4%. Tabela 6: Dados do conjunto de teste da % de sólidos da tinta branca TESTE amostra estimado real erro percentual 5 40,08631 38,247 4,81 6 54,05748 52,516 2,94 15 54,88056 53,858 1,90 25 53,55529 51,068 4,87 26 55,21943 52,98 4,23 40 43,88127 41,754 5,09 Fonte: Autor, 2020 Figura 18: Valores de % de sólidos das tintas brancas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo gráfico foi feito para os conjuntos de treinamento e validação do teor de sólidos, cujo coeficiente de correlação deram r = 0,94 e r = 0,95 e o erro y = 0,9818x + 2,7561 r = 0,99 40 42 44 46 48 50 52 54 56 58 35 40 45 50 55 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos 35 percentual médio foi de 2% e 4% para os dois conjuntos, respectivamente. A Figura 19 exibe a linha de tendência de ambos. Figura 19: Valores de % de sólidos das tintas brancas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Os coeficientes de correlação encontrado para os conjuntos de treinamento, validação e teste para análise das três características da tinta branca utilizando o algoritmo SCG foram muito bons, aproximando-se de 1 e indicando a eficiência das redes neurais para esse tipo de problema. 4.1.3 Tintas pretas e brancas juntas Montou-se também uma matriz de saída incluindo as duas tintas juntas, branca e preta. Treinando para os valores de viscosidade de ambas as tintas, a melhor RNA obtida apresentou com 31 neurônios na camada intermediária, onde 56 das 80 amostras foram utilizadas para treinamento,12 para validação e 12 para teste e realizou 40 épocas. A Tabela 7 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar, na Figura 20, a linha de tendência central entre os valores de viscosidade reais das tintas pretas e brancas, e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,67) e a equação da reta. O erro percentual médio para esse conjunto amostral foi de aproximadamente 30%. Validação y = 0,8792x + 6,9153 r = 0,95 Treinamento y = 0,8771x + 6,2783 r = 0,94 40 42 44 46 48 50 52 54 56 58 40 45 50 55 60 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos Validação Treinamento Linear (Validação) Linear (Treinamento) 36 Tabela 7: Dados do conjunto de teste da viscosidade das tintas brancas e pretas TESTE amostra estimado real erro percentual 13 99,091 113,6 12,77 19 205,705 335,4 38,67 24 151,984 133,6 13,76 25 162,143 134,8 20,28 26 180,721 95,3 89,63 37 169,080 139,6 21,12 40 184,811 287,2 35,65 42 154,669 112,8 37,12 45 123,306 134,0 7,98 47 157,439 165,8 5,04 79 58,253 82,4 29,30 80 33,815 66,0 48,76 Fonte: Autor, 2020 Figura 20: Valores de viscosidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo foi feito para os conjuntos de treinamento e validação cujo coeficiente de correlação deram r = 0,74 e r = 0,85, e erro percentual médio foi de y = 0,4355x + 74,741 r = 0,67 0 50 100 150 200 250 0 50 100 150 200 250 300 350 400 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade 37 amostral foi de aproximadamente 26% e 20%, nesta ordem. A Figura 21 exibe a linha de tendência de ambos os conjuntos. Figura 21: Valores de viscosidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Para a segunda característica analisada, a densidade, a melhor RNA obtida apresentou 12 neurônios na camada intermediária e realizou 24 épocas. A Tabela 8 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar, na Figura 22, a linha de tendência central entre os valores de densidade reais das tintas pretas e brancas, e aqueles obtidos no conjunto de teste da Rede Neural, também seu respectivo coeficiente de correlação (r = 0,93) e a equação da reta. O erro percentual médio para esse conjunto amostral foi de aproximadamente 2%. Tabela 8: Dados do conjunto de teste da densidade das tintas brancas e pretas TESTE amostra estimado real erro percentual 2 0,97004 0,9690 0,11 3 0,99007 0,9498 4,23 9 0,94942 0,9530 0,37 10 0,94504 0,9553 1,08 12 0,95485 0,9614 0,69 15 0,96539 0,9526 1,34 20 0,94898 0,9757 2,74 Validação y = 0,6646x + 62,896 r = 0,85 Treinamento y = 0,5226x + 89,506 r = 0,74 0 50 100 150 200 250 300 350 0 100 200 300 400 V al o re s e st im ad o s p e la R N A Valores reais de viscosidade Validação Treinamento Linear (Validação) Linear (Treinamento) 38 21 0,95033 0,9730 2,33 40 0,95332 0,9757 2,29 44 1,07334 1,0168 5,56 45 1,07489 1,0206 5,32 69 1,19150 1,1926 0,09 Fonte: Autor, 2020 Figura 22: Valores de densidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo foi feito para os conjuntos de treinamento e validação da densidade, cujo coeficiente de correlação foi de r = 0,99 para ambos com erro percentual médio de 1% para ambos os conjuntos também. A Figura 23 exibe as respectivas linhas de tendência. y = 0,8158x + 0,1778 r = 0,8566 0,8 0,85 0,9 0,95 1 1,05 1,1 1,15 1,2 1,25 0,8 0,9 1 1,1 1,2 1,3 V al o re s e st im ad o s p e la R N A Valores reais de densidade 39 Figura 23: Valores de densidade das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Por último, a RNA de melhor desempenho obtida para avaliar os valores de % de sólidos contou com 14 neurônios na camada intermediária e 35 épocas foram realizadas. A Tabela 9 exibe quais amostras foram usadas para o teste e com seus dados foi possível verificar, na Figura 24, a linha de tendência central entre os valores de % de sólidos reais das tintas pretas e brancas e aqueles obtidos no conjunto de teste da Rede Neural, assim como seu respectivo coeficiente de correlação (r = 0,99) e a equação da reta. O erro percentual médio para esse conjunto amostral foi de aproximadamente 4%. Tabela 9: Dados do conjunto de teste da RNA da % de sólidos das tintas brancas e pretas TESTE amostra estimado real erro percentual 8 29,76669 25,892 14,96 12 30,70551 31,992 4,02 14 29,72183 29,807 0,29 28 31,05402 28,205 10,10 30 31,89422 33,885 5,88 47 40,54721 39,648 2,27 53 53,43372 55,285 3,35 Validação y = 0,9161x + 0,0998 r = 0,99 Treinamento y = 0,9731x + 0,0272 r = 0,99 0,8 0,85 0,9 0,95 1 1,05 1,1 1,15 1,2 1,25 1,3 0,8 0,9 1 1,1 1,2 1,3 V al o re s e st im ad o s p e la R N A Valores reais de densidade Validação Treinamento Linear (Validação) 40 54 47,79145 47,793 0,00 59 51,33883 52,329 1,89 60 51,97484 53,673 3,16 63 53,56202 51,815 3,37 68 52,89735 55,563 4,80 Fonte: Autor, 2020 Figura 24: Valores de % de sólidos das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de teste Fonte: Autor, 2020 O mesmo gráfico foi feito para os conjuntos de treinamento e validação de teor de sólidos, cujo coeficiente de correlação foi de r = 0,98 e r = 0,99, respectivamente, com erro percentual médio de 4% para ambos os conjuntos. A Figura 25 exibe as respectivas linhas de tendência. y = 1,0799x - 3,2616 r = 0,99 0 10 20 30 40 50 60 0 10 20 30 40 50 60 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos 41 Figura 25: Valores de % de sólidos das tintas brancas e pretas estimado pela RNA versus valores reais para o conjunto de treinamento e validação Fonte: Autor, 2020 Os coeficientes de correlação encontrado para os conjuntos de treinamento, validação e teste para análise das três características das tintas brancas e pretas juntas, utilizando o algoritmo SCG foram muito bons, aproximando-se de 1 e indicando a eficiência das redes neurais. 4.2 Classificando as tintas em pretas e brancas Para realizar a classificação das tintas de acordo com suas cores foram usados dois métodos diferentes, as Redes Neurais Artificiais (RNAs) e as Florestas Aleatórias. Para melhor compreensão os resultados serão divididos de acordo com cada metodologia. 4.2.1 Resultado usando RNA Para a matriz de entrada da RNA usou as três características juntas: densidade, viscosidade e teor de sólidos das 40 amostras de tinta preta e 40 amostras de tinta branca, formando uma matriz 3x80. Já para a saída montou-se uma matriz 2x80 em que, para as amostras brancas a resposta esperada era do tipo 1 0 e para as amostras pretas, 0 1. Com tais matrizes, foi possível classificar cada amostra. Para implementação da Rede Neural Artificial utilizou o software Matlab com a ferramenta nnstart – pattern recognition app e o algoritmo do gradiente conjugado Validação y = 0,941x + 1,5589 r = 0,99 Treinamento y = 0,9718x + 1,0928 r = 0,98 0 10 20 30 40 50 60 0 10 20 30 40 50 60 V al o re s e st im ad o s p e la R N A Valores reais de % de sólidos Validação Treinamento Linear (Validação) Linear (Treinamento) 42 escalonado (trainscg). A melhor RNA contou com 9 neurônios na camada intermediária e 56 das 80 amostras foram utilizadas para treinamento, 12 para validação e 12 para teste, ou seja, a divisão foi do tipo 70%-15%-15%. A Figura 26 exibe a performance pelo número de épocas. A melhor performance ocorreu na 23ª época, com erro de entropia cruzada na validação de 7,72e-7. Figura 26: Performance pelo número de épocas Fonte: Autor, 2021 A Tabela 10 exibe quais amostras foram usadas para o treinamento, bem como a resposta estimada pela rede neural e a resposta esperada do problema, sendo possível classificar a tinta entre branca ou preta de acordo com o resultado obtido. Tabela 10: Respostas obtidas e esperadas pela RNA para o conjunto de treinamento TREINAMENTO amostra estimado pela RNA classificação obtida pela RNA esperado classificação esperada 2 1 0,5 branca 1 0 branca 5 1 0,5 branca 1 0 branca 6 1 0,5 branca 1 0 branca 7 1 0,5 branca 1 0 branca 8 1 0,5 branca 1 0 branca 10 1 0,5 branca 1 0 branca 11 1 0,5 branca 1 0 branca 43 12 1 0,5 branca 1 0 branca 13 1 0,5 branca 1 0 branca 14 1 0,5 branca 1 0 branca 15 1 0,5 branca 1 0 branca 16 1 0,5 branca 1 0 branca 17 1 0,5 branca 1 0 branca 19 1 0,5 branca 1 0 branca 23 1 0,5 branca 1 0 branca 24 1 0,5 branca 1 0 branca 25 1 0,5 branca 1 0 branca 26 1 0,5 branca 1 0 branca 27 1 0,5 branca 1 0 branca 29 1 0,5 branca 1 0 branca 30 1 0,5 branca 1 0 branca 31 1 0,5 branca 1 0 branca 33 1 0,5 branca 1 0 branca 36 1 0,5 branca 1 0 branca 37 1 0,5 branca 1 0 branca 38 1 0,5 branca 1 0 branca 39 1 0,5 branca 1 0 branca 41 0,5 1 preta 0 1 preta 42 0,5 1 preta 0 1 preta 44 0,5 1 preta 0 1 preta 45 0,5 1 preta 0 1 preta 48 0,5 1 preta 0 1 preta 49 0,5 1 preta 0 1 preta 50 0,5 1 preta 0 1 preta 52 0,5 1 preta 0 1 preta 53 0,5 1 preta 0 1 preta 54 0,5 1 preta 0 1 preta 56 0,5 1 preta 0 1 preta 57 0,5 1 preta 0 1 preta 58 0,5 1 preta 0 1 preta 44 59 0,5 1 preta 0 1 preta 60 0,5 1 preta 0 1 preta 61 0,5 1 preta 0 1 preta 62 0,5 1 preta 0 1 preta 63 0,5 1 preta 0 1 preta 64 0,5 1 preta 0 1 preta 68 0,5 1 preta 0 1 preta 69 0,5 1 preta 0 1 preta 70 0,5 1 preta 0 1 preta 72 0,5 1 preta 0 1 preta 74 0,5 1 preta 0 1 preta 75 0,5 1 preta 0 1 preta 77 0,5 1 preta 0 1 preta 78 0,5 1 preta 0 1 preta 79 0,5 1 preta 0 1 preta 80 0,5 1 preta 0 1 preta Fonte: Autor, 2021 A Tabela 11 exibe quais amostras foram usadas para a validação, bem como a resposta estimada pela rede neural e a resposta esperada do problema, sendo possível classificar as amostras entre tinta branca ou preta de acordo com o resultado obtido. Tabela 11: Respostas obtidas e esperadas pela RNA para o conjunto de validação VALIDAÇÃO amostra estimado pela RNA classificação obtida pela RNA esperado classificação esperada 1 1 0,5 branca 1 0 branca 4 1 0,5 branca 1 0 branca 22 1 0,5 branca 1 0 branca 28 1 0,5 branca 1 0 branca 32 1 0,5 branca 1 0 branca 40 1 0,5 branca 1 0 branca 47 0,5 1 preta 0 1 preta 45 65 0,5 1 preta 0 1 preta 66 0,5 1 preta 0 1 preta 67 0,5 1 preta 0 1 preta 73 0,5 1 preta 0 1 preta 76 0,5 1 preta 0 1 preta Fonte: Autor, 2021 Por fim, apresenta-se a Tabela 12 cujos valores apresentados consistem na resposta estimada pela rede neural e a resposta esperada do problema para o conjunto de teste, sendo possível classificar as amostras entre tinta branca ou preta de acordo com o resultado obtido. Tabela 12: Respostas obtidas e esperadas pela RNA para o conjunto de teste TESTE amostra estimado pela RNA classificação obtida pela RNA esperado classificação esperada 3 1 0,5 branca 1 0 branca 9 1 0,5 branca 1 0 branca 18 1 0,5 branca 1 0 branca 20 1 0,5 branca 1 0 branca 21 1 0,5 branca 1 0 branca 34 1 0,5 branca 1 0 branca 35 1 0,5 branca 1 0 branca 43 0,5 1 preta 0 1 preta 46 0,5 1 preta 0 1 preta 51 0,5 1 preta 0 1 preta 55 0,5 1 preta 0 1 preta 71 0,5 1 preta 0 1 preta Fonte: Autor, 2021 Percebe-se que todas as amostras foram corretamente classificadas. Isso também pode ser verificado na Figura 27, que exibe a matriz de confusão para os conjuntos de treinamento, validação e teste, além de todas as amostras juntas. Neste caso ‘classe 1’ representa a tinta branca e ‘classe 2’ representa a tinta preta. 46 Figura 27: Matriz de confusão para os conjuntos de treinamento, validação e teste, assim como todas as amostras juntas Fonte: Autor, 2021 Nota-se que, do treinamento, as 27 amostras brancas (classe 1) foram corretamente classificadas e as 29 amostras pretas (classe 2) também foram corretamente classificadas. O mesmo acontece para as matrizes de validação e teste. No caso, 100% das amostras foram classificadas e o erro obtido foi de 0%. Foi possível também obter o gráfico da curva característica de operação do receptor (ROC) para a classe das tintas. Conforme indicado pela Figura 28, a RNA obteve um ótimo desempenho na classificação de ambas as classes (tinta branca e preta), devido aos valores da área abaixo da curva serem iguais a 1, o que acontece para os três conjuntos: treinamento, validação e teste. 47 Figura 28: Curva de Característica de Operação do Receptor para classe das tintas brancas (1) e pretas (2) Fonte: Autor, 2021 4.2.2 Resultado usando Florestas Aleatórias Utilizando o software Excel e os dados experimentais da literatura publicados por Oshiro19 referentes aos valores das três características juntas: densidade, viscosidade e teor de sólidos das 40 amostras de tinta preta e 40 amostras de tinta branca, montou-se uma tabela com três colunas referentes a estas características e mais uma quarta coluna que respondia a seguinte pergunta ‘A tinta é preta?’. Se a tinta fosse realmente preta a quarta coluna era preenchida com ‘sim’ caso a tinta fosse branca, era preenchida com ‘não’. Esta tabela foi utilizada para realizar a classificação utilizando Florestas Aleatórias. 48 Para implementação do Random Forest utilizou o software R com as bibliotecas ‘readxl’, usada para ler o arquivo proveniente do Excel, ‘caret’, para separar as bases de treinamento e teste e ‘randomForest’, o algoritmo utilizado. Foram consideradas 100 árvores de decisão, no qual, para cada, foram escolhidas duas das três características para serem mostradas (mtry = 2). Além disso, a proporção utilizada foi do tipo 80%-20%, em que 64 amostras foram utilizadas para treinamento e 16 para teste. A Tabela 13 exibe a matriz de confusão OOB que, conforme já mencionado, é utilizada para medir a precisão de uma floresta aleatória. O erro estimado desta matriz foi de 0%, ou seja, todas as 64 amostras foram corretamente classificadas, sendo 32 corretamente classificadas como ‘sim’ que representa a tinta preta e 32 classificadas como ‘não’ que representa a tinta branca. Tabela 13: Matriz de confusão OOB para o modelo de árvores aleatórias Sim Não Erro de classificação Sim 32 0 0 Não 0 32 0 Fonte: Autor, 2021 Já a Tabela 14 exibe a matriz de confusão para o conjunto de teste. O erro estimado desta matriz também foi de 0%, ou seja, todas as 16 amostras foram corretamente classificadas, sendo 8 corretamente classificadas como ‘sim’ que representa a tinta preta e as outras 8 classificadas como ‘não’ que representa a tinta branca. Tabela 14: Matriz de confusão do conjunto de teste para o modelo de árvores aleatórias Sim Não Erro de classificação Sim 8 0 0 Não 0 8 0 Fonte: Autor, 2021 49 A Figura 29 representa o erro das amostras OOB juntamente com as amostras utilizadas no teste pelo número de árvores. Conforme nota-se, para todas as amostras utilizadas não houve erro independentemente do número de árvores aplicadas. Figura 29: Erro das amostras OOB e de teste por Número de Árvores Fonte: Autor, 2021 Também é possível plotar um gráfico da variável de importância de acordo com sua contribuição para o índice de Gini para as três características usadas: viscosidade, teor de sólidos e densidade. A Figura 30 exibe este gráfico, evidenciando quais as melhores características para realizar a classificação. É possível notar que a densidade e o teor de sólidos apresentam uma alta contribuição, ou seja, são características importantes para realizar a predição, entretanto também se nota que a viscosidade apresenta uma contribuição igual a zero, neste caso essa variável não está atingindo os critérios mínimos para ser um preditor significativo (é a pior característica para separar as amostras) e está sendo automaticamente removida pelo modelo. Isso vai de encontro com a dificuldade que a viscosidade causou na estimativa de parâmetros utilizando RNAs, isso porque os valores variam muito entre si, mas entre uma amostra e outra eles praticamente não se diferenciam, dificultando tanto a estimativa quando a classificação usando este critério. 50 Figura 30: Gráfico de pontos da importância de uma variável, medido por uma floresta aleatória Fonte: Autor, 2021 51 5. CONCLUSÃO Os resultados das RNAs criadas para o problema de estimativa dos parâmetros das tintas gráficas foram satisfatórios. Para o caso das tintas brancas e e pretas separadas e juntas, as RNAs dos três parâmetros avaliados atingiram valores próximos dos reais. É importante destacar que o parâmetro de viscosidade foi o que apresentou os maiores erros percentuais nos três casos possivelmente devido aos seus valores, tanto para tinta preta quanto para tinta branca, variarem muito de uma amostra para outra, essa observação se deve ao fato de que a viscosidade está relacionada principalmente à composição inorgânica das amostras. Para a classificação das tintas entre preta ou branca, o resultado da RNA criada utilizando as três características: densidade, viscosidade e teor de sólidos foi muito satisfatório, tendo em vista que nenhuma amostra foi incorretamente classificada. Também a implementação das Florestas Aleatórias foi realizada com êxito, uma vez que foi possível implementar este algoritmo utilizando as três características e não houve amostras incorretamente classificadas. Além disso, uma evidência importante foi que pelo resultado das Florestas Aleatórias a viscosidade não se mostrou como uma boa característica para classificar as tintas, isso porque os valores de viscosidade da tinta preta e da branca variam muito entre si, mas não variam significativamente entre uma cor e outra, dificultando a classificação com base neste parâmetro. 52 6. REFERÊNCIAS ABRAFATI. O setor de tintas no Brasil. Disponível em: https://www.abrafati.com.br/o- setorde-tintas-no-brasil/ Acesso em: 12 de Abril de 2022. ALECRIM, Emerson. Machine learning: o que é e por que é tão importante. Tecnoblog, 2018. Disponível em: < https://tecnoblog.net/responde/machine- learning-ia-o-que-e/>. Acesso em: 10 de Abril de 2022 ALMEIDA, Leandro Maciel. Uma metodologia de busca por redes neurais artificiais quase-ótimas. 2007. 114 f. Dissertação (Mestrado) - Curso de Ciência da Computação, Centro de Informática, Universidade Federal de Pernambuco, Recife, 2007. BARRETO, Jorge M. Introdução às Redes Neurais Artificiais. Florianópolis – SC, 2004. Disponível em Acesso em: 11 de Abril de 2022. BRAGA, A. P.; CARVALHO, A. P. L. F.; LUDERMIR, T. B. Redes neurais artificiais: teoria e aplicações. Rio de Janeiro: LTC, 2000. BREIMAN, L. Setting up, using, and understanding random forests V4.0. 2003. Disponível em: Citado na página 23. BRILHADORI, M.; LAURETTO, M.S. Estudo comparativo entre algoritmos de árvores de classificação e máquinas de vetores suporte, baseados em ensembles de classificadores. IX Simpósio Brasileiro de Sistemas de Informação, Universidade Federal da Paraíba, João Pessoa, PB, 2013. CASTRO, Leandro N. de. Análise e Síntese de Estratégias de Aprendizado para Redes Neurais Artificiais.1998. 248f. Dissertação (mestrado) – Curso de engenharia elétrica e de computação Universidade Estadual de Campinas., Campinas, 1998 Capítulo 2. Disponível em Acesso em: 10 de Abril de 2022. COELHO, Matheus. Fundamentos de redes neurais. Laboratório Mobilis, 2017. Disponível em: Acesso em: 10 de Abril de 2022. ELDRED, N. R. What the printer should know about ink. Graphic Arts Technical Foundation, 2001. HAYKIN, Simon. Redes Neurais: princípios e prática: 2 ed. São Paulo: Bookman, 2001. OLIVEIRA, Bruno. Coeficientes de Correlação. Oper Data, 2019. Disponível em: Acesso em: 02 de Agosto de 2022. http://www.decom.ufop.br/imobilis/fundamentos-de-redes-neurais/ 53 O PRIMEIRO MODELO DE UM NEURÔNIO CRIADO POR MCCULLOCH E PITTS. Redes neurais artificiais blogspot, 2010. Disponível em . Acesso em: 10 de Abril de 2022. O QUE É E COMO FUNCIONA O ALGORITMO RANDOMFOREST. Didática Tech, 2020. Disponível em: . Acesso em: 12 de Abril de 2022. OSHIRO, E. H. Proposição de modelos de regressão para revisão de propriedades de tintas da cadeia produtiva da indústria gráfica. Dissertação (de mestrado). Departamento de Química. Universidade Federal de São Carlos, 2019. OSÓRIO, Fernando; BITTENCOURT, João Ricardo. Sistemas Inteligentes baseados em Redes Neurais Artificiais aplicados ao Processamento de Imagens. Porto Alegre – RS, 2000. Disponível em: Acesso em: 11 de Abril de 2022. MINUSSI, Carlos Roberto; LOTUFO Anna Diva Plasencia. Redes Neurais: Introdução e principais conceitos. Ilha Solteira, 2008. Disponível em . Acesso em: 11 de Abril de 2022. MORAIS, Emerson Cordeiro. RECONHECIMENTO DE PADRÕES E REDES NEURAIS ARTIFICIAIS EM PREDIÇÃO DE ESTRUTURAS SECUNDÁRIAS DE PROTEÍNAS. 2010. 148 f. Tese (Doutorado) - Curso de Engenharia de Sistemas e Computação, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2010. NASCIMENTO, Erica Regina Filletti. Desenvolvimento de Modelos Neurais para o Processamento de Sinais Acústicos Visando a Medição de Propriedades Topológicas em Escoamentos Multifásicos. 2007. 144 f. Tese (Doutorado) - Curso de Engenharia Meânica, Universidade de São Paulo, São Carlos, 2007. SILVA, Josenildo Costa da. Aprendendo em uma Floresta Aleatória. Medium, 2018. Disponível em: . Acesso em: 12 de Abril de 2022. VASQUEZ, Mariane. Melhoria do controle do impresso em processos de rotogravura. 2012. 43 f. TCC (Graduação) - Curso de Engenharia Química, Departamento de Engenharia Química, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2012. http://redesneuraisartificiais.blogspot.com/2010/10/o-primeiro-modelo-de-um-neuronio-criado.html https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/ https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/ https://www.researchgate.net/profile/Fernando_Osorio2/publication/228588719_Sistemas_Inteligentes_baseados_em_redes_neurais_artificiais_aplicados_ao_processamento_de_imagens/links/0912f51001cc71ad2b000000/Sistemas-Inteligentes-baseados-em-redes-neurais-artificiais-aplicados-ao-processamento-de-imagens.pdf https://www.researchgate.net/profile/Fernando_Osorio2/publication/228588719_Sistemas_Inteligentes_baseados_em_redes_neurais_artificiais_aplicados_ao_processamento_de_imagens/links/0912f51001cc71ad2b000000/Sistemas-Inteligentes-baseados-em-redes-neurais-artificiais-aplicados-ao-processamento-de-imagens.pdf https://www.researchgate.net/profile/Fernando_Osorio2/publication/228588719_Sistemas_Inteligentes_baseados_em_redes_neurais_artificiais_aplicados_ao_processamento_de_imagens/links/0912f51001cc71ad2b000000/Sistemas-Inteligentes-baseados-em-redes-neurais-artificiais-aplicados-ao-processamento-de-imagens.pdf https://www.researchgate.net/profile/Fernando_Osorio2/publication/228588719_Sistemas_Inteligentes_baseados_em_redes_neurais_artificiais_aplicados_ao_processamento_de_imagens/links/0912f51001cc71ad2b000000/Sistemas-Inteligentes-baseados-em-redes-neurais-artificiais-aplicados-ao-processamento-de-imagens.pdf https://www.feis.unesp.br/Home/departamentos/engenhariaeletrica/pos-graduacao/apostila-redes-neurais-anna-diva_minussi.pdf https://www.feis.unesp.br/Home/departamentos/engenhariaeletrica/pos-graduacao/apostila-redes-neurais-anna-diva_minussi.pdf https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8#:~:text=Por%20%C3%BAltimo%2C%20h%C3%A1%20o%20oob_score,out%20of%20the%20bag%20samples https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8#:~:text=Por%20%C3%BAltimo%2C%20h%C3%A1%20o%20oob_score,out%20of%20the%20bag%20samples https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8#:~:text=Por%20%C3%BAltimo%2C%20h%C3%A1%20o%20oob_score,out%20of%20the%20bag%20samples https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8#:~:text=Por%20%C3%BAltimo%2C%20h%C3%A1%20o%20oob_score,out%20of%20the%20bag%20samples