Wellington Eufrasio Camargo A Construção de Solução de Visualização da Informação para Prestação de Contas e Exploração da Execução Orçamentária Bauru, São Paulo, Brasil Junho 2023 Wellington Eufrasio Camargo A Construção de Solução de Visualização da Informação para Prestação de Contas e Exploração da Execução Orçamentária Dissertação de Mestrado apresentada ao Pro- grama de Pós-Graduação em Ciência da Compu- tação – PPGCC, como parte dos requisitos para a obtenção do título de Mestre em Ciência da Computação. Área de concentração: Computação Aplicada. Linha de pesquisa: Sistemas de Informação. Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Ciências Programa de Pós-Graduação em Ciência da Computação Orientador: Prof. Dr. José Remo Ferreira Brega Bauru, São Paulo, Brasil Junho 2023 C172c Camargo, Wellington Eufrasio A Construção de Solução de Visualização da Informação para Prestação de Contas e Exploração da Execução Orçamentária / Wellington Eufrasio Camargo. -- Bauru, 2023 161 p. : il., tabs., fotos, mapas Dissertação (mestrado) - Universidade Estadual Paulista (Unesp), Faculdade de Ciências, Bauru Orientador: José Remo Ferreira Brega 1. Visualização da informação. 2. Sistemas de informação gerencial. 3. Transparência na administração pública. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Ciências, Bauru. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. Para Olívia... “Nunca estou realmente satisfeita por entender alguma coisa; porque, entenda-o tão bem quanto eu possa, minha compreensão só pode ser uma fração infinitesi- mal de tudo que eu quero entender sobre as muitas conexões e relações que me ocorrem, como o assunto em questão foi pensado ou chegado pela primeira vez, etc., etc.” Ada Lovelace Agradecimentos Primeiro, agradeço à Deus, por me dar a vida, a saúde e a capacidade, sem as quais não seria possível realizar este trabalho. Agradeço especialmente minha esposa Thamires e nossa filha Olívia, por todo amor da vida e por todo suporte familiar oferecido neste jornada acadêmica. Agradeço muito aos companheiros de trabalho, que participaram e apoiaram a realização deste estudo, Luttgardes, Willians, Ariane, Camila, Manoel, Rubens e José Henrique. Agradeço ao meu orientador, Prof. Dr. José Remo Ferreira Brega, por aceitar o desafio de percorrermos esta jornada acadêmica juntos. Igualmente expresso meus agradecimentos aos docentes do Programa de Pós-Graduação em Ciência da Computação e à secretaria do programa, que de alguma forma colaboraram com minha formação. E agradeço à você, por prestigiar este trabalho. Resumo Motivado por um problema real de mineração manual de texto realizada em registros financeiros e contábeis, conduzida para obter-se informações à serem utilizadas na construção de gráficos estáticos em relatórios gerenciais, este trabalho apresenta um estudo de caso sobre a construção e integração de solução de visualização da informação, com objetivo de elucidar a execução orçamentária de uma universidade pública do Estado de São Paulo, transformando a complexa e burocrática prestação de contas em informações visuais e de fácil entendimento. Partindo-se da questão de como a Informática pode contribuir na elucidação de registros públicos contábeis genéricos e pouco informativos, realizou-se o pré-processamento de dados dos registros financeiros e contábeis da universidade, utilizando-se a classificação automática de texto. Desta forma, foi possível atribuir uma finalidade qualitativa ao emprego de recursos públicos, demonstrando- se para que o recurso financeiro está sendo utilizado, atribuindo-se também uma categoria discriminativa, que possibilita eliminar generalizações e estabelecer efetivamente em que o recurso está sendo empregado. A realização deste estudo de caso confirmou a hipótese de que ferramentas de visualização da informação, criadas com informações padronizadas por ferramenta de classificação, são eficazes para transparência pública e são eficientes para elucidação da execução orçamentária. A avaliação da solução de implantada em uma das faculdades da universidade, demonstrou que a solução desenvolvida atende tanto as necessidades de informações gerenciais para os gestores de centros de custo, quanto a possibilidade do acompanhamento da execução orçamentária na universidade. O desenvolvimento do trabalho demonstrou que conceitos, técnicas e métodos relacionados com aprendizado de máquina, integram-se ao processo de construção de ferramentas de visualização da informação, contribuindo especialmente no pré-processamento dos dados a serem utilizados nas ferramentas de visualização. Os resultados obtidos levam a conclusão que é possível estabelecer um processo para a construção e integração de ferramentas de visualização em um sistema institucional legado e, que a solução de visualização da informação desenvolvida é uma solução amigável e eficiente de análise visual para elucidação da prestação de contas e exploração da execução orçamentária na universidade. Palavras-chave: Visualização da Informação; Classificação de Texto; Execução Orçamentária; Prestação de Contas; Transparência Pública. Abstract Motivated by a real problem of manual text mining carried out in financial and accounting records, performed to obtain information to be used in the construction of static graphs in management reports, this work presents a case study on the construction and integration of an visualization of information solution, with the objective of elucidating the budget execution of a public university in the State of São Paulo, transforming the complex and bureaucratic rendering of accounts into easy to understand visual information. Starting from the question of how Computing can contribute to the elucidation of generic and uninformative accounting public records, the data from the university’s financial and accounting records was preprocessed using the automatic text classification. In this way, it was possible to attribute a qualitative purpose to the use of public resources, demonstrating in what the financial resource is used, also assigning a discriminative category, that makes it possible to eliminate generalizations and effectively establish for what the resource is used. The realization of this case study confirmed that information visualization tools created with standardized information by classification tool, are effective for public transparency and efficient for elucidation of budget execution. The evaluation of the solution implemented in one of the university’s college, demonstrated that the developed solution meets both the needs of management information for cost center managers, as well as the possibility of monitoring the budget execution at the university. The development of the work demonstrated that concepts, techniques and methods related to machine learning could be integrated into the process of building information visualization tools, contributing especially to the preprocessing of data to be used in the visualization tools. The results obtained lead to the conclusion that it is possible to establish a process for the construction and integration of visualization tools in a legacy system and that the visualization of information solution developed is a friendly and efficient visual analytics solution for accountability and exploration of budget execution in the university. Keywords: Visualization of Information; Text Classification; Budget Execution; Accountability; Public Transparency. Lista de ilustrações Figura 1 – Distribuição geográfica dos campi da universidade no Estado de São Paulo. . 28 Figura 2 – Distribuição de gastos da universidade entre 2016 e 2020. . . . . . . . . . . . 29 Figura 3 – Visualização criada manualmente utilizando software de planilha eletrônica. . 33 Figura 4 – Etapas do Processo de Visualização da Informação. . . . . . . . . . . . . . . 38 Figura 5 – Representação de Charles Joseph Minard para as baixas no exército de Napoleão. 42 Figura 6 – Proposta de organização dos centros de custo na universidade. . . . . . . . . 73 Figura 7 – Informação sobre centros de custo e expansão do centro de custo “Departamento”. 74 Figura 8 – Visão geral do dashboard interativo. . . . . . . . . . . . . . . . . . . . . . . . 77 Figura 9 – Dashboard após navegação em profundidade para o item “Despesas”. . . . . . 78 Figura 10 – Dashboard após navegação em profundidade para o item “Aquisições”. . . . . 78 Figura 11 – Informações detalhadas pelo posicionamento do cursor em “Categoria”. . . . 79 Figura 12 – Informações detalhadas pelo posicionamento do cursor em “Finalidade”. . . . 80 Figura 13 – Painel de controle do dashboard interativo. . . . . . . . . . . . . . . . . . . . 80 Figura 14 – Tabela de registros utilizados na visualização Dashboard. . . . . . . . . . . . . 81 Figura 15 – Página de acompanhamento da execução orçamentária do Exercício Vigente. 82 Figura 16 – Detalhes no gráfico de “Despesas”. . . . . . . . . . . . . . . . . . . . . . . . . 83 Figura 17 – Gráfico de “Despesas” reorganizado. . . . . . . . . . . . . . . . . . . . . . . . 83 Figura 18 – Detalhamento de informações sobre “Auxílios financeiros”. . . . . . . . . . . 84 Figura 19 – Tabela de registros utilizados na visualização Diagrama de Sankey. . . . . . . 85 Figura 20 – Série temporal com a evolução de gastos com “Auxílios financeiros”. . . . . . 86 Figura 21 – Série temporal com a evolução de gastos com “Diárias”. . . . . . . . . . . . . 87 Figura 22 – Integração da evolução temporal no acompanhamento da execução orçamentária. 87 Figura 23 – Fases da Revisão Sistemática da Literatura. . . . . . . . . . . . . . . . . . . . 109 Figura 24 – Formulário de extração de dados . . . . . . . . . . . . . . . . . . . . . . . . . 115 Figura 25 – Estudos publicados por Bases de Dados Científicas. . . . . . . . . . . . . . . 116 Figura 26 – Palavras-chave relacionadas nos trabalhos selecionados na RSL. . . . . . . . . 118 Figura 27 – Distribuição de estudos por tipo de trabalho. . . . . . . . . . . . . . . . . . . 119 Figura 28 – Distribuição de estudos por nacionalidade de instituição de pesquisa. . . . . . 119 Figura 29 – Relação adotada para as áreas de AI, ML e DL. . . . . . . . . . . . . . . . . 151 Figura 30 – Comparação Machine Learning e Deep Learning. . . . . . . . . . . . . . . . . 155 Figura 31 – Representação da modelagem de texto por uma CNN. . . . . . . . . . . . . . 156 Figura 32 – Modelos de Redes Neurais Recorrentes. . . . . . . . . . . . . . . . . . . . . . 157 Figura 33 – Composição do modelo de Rede Neural Recursiva. . . . . . . . . . . . . . . . 157 Figura 34 – Redes neurais com mecanismo de atenção. . . . . . . . . . . . . . . . . . . . . 158 Figura 35 – Modelos de grids para SOM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Lista de tabelas Tabela 1 – Análise financeira de registros da FEB no SisADM. . . . . . . . . . . . . . . 30 Tabela 2 – Análise quantitativa de registros da FEB no SisADM. . . . . . . . . . . . . . 30 Tabela 3 – Descrição dos Membros do Grupo de Trabalho. . . . . . . . . . . . . . . . . . 32 Tabela 4 – Relação de Objetivos com Métodos de Visualização de Dados. . . . . . . . . 41 Tabela 5 – Conjunto de classes para classificação de Finalidade. . . . . . . . . . . . . . . 51 Tabela 6 – Conjunto de classes para classificação de categorias de crédito. . . . . . . . . 53 Tabela 7 – Conjunto de classes para classificação de Categorias de Débito. . . . . . . . . 54 Tabela 8 – Subcategorias de Aquisição de Materiais. . . . . . . . . . . . . . . . . . . . . 55 Tabela 9 – Subcategorias de Contratação de Serviços. . . . . . . . . . . . . . . . . . . . 56 Tabela 10 – Categorias não utilizadas no conjunto de dados experimental. . . . . . . . . . 56 Tabela 11 – Similaridade de Palavras-Chave por LCS. . . . . . . . . . . . . . . . . . . . . 61 Tabela 12 – Resultados para a Classificação de Finalidade . . . . . . . . . . . . . . . . . . 70 Tabela 13 – Resultados para a Classificação de Categoria . . . . . . . . . . . . . . . . . . 70 Tabela 14 – Resultados dos Algoritmos Base de Referência na Classificação de Finalidade 71 Tabela 15 – Resultados dos Algoritmos Base de Referência na Classificação de Categoria 72 Tabela 16 – Cronograma de desenvolvimento das atividades do mestrado. . . . . . . . . . 108 Tabela 17 – Histórico de pesquisas para refinamento de string de busca. . . . . . . . . . . 111 Tabela 18 – Bases e veículos das publicações. . . . . . . . . . . . . . . . . . . . . . . . . . 117 Tabela 19 – Domínios de aplicação dos estudos. . . . . . . . . . . . . . . . . . . . . . . . . 120 Tabela 20 – Relação de trabalhos com as Questões de Pesquisa (QP). . . . . . . . . . . . 130 Tabela 21 – Finalidades de aplicação da Mineração de Texto. . . . . . . . . . . . . . . . . 142 Lista de algoritmos 1 Classificador de Texto Baseado em Palavras-Chave (Keywords) . . . . . . . . . . . 59 Lista de abreviaturas e siglas ACM Association for Computing Machinery ACM CSS ACM Computing Classification System AI Inteligência Artificial BI Business Intelligence BoW Bag of Words BR Binary Relevance CART Classification And Regression Tree CNN Convolutional Neural Network CSS Cascading Style Sheets D3 D3.js – Data-Driven Documents DL Deep Learning DM Data Mining DT Decision Tree ES Expert System FEB Faculdade de Engenharia de Bauru FN Falso Negativo FNN Fuzzy Neural Network FP Falso Positivo GA Genetic Algorithm GMDH Group Method of Data Handling GP Gaussian Process GranDSI-BR Grandes Desafios de Pesquisa em Sistemas de Informação no Brasil GRU Gated Recurrent Units Harvard GI Harvard General Inquirer HTML Hypertext Markup Language IA Intelligent Agents ICMS Imposto sobre Operações relativas à Circulação de Mercadorias e sobre Presta- ções de Serviços de Transporte Interestadual e Intermunicipal e de Comunicação IEEE The Institute of Electrical and Electronics Engineers IET The Institution of Engineering and Technology IHC Interação Humano-Computador IR Information Retrieval JEL Journal of Economic Literature k-NN k-Nearest Neighbour KWIC Keyword in Context LDA Latent Dirichlet Allocation LM dictionary Loughran and Mcdonald dictionary LP Label Powerset LR Logistic Regression LSTM Long Short-Term Memory MDL Minimum Description Length ML-CKNN Multilabel Categorical K-Nearest Neighbor ML Machine Learning MLN Mandatory Leaf Node Prediction NB Naive Bayes NER Named Entity Recognition NLP Natural Language Processing NMLN Non-mandatory Leaf Node Prediction NNS Nearest Neighbour Separation PA Passive Aggressive PCA Principal Component Analysis PoS Part-of-Speech Q&A Question & Answering (Q&A) RE Relation Extraction RNN Recurrent Neural Network RSL Revisão Sistemática da Literatura SEC United States Securities and Exchange Commission’s SF Slot Filling SGD Stochastic Gradient Descent SOM Self-Organizing Maps SRL Semantic Role Labeling SVD Singular Value Decomposition SVM Support Vector Machine TF–IDF Term Frequency – Inverse Document Frequency TI Tecnologia da Informação TM Text Mining UNA-SUS Universidade Aberta do SUS UNESP Universidade Estadual Paulista “Júlio de Mesquita Filho” UNICAMP Universidade Estadual de Campinas USP Universidade de São Paulo VN Verdadeiro Negativo VP Verdadeiro Positivo XMTC Extreme Multi-label Text Classification Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2 Relevância da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3 Abordagens Metodológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.1 Visão Geral sobre a Metodologia do Trabalho . . . . . . . . . . . . . . . . . . . . 23 1.3.2 Metodologia para o Referencial Teórico . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.3 Metodologia para Avaliação do Método de Classificação . . . . . . . . . . . . . . 23 1.3.4 Metodologia para Avaliação da Solução de Visualização da Informação . . . . . . 24 1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2 ESTUDO DE CASO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1 Instituição Observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Contexto e Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 Problemas e Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4 Fases do Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.1 Fase 1 – Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.2 Fase 2 – Fundamentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.3 Fase 3 – Execução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.5 Considerações Finais sobre o Estudo de Caso . . . . . . . . . . . . . . . . . 36 3 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.1 Visual Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2 Visão Geral sobre Visualização da Informação . . . . . . . . . . . . . . . . . 37 3.2.1 Interação Humano-Computador na Visualização de Informações . . . . . . . . . . 38 3.2.2 Motivações para Construção de Ferramentas de Visualização . . . . . . . . . . . 39 3.2.3 Motivações para Utilização de Ferramentas de Visualização . . . . . . . . . . . . 39 3.2.4 Diretrizes para Projeto de Construção de Ferramentas de Visualização . . . . . . 40 3.2.5 Ferramentas de Visualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.6 Avaliação de Ferramentas de Visualização . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Visão Geral sobre Classificação de Texto . . . . . . . . . . . . . . . . . . . . 44 3.4 Tipos de Problemas de Classificação de Texto . . . . . . . . . . . . . . . . . 45 3.4.1 Classificação Binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4.2 Classificação Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4.3 Classificação Monorrótulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.4 Classificação Multirrótulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.5 Classificação Plana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.6 Classificação Hierárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.5 Abordagens para Problemas de Classificação de Texto . . . . . . . . . . . . 46 3.5.1 Abordagens para Problemas de Classificação Monorrótulo . . . . . . . . . . . . . 46 3.5.2 Abordagens para Problemas de Classificação Multirrótulo . . . . . . . . . . . . . 47 3.5.3 Abordagens para Problemas de Classificação Hierárquica . . . . . . . . . . . . . . 47 3.6 Visão Geral sobre o Processo de Classificação de Texto . . . . . . . . . . . 47 3.6.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.6.2 Treinamento do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.6.3 Validação e Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.7 Análise Semântica e Processamento de Linguagem Natural . . . . . . . . . 49 3.8 Considerações Finais sobre o Referencial Teórico . . . . . . . . . . . . . . . 50 4 PROBLEMAS DE CLASSIFICAÇÃO ABORDADOS NO ESTUDO . . . . 51 4.1 O Problema da Classificação de Finalidade . . . . . . . . . . . . . . . . . . . 51 4.2 O Problema da Classificação de Categoria . . . . . . . . . . . . . . . . . . . 52 4.3 Considerações Finais sobre os Problemas de Classificação Abordados . . . . 57 5 A SOLUÇÃO DE CLASSIFICAÇÃO DE TEXTO . . . . . . . . . . . . . . . 58 5.1 O Método de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2 Cálculo da Similaridade Ponderada . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3 Procedimentos Comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.3.1 Procedimento Comparativo I – comparacaoDeAltaRelevancia . . . . . . . . . . . 62 5.3.2 Procedimento Comparativo II – compararPorPalavrasChaveCompostas . . . . . . 62 5.3.3 Procedimento Comparativo III – compararPorPalavrasChaveSimples . . . . . . . . 62 5.3.4 Procedimento Comparativo IV – compararPorNomeParcialDeClassse . . . . . . . 62 5.3.5 Procedimento Comparativo V – compararPorNomeCompletoDeClassse . . . . . . 62 5.4 Parâmetros de Classificação e Ranking . . . . . . . . . . . . . . . . . . . . . 62 5.5 Saídas do Classificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.6 Implementação do Classificador de Texto . . . . . . . . . . . . . . . . . . . . 64 5.7 Integração do Classificador de Texto ao SisADM . . . . . . . . . . . . . . . 64 5.7.1 Parametrização da Entrada do Classificador . . . . . . . . . . . . . . . . . . . . . 64 5.7.2 Leitura das Saídas do Classificador . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.8 Considerações Finais sobre a Solução de Classificação de Texto . . . . . . . 65 6 AVALIAÇÃO DO MÉTODO DE CLASSIFICAÇÃO . . . . . . . . . . . . . 66 6.1 Dataset Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.2 Implementação e Algoritmos de Referência . . . . . . . . . . . . . . . . . . . 67 6.3 Métrica de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6.4 Parametrizações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.5 Resultados do Método de Classificação . . . . . . . . . . . . . . . . . . . . . 69 6.6 Comparação de Desempenho na Classificação de Finalidade . . . . . . . . . 71 6.7 Comparação de Desempenho na Classificação de Categoria . . . . . . . . . 71 6.8 Análise e Discussão dos Resultados . . . . . . . . . . . . . . . . . . . . . . . 71 6.9 Considerações Finais sobre a Avaliação do Método de Classificação . . . . 72 7 SOLUÇÃO PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 7.1 Cenário de Implantação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 7.2 Aplicação do Processo de Classificação de Texto . . . . . . . . . . . . . . . 75 7.2.1 Escolha do Método de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . 75 7.2.2 Processo de Classificação de Texto . . . . . . . . . . . . . . . . . . . . . . . . . 75 7.3 Ferramentas de Visualização da Informação . . . . . . . . . . . . . . . . . . 76 7.3.1 Dashboard Interativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 7.3.2 Diagrama de Sankey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 7.3.3 Gráfico de Linha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.4 Implantação da Solução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.5 Avaliação da Solução Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.5.1 Feedback de Usuários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.5.2 Dúvidas e Problemas Relatados . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.5.3 Feedback de Cliente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 7.5.4 Resultado da Avaliação da Solução Proposta . . . . . . . . . . . . . . . . . . . . 90 7.6 Considerações Finais sobre o Protótipo da Solução . . . . . . . . . . . . . . 91 8 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 8.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 8.2 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 9 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 APÊNDICES 104 APÊNDICE A – PROJETO DE PESQUISA . . . . . . . . . . . . . . . . . 105 A.1 Título da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A.2 Tema de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A.4 Definição do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A.5 Justificativa e relevância do tema . . . . . . . . . . . . . . . . . . . . . . . . 105 A.6 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 A.7 Metodologia do projeto de pesquisa . . . . . . . . . . . . . . . . . . . . . . . 106 A.8 Referencial teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.9 Resultados esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 A.10 Cronograma de atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 A.11 Considerações finais sobre o projeto de pesquisa . . . . . . . . . . . . . . . . 108 APÊNDICE B – REVISÃO SISTEMÁTICA DA LITERATURA . . . . . . 109 B.1 Planejamento da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 B.1.1 Motivação da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 B.1.2 Objetivo da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 B.1.3 Questões de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 B.1.4 Termos de busca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 B.1.5 Bases de busca científica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 B.1.6 Critérios de inclusão, exclusão e qualidade . . . . . . . . . . . . . . . . . . . . . 112 B.2 Condução da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 B.2.1 Buscas da pesquisa exploratória . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 B.2.2 Buscas nas bases selecionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 B.2.3 Inclusão e exclusão de estudos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 B.2.4 Extração de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 B.3 Relatório da Revisão Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . 115 B.3.1 Bases de publicações científicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.3.2 Veículos de publicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 B.3.3 Termos de indexação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 B.3.4 Tipos de trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 B.3.5 Distribuição geográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 B.3.6 Domínios de aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 B.3.7 Resultados Teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 B.3.8 Resultados Práticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 B.3.8.1 Balanceamento Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 B.3.8.2 Problemas de Classificação Binária . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 B.3.8.3 Problemas de Classificação Monorrótulo de Texto . . . . . . . . . . . . . . . . . . . . 123 B.3.8.4 Problemas de Classificação Multirrótulo de Texto . . . . . . . . . . . . . . . . . . . . 124 B.3.8.5 Problemas de Classificação Multirrótulo Extrema de Texto . . . . . . . . . . . . . . . 125 B.3.8.6 Problemas de Classificação Hierárquica de Texto . . . . . . . . . . . . . . . . . . . . 125 B.3.8.7 Problemas de Classificação Hierárquica e Multirrótulo de Texto . . . . . . . . . . . . . 125 B.3.8.8 Modelagem de Documentos e Mecanismos de Atenção . . . . . . . . . . . . . . . . . 126 B.3.8.9 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 B.3.8.10 Slot Filling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 B.3.8.11 Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 B.3.9 Sumarização de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 B.3.10 Considerações Finais do Relatório da RSL . . . . . . . . . . . . . . . . . . . . . . 131 B.4 Análise, Discussão e Conclusão da RSL . . . . . . . . . . . . . . . . . . . . . 131 B.4.1 Observações Realizadas Durante o Estudo . . . . . . . . . . . . . . . . . . . . . 131 B.4.1.1 Classificação Manual de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.4.1.2 Alternativas Para Análise de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.4.1.3 Mesmo Conceito, Diferentes Escritas . . . . . . . . . . . . . . . . . . . . . . . . . . 132 B.4.1.4 Diferenças Conceituais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 B.4.1.5 Ausência de Métodos Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 B.4.1.6 Premissas Sobre Problemas Multiclasse e Multirrótulo . . . . . . . . . . . . . . . . . . 133 B.4.2 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 B.4.2.1 Diretrizes de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 B.4.3 Conclusão da RSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 APÊNDICE C – PROTOCOLO DA RSL . . . . . . . . . . . . . . . . . . . 136 C.1 Estudos incluídos na busca preliminar . . . . . . . . . . . . . . . . . . . . . . 139 C.2 Estudos incluídos na busca em bases . . . . . . . . . . . . . . . . . . . . . . 140 C.3 Estudos excluídos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 APÊNDICE D – FUNDAMENTOS DA ANÁLISE DE TEXTO . . . . . . 141 D.1 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 D.2 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 D.2.1 Finalidades de aplicação da análise de texto . . . . . . . . . . . . . . . . . . . . 142 D.2.2 Abordagens da análise de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 D.3 Classificação de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 D.3.1 Problemas de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 D.3.2 Abordagens para problemas de classificação . . . . . . . . . . . . . . . . . . . . . 145 D.3.3 Processo de classificação de texto . . . . . . . . . . . . . . . . . . . . . . . . . . 146 D.3.4 Considerações sobre classificação . . . . . . . . . . . . . . . . . . . . . . . . . . 148 D.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 D.4.1 Tarefas de Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . 149 D.4.2 A Maldição da Dimensionalidade . . . . . . . . . . . . . . . . . . . . . . . . . . 150 D.4.3 Considerações sobre NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 D.5 Considerações finais sobre a Análise de Texto . . . . . . . . . . . . . . . . . 150 APÊNDICE E – FUNDAMENTOS DA INTELIGÊNCIA ARTIFICIAL . . 151 E.1 Perspectiva sobre Inteligência Artificial . . . . . . . . . . . . . . . . . . . . . 151 E.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 E.2.1 Paradigmas de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 E.2.2 Modelos e Métodos de Machine Learning . . . . . . . . . . . . . . . . . . . . . . 153 E.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 E.3.1 Modelos e Métodos de Deep Learning . . . . . . . . . . . . . . . . . . . . . . . 155 E.3.2 Modelagem de documentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 E.4 Modelos e Métodos de Inteligência Artificial . . . . . . . . . . . . . . . . . . 159 E.5 Considerações finais sobre a Inteligência Artificial . . . . . . . . . . . . . . . 161 20 1 Introdução A análise de registros financeiros e contábeis de uma universidade pública paulista foi o problema motivador deste trabalho. Nestes registros, encontram-se informações de diversas origens, que podem ser categorizadas de forma distinta e mais amigável do que os códigos contábeis disponíveis na legislação vigente. Além disso, é vasta a quantidade de registros que não possuem informação contábil relacionada à “Classificação da Despesa Orçamentária por Natureza” estabelecida pela Secretaria da Fazenda e Planejamento (2023), ou possuem classificações que estão vinculadas a elementos genéricos e pouco informativos como: “Outros serviços...”, “Outros materiais...”, “Outras taxas...”, etc. De forma semelhante a categorização relacionada com a natureza das despesas, destaca-se ainda nos registros analisados, a presença de classificação funcional programática. Classificação que atribui aos registros, informações relacionadas à finalidade de destino do recurso financeiro empregado, que contabilmente são descritas por finalidades estabelecidas em lei. Contudo, é frequente a utilização de classificação relacionada ao objetivo geral da instituição, por exemplo: “Ensino de graduação nas universidades públicas” (SÃO PAULO, 2020). Observa-se que esta forma de classificação generalista, pode não refletir a real finalidade do emprego dos recursos financeiros na universidade. Apesar do exposto, é frequente a presença de informações adicionais relacionadas aos registros contábeis, que indicam a possibilidade de categorizações distintas ou mais específicas do que as dispostas na legislação relacionada. Estas informações remetem aos procedimentos que deram origem ao lançamento contábil, contendo dados que justifiquem a necessidade de determinadas despesas, dados oriundos da pessoa solicitante, que alimenta os sistemas institucio- nais com justificativas redigidas em linguagem natural. Desta forma, considera-se a possibilidade de classificar os registros financeiros e contábeis, categorizando-os de forma mais simples do que a legislação vigente. Considerando também, o estabelecimento automático de vínculo de cada registro contábil, com as atividades-fim que formam o tripé base de qualquer universidade (Ensino, Pesquisa e Extensão), ou com atividades-meio como Infraestrutura e Administração. Dentro da grande área do conhecimento que estuda as relações da Interação Humano- Computador (IHC), a Visualização da Informação é a área que dedicada-se ao estudo de sistemas de visualização baseados em computador. Estudo que contempla, não só, mas ao menos, o design, o processo, a construção e a avaliação de ferramentas de visualização (MUNZNER, 2014). Esta monografia é a apresentação do estudo de caso, da criação e integração de ferramentas de visualização da informação, ao sistema legado de gestão administrativa de uma universidade pública do Estado de São Paulo. Sendo estas ferramentas de visualização, baseadas em informações padronizadas por algoritmo de classificação de texto, desenvolvido aplicando-se abordagens, conceitos, técnicas e métodos da área de Mineração de Texto. Capítulo 1. Introdução 21 1.1 Objetivos O objetivo geral do trabalho é a elucidação de registros públicos financeiros e contábeis, transformando em informações visuais a classificação textual legalmente utilizada. Informações visuais que reflitam tanto categorias como finalidades, mais específicas e amigáveis sob a perspetiva humana, no intuito de qualificar e discriminar a complexa e burocrática execução orçamentária da instituição. Transmitindo de forma simples as informações de como e com qual finalidade, estão sendo empregados os recursos financeiros da universidade. Neste sentido, o objetivo específico deste trabalho é o desenvolvimento de solução que atenda tanto as necessidades de informações gerenciais para o gestor do centro de custo, quanto a possibilidade de acompanhamento da execução orçamentária na universidade. Solução desenvolvida utilizando ferramentas de visualização da informação, que permitam os usuários explorarem registros contábeis da universidade. No intuito de facilitar o entendimento dos recursos financeiros recebidos, de como estes recursos foram utilizados e, com qual finalidade os recursos foram empregados. 1.2 Relevância da Pesquisa A iniciativa da Sociedade Brasileira de Computação (SBC), em prospectar os principais desafios de pesquisa na área da Ciência da Computação, evidenciou-se com os seminários “Grandes Desafios em Pesquisa em Computação no Brasil”. Esta iniciativa da SBC gerou impacto positivo na comunidade científica, permitindo o desenvolvimento concreto de ações que abordassem os temas propostos nos seminários (BOSCARIOLI; ARAUJO; MACIEL, 2017). Inspirada nesta iniciativa e considerando o amadurecimento da comunidade científica de Sistemas de Informação, a Comissão Especial de Sistemas de Informação (CE-SI) da SBC, lançou em 2016 o seminário “Grandes Desafios de Pesquisa em Sistemas de Informação no Brasil (GranDSI-BR)” . Cujo principal objetivo é identificar os desafios a serem enfrentados nas pesquisas da área para a próxima década. Boscarioli, Araujo e Maciel (2017) apontam nesta primeira edição do seminário, quatro grandes desafios de pesquisa em sistemas de informação para o decênio 2016-2026: • Desafio 1: Sistemas de Sistemas de Informação. No mundo aberto, globalizado e conectado, os sistemas de informação não apenas suportam uma grande diversidade de domínios de aplicação, como negócios, saúde e resposta a crises, mas executam várias tarefas e funcionalidades complexas. Os Sistemas de Sistemas de Informação (SoIS - Systems of Information Systems) são um tipo específico de Sistemas de Sistemas (SoS - Systems of Systems) que apresenta novos desafios para o desenvolvimento de Sistemas de Informação (IS - Information Systems) e a comunidade de pesquisa. Os SoIS exibem todas as características de SoS, com uma forte característica adicional relacionada com a natureza do negócio. SoIS são compostos de vários IS que combinam suas capacidades (BOSCARIOLI; ARAUJO; MACIEL, 2017, adaptado, tradução livre). • Desafio 2: Sistemas de Informação e os Desafios do Mundo Aberto. O mundo é uma rede. O desafio é compreender sua dinâmica e propor, construir e compreender o impacto dos sistemas de informação para Capítulo 1. Introdução 22 apoiá-la. Uma longa lista de aspectos deve ser considerada ao associar sistemas de informação ao mundo aberto e virtual. Isso inclui: mobili- dade, colaboração, capacitação, interoperabilidade, compartilhamento de conhecimento, escalabilidade, transparência, privacidade, segurança, flexibilidade, valor, confiabilidade, diversidade, licenciamento... a lista é infinita. As novas tendências tecnológicas também devem ser levadas em consideração: dados abertos e vinculados, redes sociais, sistemas multi- agentes, apenas para citar alguns. O mundo aberto é verdadeiro e necessário para diferentes domínios de aplicação, desde a pres- tação de serviços à inovação, incluindo o acesso da sociedade à informação e a participação, tanto no setor público quanto no privado. Relacionamentos diferentes entre consumidores e fornecedores estão surgindo. Qualquer um pode ser um produtor, qualquer um pode ser um consumidor no mundo aberto. Novos ecossistemas surgem deste mundo conectado e novas abordagens para projetar e fornecer sistemas de informação para apoiar esses ecossistemas são necessários, desafiando a legislação brasileira, o governo, a indústria e os processos de produção do mercado e, o com- portamento, a educação e cultura das pessoas (BOSCARIOLI; ARAUJO; MACIEL, 2017, grifo nosso, tradução livre). • Desafio 3: Complexidade dos sistemas de informação. Os Sistemas de Informação atuais e futuros compreendem vários com- ponentes. Esses componentes podem ser outros sistemas, software ou sensores hospedados em diferentes plataformas computacionais. Devido à diversidade e quantidade de componentes, os IS estão se tornando cada vez mais complexos. No contexto dos sistemas de informação, a troca de informações e a interação entre os usuários frequentemente ocorrem em ambientes heterogêneos. A interoperabilidade é um requisito funda- mental para apoiar as atividades em ambientes heterogêneos de forma eficiente e eficaz. Além disso, no que diz respeito à infraestrutura de tecnologia da informação para sistemas de informação, o suporte virtual e as plataformas de desenvolvimento estão mudando a forma como os clientes interagem com os dados e aplicativos (BOSCARIOLI; ARAUJO; MACIEL, 2017, adaptado, tradução livre). • Desafio 4: Visão Sociotécnica de Sistemas de Informação. Os sistemas de informação não são apenas software ou pessoas que usam software. Eles são a integração total de pessoas e tecnologia e a multiplicidade de relacionamentos que surgem dessa integração. Os sistemas de informação hoje e nos próximos anos não podem ser projetados, desenvolvidos, pesquisados, usados ou apren- didos sem abordagens consistentes para lidar com a complexidade do sistema sociotécnico que nossa sociedade é e continuará a ser. Resolver efetivamente os problemas dos sistemas de informação significa desenvol- ver competências em pesquisa, educação e na comunidade profissional de SI para compreender plenamente o que é uma visão sociotécnica e aplicar de forma consistente métodos e práticas interdisci- plinares para entender e resolver problemas do mundo real (BOSCARIOLI; ARAUJO; MACIEL, 2017, grifo nosso, tradução livre). O objeto de estudo apresentado neste trabalho são dados financeiros e contábeis de uma universidade pública do Estado de São Paulo. Dados que representam a distribuição e a execução orçamentária da universidade, consolidando informações hierarquicamente desde o centro de custo (micro-gestão) até a universidade (macro-gestão). Desta forma, identifica-se o enquadramento deste trabalho nos desafios 2 e 4 propostos por Boscarioli, Araujo e Maciel (2017). Considerando os grandes desafios de pesquisa em sistemas de informação no Brasil, considerando também a complexidade burocrática-legislativa da gestão orçamentária da instituição observada, Capítulo 1. Introdução 23 considerando ainda, a vasta generalização de informações contidas nos registros contábeis, este estudo demonstra-se relevante por abordar problemas que são desafios contemporâneos na área de Sistemas de Informação. 1.3 Abordagens Metodológicas Diferentes abordagens metodológicas foram utilizadas de acordo com as fases de desen- volvimento deste estudo. Estas abordagens serão descritas nas próximas seções. 1.3.1 Visão Geral sobre a Metodologia do Trabalho Este trabalho é a materialização de uma pesquisa qualitativa, realizada com o método de estudo de caso, para aprofundamento nos temas envolvidos na implantação de ferramentas e técnicas de visualização da informação integradas à sistemas institucionais de uma universidade. O método de estudo de caso demonstra-se adequado para profunda investigação de como e porque ocorrem os eventos relacionados com o objeto de pesquisa. É uma investigação empírica, que permite o estudo de um fenômeno contemporâneo dentro de seu contexto da vida real. Dentre as finalidades da realização de um estudo de caso, destacam-se para esta pesquisa os propósitos de formular hipóteses, desenvolver teorias e descrever a situação do contexto em que está sendo realizada a investigação (GIL, 2002; YIN, 2015). 1.3.2 Metodologia para o Referencial Teórico O referencial teórico desta pesquisa foi estabelecido pelo método da Revisão Sistemática da Literatura (RSL) e complementado por pesquisas bibliográficas necessárias para abordagem dos temas identificados. Kitchenham e Charters (2007) definem a RSL como uma forma de avaliar e interpretar todas as pesquisas relevantes, que estão disponíveis para uma questão de pesquisa específica, uma área de tópico ou um fenômeno de interesse. As revisões sistemáticas visam apresentar uma avaliação justa de um tópico de pesquisa, através de uma metodologia de pesquisa rigorosa, confiável e auditável. A RSL foi realizada com objetivo de identificar contribuições acadêmicas e científicas no estudo das relações entre aprendizado de máquina e visualização da informação, ao se trabalhar com conteúdo textual relacionado com informações financeiras e contábeis. Os Apêndices B e C apresentam a revisão sistemática realizada, discorrendo detalhadamente sobre seu planejamento, condução e resultados. 1.3.3 Metodologia para Avaliação do Método de Classificação Realizou-se um estudo empírico para avaliar a efetividade do método de classificação proposto neste trabalho. O estudo realizado contemplou dois tipos de problemas de classificação e comparou o desempenho do método proposto com seis algoritmos de referência na tarefa de classificação de texto. Capítulo 1. Introdução 24 Um conjunto de dados experimental foi criado para ser utilizado nos testes de classificação. Todos os registros obtidos foram manualmente classificados por especialistas do domínio da aplicação, realizando-se a atribuição de uma categoria e uma finalidade à cada registro. O dataset estabelecido foi utilizado para os testes com a implementação do classificador apresentado no Capítulo 5, realizando-se comparações com implementações de algoritmos de classificação do tipo aprendizado de máquina disponíveis na ferramenta Weka Workbench (EIBE; HALL; WITTEN, 2016). O Capítulo 6 apresenta descrição detalhada dos experimentos realizados, discorrendo sobre os dados utilizados, descrevendo parâmetros definidos e apresentando os resultados obtidos. 1.3.4 Metodologia para Avaliação da Solução de Visualização da Informação Conforme estabelecido por Kirk (2012), detalhado no Item 3.2.6 do referencial teórico, a avaliação de ferramentas de visualização tem como objetivo identificar a eficácia e o impacto das visualizações criadas. O autor destaca destaca algumas questões consideradas como principais tópicos de interesse nesta avaliação (e.g., Houve reação positiva à visualização? Usuários foram capazes de consumir ou descobrir ideias de forma eficaz? Quais os problemas que as pessoas experimentam, se houveram?). Destacando também o feedback do cliente e o feedback não estruturado, como meios de se obter respostas para estes tópicos de avaliação. Desta forma, a entrevista aberta foi o método de avaliação escolhido para obter-se respos- tas qualitativas à solução apresentada. Foram realizadas sete sessões online1 para apresentação da solução e treinamento dos usuários, sendo duas sessões de apresentação da solução para o público-alvo e cinco sessões de treinamento específicas para usuários gestores de centros de custo. Durante a realização das sessões, participantes ofereceram feedbacks não estruturados em suas manifestações verbais. Após a apresentação do conteúdo dedicado à sessão, conduziu-se a entrevista aberta, com o orador passando a palavra aos demais participantes para que estes se manifestassem sobre a solução apresentada. As repostas e manifestações dos participantes foram registradas nas gravações, sendo algumas transcritas neste trabalho como citações de membros devidamente qualificados nos detalhes das sessões realizadas. ◆ Sessão de Apresentação I — Sem Gravação — Realizada em 01 de julho de 2021. Apresentação preliminar conduzida pelo autor deste trabalho, qualificado como o assistente de informática membro do grupo de trabalho envolvido neste estudo de caso. A apresentação teve como público-alvo outros quatro integrantes do grupo de trabalho, tendo o diretor administrativo juntamente com seu assessor representando a área de gestão da faculdade, enquanto o diretor e o analista de informática representaram a área de tecnologia da informação. Esta reunião não foi gravada, pois foi realizada como apresentação preliminar do trabalho, com objetivo de validar o protótipo da solução implementada. 1 As sessões foram realizadas por meio da ferramenta Google Meet e foram gravadas utilizando-se da opção de gravação disponível na ferramenta. Capítulo 1. Introdução 25 O participante diretor da área administrativa ofereceu oralmente feedback de cliente. ◆ Sessão de Apresentação II — Gravada — Realizada em 14 de setembro de 2021. Conduzida pelo grupo de trabalho envolvido neste estudo de caso, teve como público-alvo 24 pessoas responsáveis pela gestão de recursos financeiros da faculdade. Público composto por chefes de departamento, coordenadores de programas de pós-graduação, diretores de área e supervisores de seções. Cinco participantes ofereceram feedback de forma oral e foram registradas mais nove interações por mensagens escritas no chat, das quais quatro eram dúvida ou feedback. ◆ Sessão de Treinamento I — Sem Gravação — Realizada em 23 de novembro de 2021. Esperava-se a participação de três pessoas nesta sessão de treinamento. Contudo, apenas uma pessoa esteve presente, um assistente de suporte acadêmico que exercia a função de auxiliar de laboratório didático. Esta sessão de treinamento não foi gravada, devido a manifestação contrária do partici- pante. O participante informou não ser necessário realizar a gravação do treinamento, pelo fato de não ser o gestor responsável pelo departamento a qual o laboratório está vinculado e devido a participação do respectivo gestor em uma das próximas sessões de treinamento. Não foram coletados feedbacks nesta sessão. ◆ Sessão de Treinamento II — Gravada — Realizada em 23 de novembro de 2021. Reunião realizada com chefe de departamento, identificado neste trabalho pelo pseudônimo CDASPP. Participante manifestou feedbacks voluntários, expressando opinião sobre a usabilidade das ferramentas. ◆ Sessão de Treinamento III — Gravada — Realizada em 24 de novembro de 2021. Os principais interessados da área de gestão administrativa da faculdade foram o público- alvo da terceira sessão de treinamento. Grupo de cinco pessoas composto por diretor de unidade universitária acompanhado de seu assessor; diretor da área administrativa também acompanhado por seu assessor; e, supervisor da seção de finanças. Os participantes qualificados como diretor de unidade universitária e diretor administra- tivo, ofereceram oralmente feedbacks espontâneos sobre a solução apresentada. Também foram registradas três interações por mensagens via chat, mas nenhuma relacionada com dúvida ou feedback. ◆ Sessão de Treinamento IV — Gravada — Realizada em 24 de novembro de 2021. Reunião realizada com supervisor de seção da área acadêmica, identificado pelo pseudô- nimo SSAAAAP. Participante manifestou feedbacks voluntários, expressando dúvidas e oferecendo exemplo sobre diferentes formas de classificação de finalidade para um mesmo item de compra. Capítulo 1. Introdução 26 ◆ Sessão de Treinamento V — Gravada — Realizada em 25 de novembro de 2021. Duas pessoas participaram da última sessão de treinamento, chefe de departamento, identificado neste trabalho pelo pseudônimo CDSDRO, e supervisor de seção da área acadêmica, identificado pelo pseudônimo SSAAEFL. O participante qualificado como chefe de departamento manifestou feedbacks voluntários, expressando dúvidas, discorrendo sobre a funcionalidade da solução e comentando sobre a aderência da solução às necessidades de gestão. Também foi registrada uma participação de SSAAEFL, comentando sobre a origem das categorias e finalidades utilizadas para classificação de registros. 1.4 Organização do Trabalho Com relação a forma, esta dissertação está organizada em nove capítulos e cinco apêndices. Os capítulos consistem no conteúdo principal da dissertação, enquanto os apêndices apresentam conteúdo suplementar gerado durante o desenvolvimento do trabalho. O Capítulo 1 dedica-se à introdução geral, apresentando o tema da dissertação, seus objetivos e a relevância desta pesquisa. Em seguida, o Capítulo 2 discorre sobre o estudo de caso realizado, apresentando a instituição objeto de estudo, as hipóteses levantadas e descrevendo resumidamente as etapas e ações relacionadas em cada fase do estudo de caso. O Capítulo 3 apresenta conceitos fundamentais relacionados ao tema de pesquisa, necessários para melhor compreensão deste trabalho. O Capítulo 4 descreve os dois problemas de classificação de texto relacionados com este trabalho. Os Capítulos 5 e 6 dedicam-se à apresentação detalhada respecti- vamente da solução para classificação de texto e a avaliação da solução de classificação proposta. O Capítulo 7 apresenta a solução proposta para o problema tema desta pesquisa, discorrendo também sobre a implantação e avaliação da solução. Por fim, o Capítulo 8 realiza considerações finais e o Capítulo 9 conclui o conteúdo principal desta dissertação. Com relação ao conteúdo, os próximos capítulos poderão apresentar termos em língua inglesa, sempre destacados de forma itálica e acompanhados de tradução livre. A escolha por esta forma de redação se justifica devido a internacionalização de conceitos, sendo estes amplamente conhecidos em inglês e/ou popularizados por siglas que refletem a escrita em língua inglesa. 27 2 Estudo de Caso Este capítulo descreve brevemente o estudo de caso realizado, contextualizando o estudo e introduzindo etapas do trabalho, desde a concepção até a fase de execução. 2.1 Instituição Observada A Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP) é a instituição objeto de estudo deste trabalho. Uma grande universidade, composta por 34 unidades que estão em 24 cidades do Estado de São Paulo (APE, 2021a). A Unesp (Universidade Estadual Paulista) é uma das maiores e mais importantes universidades brasileiras, com destacada atuação no ensino, na pesquisa e na extensão de serviços à comunidade. Mantida pelo governo do estado de São Paulo, é uma das três universidades públicas de ensino gratuito, ao lado da USP (Universidade de São Paulo) e da Unicamp (Universidade Estadual de Campinas). Criada em 1976, a partir da reunião de institutos isolados de ensino superior que existiam em várias regiões do estado de São Paulo, a Unesp tem 34 unidades em 24 cidades, sendo 22 no interior; uma na capital; e uma no litoral paulista, mais especificamente na cidade de São Vicente. Missão Exercer sua função social por meio do ensino, da pesquisa e da extensão universitária, com espírito crítico e livre, orientados por princípios éticos e humanísticos. Promover a formação profissional compromissada com a qualidade de vida, a inovação tecnológica, a sociedade sustentável, a equidade social, os direitos humanos e a participação democrática. Gerar, difundir e fomentar o conhecimento, contribuindo para a superação de desigualdades e para o exercício pleno da cidadania. Visão de futuro Ser referência nacional e internacional de universidade pública multicâmpus, de excelência no ensino, na pesquisa e na extensão universitária, que forme profissionais e pesquisadores capazes de promover a democracia, a cidadania, os direitos humanos, a justiça social e a ética ambiental e que contribua para o letramento científico da sociedade e para a utilização pública da ciência. (UNESP, 2023). A Figura 1 apresenta as cidades que possuem campus da Unesp. Capítulo 2. Estudo de Caso 28 Figura 1 – Distribuição geográfica dos campi da universidade no Estado de São Paulo. Fonte: Extraído de UNESP (2023). Em conjunto com as demais universidades mantidas pelo Governo do Estado de São Paulo, a Unesp possui dotação orçamentária própria na Lei Orçamentária Anual do Estado, legislação que estabelece valores e diretrizes para aplicação dos recursos financeiros da universidade (SÃO PAULO, 2020, p 499-501). Os recursos financeiros para execução do orçamento planejado, são oriundos majoritaria- mente de quota-parte do Imposto sobre Operações relativas à Circulação de Mercadorias e sobre Prestações de Serviços de Transporte Interestadual e Intermunicipal e de Comunicação (ICMS), em conjunto com recursos obtidos de convênios com outros órgãos e instituições, complementados também por recursos próprios gerados na universidade (RANIERI, 2018; APE, 2021a). A partir da dotação orçamentária atribuída pelo Estado e da previsão de arrecadação do ICMS no ano de exercício, a Unesp estabelece seu próprio orçamento anual, planejado hierarquicamente no sentido top-down (de cima para baixo, ou seja, da administração superior para as unidades administrativas), realizando a distribuição de dotações orçamentárias para cada uma de suas 34 unidades universitárias (APE, 2021b). Constata-se então que a Unesp possui um único orçamento centralizado, mas com sua execução orçamentária distribuída em suas sedes administrativas, denominadas neste trabalho como unidades universitárias ou simplesmente unidades. 2.2 Contexto e Motivação A forma de distribuição orçamentária na universidade, permite que a direção de cada unidade organize seus recursos de acordo com seu modelo de gestão. No modelo centralizado, a unidade administrativa é gerenciada como um único centro de custo da universidade. Ao passo que no modelo distribuído, a unidade pode ser subdividida em centros de custo hierarquicamente organizados. Contudo, independente do modelo de gestão, é necessário que o gestor compreenda Capítulo 2. Estudo de Caso 29 os recursos geridos por seu centro de custo. A Figura 2 apresenta a distribuição dos gastos da Unesp nos últimos anos. Observa-se na figura que mais de 80% do orçamento da universidade foi empregado com despesas relacionadas à folha de pagamento, destacados nos gráficos como o item “Pessoal e Reflexos”. Nota-se também que uma pequena parte do orçamento é dedicada a compromissos judiciais, destacadas como “Dívidas e Sentenças Judiciais”. Sendo assim, pode-se constatar que a parte orçamentária dotada para gestão nas unidades, atualmente representa menos do que 19% do orçamento disponível, sendo esta parte composta pelos itens indicados nos gráficos como “Despesas de Capital” e “Despesas de Custeio”. Figura 2 – Distribuição de gastos da universidade entre 2016 e 2020. Fonte: Adaptado de APE (2021a). Aprofundando a análise de despesas macro-orçamentárias da universidade, para o nível de unidade universitária, observa-se na Tabela 1 o detalhamento da análise financeira de uma das unidades da Unesp nos últimos anos. Os dados representados na tabela, foram obtidos do sistemas de gestão administrativa da Universidade, denominado SisADM, sistema de informação responsável por consolidar as transações financeiras e contábeis da Unesp. Este sistema está em funcionamento desde 2011, mas que teve sua utilização efetiva por todas as unidades universitárias apenas a partir do ano de 2018. Capítulo 2. Estudo de Caso 30 Tabela 1 – Análise financeira de registros da FEB no SisADM. Ano Descrição do Item Observado Valor 2018 Valor total de despesas R$ 30.927.726,34 (100%) Valor relacionado com folha de pagamento R$ 27.059.758,76 (87,49%) Valor não relacionado com folha de pagamento R$ 3.867.967,58 (12,51%) 2019 Valor total de despesas R$ 36.518.504,84 (100%) Valor relacionado com folha de pagamento R$ 29.781.743,54 (81,55%) Valor não relacionado com folha de pagamento R$ 6.736.761,30 (18,45%) 2020 Valor total de despesas R$ 34.269.754,57 (100%) Valor relacionado com folha de pagamento R$ 29.373.828,46 (85,71%) Valor não relacionado com folha de pagamento R$ 4.895.926,11 (14,29%) Fonte: Produzida pelo autor. Os dados da unidade universitária analisada nas Tabelas 1 e 2, são da Faculdade de Engenharia – Campus de Bauru (FEB). Unidade escolhida para detalhamento de informações e implantação experimental da solução desenvolvida neste trabalho, por ter como diretor da unidade durante o período de realização do estudo, o Prof. Dr. Luttgardes de Oliveira Neto, cliente demandante da solução e responsável por autorizar o desenvolvimento do estudo na faculdade. Também por ser a unidade de lotação do gerente de projetos responsável pelo sistema SisADM, o Sr. Rubens Memari Junior, que forneceu informações históricas relativas à implantação do sistema na Unesp e concedeu acesso aos dados necessários para o desenvolvimento deste trabalho. Tabela 2 – Análise quantitativa de registros da FEB no SisADM. Ano Descrição do item observado Valor 2018 Quantidade total de registros de despesas 2673 (100%) Quantidade de registros relacionados com folha de pagamento 307 (11,49%) Quantidade de demais registros, não relacionados com folha de pagamento 2366 (88,51%) Quantidade de registros com classificação contábil genérica (Outros...) 404 (17,08%)∗ 2019 Quantidade total de registros de despesas 2521 (100%) Quantidade de registros relacionados com folha de pagamento 214 (8,49%) Quantidade de demais registros, não relacionados com folha de pagamento 2307 (91,51%) Quantidade de registros com classificação contábil genérica (Outros...) 406 (17,60%)∗ 2020 Quantidade total de registros de despesas 1517 (100%) Quantidade de registros relacionados com folha de pagamento 169 (11,14%) Quantidade de demais registros, não relacionados com folha de pagamento 1348 (88,86%) Quantidade de registros com classificação contábil genérica (Outros...) 297 (22,03%)∗ ∗ Valores percentuais relativos aos demais registros, não relacionados com folha de pagamento. Fonte: Produzida pelo autor. Considerando a grande quantidade de registros contábeis não relacionados com folha de pagamento apresentados na Tabela 2 (mais de 88%), considerando também que mais de 17% destes registros possuem classificação contábil genérica e pouco informativa como: “Outros serviços...”, “Outros materiais...”, “Outras taxas...”, etc., nota-se então a necessidade de discriminar este conjunto de informações genéricas, traduzindo-as em informações objetivas e de fácil entendimento para o gestor do centro de custo. Capítulo 2. Estudo de Caso 31 2.3 Problemas e Hipóteses O principal problema abordado neste estudo é a elucidação de registros públicos contábeis. Tendo como foco mais específico, registros que de acordo com a legislação vigente são contabilmente categorizados de forma genérica. Ou seja, a elucidação de registros pouco informativos ao público de interesse. Um problema secundário abordado, é o estabelecimento de um processo para construção e integração de ferramentas de visualização em um sistema institucional em funcionamento. A partir da questão inicial de como a Informática poderia contribuir para melhoria da compreensão humana sobre os dados financeiros e contábeis, foram estabelecidas quatro hipóteses iniciais que nortearam o desenvolvimento do trabalho: • Hipótese 1 — Ferramentas de visualização da informação, criadas com informações padro- nizadas por ferramenta de classificação, são eficazes para transparência pública e eficientes para elucidação da execução orçamentária. • Hipótese 2 — Técnicas e métodos da área de aprendizado de máquina, podem ser integradas ao processo de construção de ferramentas de visualização da informação. • Hipótese 3 — Espaços de rótulos estruturados, podem ser utilizados como facilitadores na tarefa de classificação. • Hipótese 4 — Códigos e descrições de elementos contábeis, podem ser utilizados como espaços de rótulos estruturados. 2.4 Fases do Estudo de Caso Esta seção introduz as etapas do trabalho realizado, descrevendo principais atividades e resultados obtidos em cada fase do estudo. 2.4.1 Fase 1 – Diagnóstico Fase inicial do estudo de caso, que contempla essencialmente a identificação do problema, formulação de hipóteses e o estabelecimento de objetivos para investigação. A análise de registros financeiros e contábeis da faculdade estudada, demonstrou que estes apresentam informações diversificadas e de difícil entendimento para as chefias de departamentos. O contato com um modelo estático de visualização, criado manualmente a partir dos dados financeiros e contábeis, inspirou possíveis soluções para o problema identificado. Esta análise preliminar revelou a presença de problemas computacionais relacionados à Classificação de Texto, Processamento de Linguagem Natural e Visualização da Informação. Desta forma, a Contabilidade e a Administração Pública foram identificadas como as principais áreas do conhecimento envolvidas com o problema exposto. Ao passo que o Aprendizado de Máquina e a Visualização da Informação, foram identificadas como as principais áreas do conhecimento envolvidas com as soluções idealizadas. Capítulo 2. Estudo de Caso 32 Como resultado da fase de diagnóstico elaborou-se um projeto de pesquisa (detalhado no Apêndice A), abordando o tema da criação e integração de ferramentas de visualização da informação aos sistemas institucionais legados. Nesta fase também foram identificados os stakeholders da faculdade estudada, ou seja, as pessoas e setores envolvidas e interessadas no contexto da pesquisa. Estabelecendo-se então um grupo de trabalho para atuar nas atividades deste estudo, grupo composto por quatro pessoas da área de gestão administrativa e três pessoas da área da tecnologia da informação. A Tabela 3 apresenta descrição do perfil funcional de cada membro e destaca algumas ações nas quais este se envolveu durante a realização do trabalho. Tabela 3 – Descrição dos Membros do Grupo de Trabalho. Cargo/Função Descrição Profissional e Atuação no Estudo de Caso Diretor de Unidade Universitária Membro do corpo docente, responsável pela direção da faculdade no período de desenvolvimento do trabalho. Cliente demandante da solução e responsável pela autorização de execução do trabalho. Diretor da Área de Gestão Admi- nistrativa Membro do corpo técnico e administrativo, responsável pela divi- são administrativa da faculdade. Cliente demandante da solução, atuando principalmente na validação de protótipos de visualização, validando dados de categorias e finalidades, também responsável pelo embasamento legal relacionado com assuntos financeiros e contábeis. Assessor Administrativo Membro do corpo técnico e administrativo, responsável por asses- sorar a diretoria administrativa. Pessoa responsável pela criação do modelo estático de visualização, participou da elaboração das classes de categorias e finalidades, realizou validação na classifica- ção automática de dados. Assistente Administrativo Membro do corpo técnico e administrativo, responsável pelo setor de finanças da faculdade. Responsável pelo embasamento legal relacionado com assuntos financeiros e contábeis, atuou principal- mente como validador de dados. Diretor da Área de Tecnologia da Informação Membro do corpo técnico e administrativo, responsável pela dire- toria de informática da unidade. Cliente demandante da solução, colaboração na elaboração das classes de categorias e finalidades, atuou na classificação manual de dados e realizou validação na classificação automática de dados. Analista de Informática Membro do corpo técnico e administrativo, responsável pela ge- rência do projeto do sistema SisADM. Responsável por conceder acesso ao sistema institucional, também responsável pela validação de dados. Assistente de Informática Membro do corpo técnico e administrativo. Responsável pela aná- lise e desenvolvimento da solução implementada, atuando também na classificação manual de dados e na elaboração das classes de categorias e finalidades. Fonte: Produzida pelo autor. A Figura 3 representa o modelo estático de visualização, criado manualmente utilizando-se software de planilha eletrônica. Para chegar neste resultado, um membro do grupo de trabalho categorizou os lançamentos contábeis registrados em planilha eletrônica e utilizou funcionalidade específica do software para geração de gráficos. Capítulo 2. Estudo de Caso 33 Figura 3 – Visualização criada manualmente utilizando software de planilha eletrônica. Fonte: Produzida pelo autor. 2.4.2 Fase 2 – Fundamentação A partir da identificação das disciplinas relacionadas tanto com o problema abordado, quanto com a solução idealizada, procedeu-se com o levantamento de referencial teórico sobre as áreas do conhecimento identificadas. Neste sentido, realizou-se uma Revisão Sistemática da Literatura (RSL) (detalhada no Apêndice B) sobre o tema Análise de Texto, com objetivo de identificar técnicas, métodos, aplicações, usos e contribuições do aprendizado de máquina para área de Visualização da Informação. Considerando especificamente qual é a contribuição ou correlação, de aprendizado de máquina com a visualização de informação textual, sob a perspectiva humana na relação de interação humano-computador. A realização da RSL possibilitou a identificação de tópicos fundamentais da classificação de texto, do processamento de linguagem natural e da inteligência artificial (detalhados nos Apêndices D e E). Estabelecendo termos e conceitos relacionados aos temas introduzidos e contribuindo na identificação dos processos e procedimentos relacionados com a classificação de texto. Estabelecendo também, que a utilização de técnicas de aprendizado de máquina na análise de texto pode ser descrita pelas tarefas de mineração de texto, principalmente pela classificação automática de texto. A RSL contribuiu para a descoberta de abordagens, métodos, técnicas e ferramentas aplicadas na tarefa de classificação automática de texto. Constatando-se que pela literatura não é possível determinar qual é a melhor técnica a ser utilizada para classificação, sendo necessário avaliar o problema e realizar experimentações para encontrar a abordagem mais adequada. Concluindo que estas abordagens podem ser utilizadas para estruturar documentos em corpus Capítulo 2. Estudo de Caso 34 para serem utilizados por técnicas de visualização da informação. Identificou-se também, que a aplicação de métodos de agrupamento ou classificação de documentos de texto, permitem a realização de análise visual do corpora. Como resultado da revisão sistemática, estabeleceu-se que a contribuição do aprendizado de máquina para a visualização da informação, está relacionada com o pré-processamento dos dados a serem utilizados pelas ferramentas de visualização. Concluindo-se que é viável a aplicação conjunta de métodos e técnicas das áreas aprendizado de máquina e visualização da informação, para construção de sistemas de inteligência comercial (BI, do inglês Business Intelligence) e sistemas de análises visuais (em inglês, Visual Analytics). Sistemas estes, que possibilitam trabalhar os dados dos registros contábeis, de forma mais amigável e menos burocráticas para o usuário humano, permitindo a exploração das informações persistidas nos registros financeiros e contábeis. 2.4.3 Fase 3 – Execução O conhecimento consolidado na fase de fundamentação, sugere que o problema motivador deste trabalho poderia ser abordado utilizando-se de forma conjunta a classificação automática de texto e o processamento de linguagem natural, para padronização de informações dos registros financeiros e contábeis. Sendo a classificação de categorias um problema de classificação hierárquica de texto, ao passo que na identificação de finalidade tem-se um problema de classificação multiclasse plano, ambos podendo ser abordados com adaptações de técnicas semânticas, como o uso de dicionários léxicos. ◆ Decisões de Projeto A fase de execução do estudo de caso, iniciou-se com a tomada de decisões pelo grupo de trabalho estabelecido para o estudo. Destacam-se duas decisões de projeto que impactaram diretamente no desenvolvimento do trabalho: • Aquisição ou Implementação? Optou-se pela implementação total da solução, para consolidação dos conceitos estabelecidos e perpetuação deste conhecimento na equipe de tecnologia da informação. • Solução Integrada ou Ferramenta Externa? Optou-se por realizar a implementação da solução de forma integrada ao SisADM, aproveitando- se de fontes de informações fornecidas por serviços deste sistema. Contudo, a solução implementada foi desenvolvida de forma modularizada e não invasiva, podendo facilmente ser desacoplada do SisADM sem prejuízo de suas funcionalidades. ◆ Construção da Solução Estabelecidas as diretrizes de trabalho, foram desenvolvidas as atividades para construção da solução: Capítulo 2. Estudo de Caso 35 • Aquisição e Armazenamento de Dados — Primeiro, foram estabelecidas as fontes de dados e a forma de armazenamento de informações para serem utilizadas nas ferramentas de visualização. Os dados dos registros financeiros e contábeis foram obtidos de duas entidades do sistema SisADM. Entidade “Receita”, responsável por armazenar informações sobre lançamentos de crédito. Entidade “Despesa”, responsável pelos lançamentos do tipo débito. Todos os dados foram armazenados em um Data Mart1 criado especificamente para a solução de prestação de contas e exploração da execução orçamentária. • Padronização de Dados — O grupo de trabalho estabeleceu cinco finalidades para serem atribuídas aos registros financeiros e contábeis, refletindo as atividades-fim e atividades meio da instituição. Também foram estabelecidas 134 categorias para tipificação discriminativa dos registros, sendo 12 categorias do tipo crédito e 122 do tipo débito. Os nomes de categorias e finalidades foram padronizados na forma curta, sendo representados por uma única palavra. • Categorização de Registros — Um conjunto de dados experimental foi manualmente classi- ficado por membros do grupo de trabalho. A partir desta classificação, foram estabelecidas as palavras-chave relacionadas com cada classe de Categoria e Finalidade estabelecidas. Procedeu-se então com o desenvolvimento de um algoritmo de classificação de texto, um método de classificação autoral que utiliza a abordagem lexical e é baseado em palavras- chave, método utilizado para realizar a classificação automática dos registros do Data Mart, atribuindo-lhes categorias discriminativas e finalidades qualitativas. • Protótipos da Ferramentas de Visualização — Foram elaborados protótipos de ferramentas estáticas e interativas para a visualização de informações de interesse. Inicialmente um gráfico interativo para navegação em profundidade, para exploração de registros por Categoria. Além de gráficos estáticos para apresentação da distribuição de recursos entre Finalidades e centros de custo. • Protótipo da Solução — A partir dos protótipos de ferramentas visuais validados, foram desenvolvidos painéis de visualização compostos por ferramentas distintas, para apresentação de informações contextualmente relacionadas. • Integração da Solução — A solução desenvolvida foi integrada ao sistema SisADM para obtenção e classificação automática dos registros financeiros e contábeis. Os registros classificados automaticamente foram disponibilizados em uma ferramenta específica de prestação de contas, onde os gestores dos centros de custo poderiam confirmar ou ajustar a classificação dos registros do Data Mart. • Divulgação e Avaliação da Solução — Por fim, foram realizadas sessões de apresentação da solução e sessões de treinamento dos gestores dos centros de custo. Nas sessões de treinamento, a ferramenta de prestação de contas e as ferramentas para exploração da 1 Um Data Mart é um tipo simples de Data Warehouse, focado em um único assunto ou linha de negócios. (ORACLE, 2023, tradução livre) Capítulo 2. Estudo de Caso 36 execução orçamentária, foram apresentadas com riqueza de detalhes e propondo-se a realização de atividades práticas. Estas sessões também foram utilizadas para se obter a avaliação qualitativa da solução desenvolvida, avaliação realizada pelo público-alvo relacionado. 2.5 Considerações Finais sobre o Estudo de Caso Este capítulo descreveu brevemente o estudo de caso realizado neste trabalho. Nos capítulos seguintes serão apresentados o referencial teórico, obtido na fase de fundamentação, o algoritmo de classificação e as ferramentas de visualização da informação, desenvolvidos na fase de execução do estudo. 37 3 Referencial Teórico Este capítulo apresenta conceitos fundamentais sobre temas das áreas do conhecimento relacionadas com este trabalho. 3.1 Visual Analytics Tufte (2006) estabelece os princípios fundamentais de um projeto analítico, que deve integrar evidências com palavras, números e imagens, possibilitando uma análise multivariada de dados, permitindo comparações, mostrando contrastes e diferenças. O autor destaca que o conteúdo é mais importante que tudo. A análise visual de dados é realizada para encontrar-se padrões previamente desconhecidos ou que se destacam da norma (outliers). O cérebro visual humano é um poderoso mecanismo de busca de padrões, sendo esta a razão fundamental pela qual técnicas de visualização estão se tornando importantes. Métodos de visualização são a melhor maneira de apresentar informações, para que seja possível a descoberta de estruturas, grupos e tendências registradas em centenas de valores de dados (MUNZNER, 2014). Zayas et al. (2017) conceitualizam analytics como um processo de análise sistemática de dados, que utiliza várias técnicas para obter insights de um conjunto de dados. Os autores comentam que as técnicas de analytics são baseadas na combinação de regras de negócios, análises estatísticas, algoritmos, análise de texto, visualização da informação e outros. Comentam ainda que o desenvolvimento de uma plataforma de análise visual é custoso em relação a recursos humanos, financeiros e de tempo, mas que as informações disponibilizadas através deste tipo de plataforma vão além do conceito de inteligência comercial, culminando com a transformação da empresa e seus processos. 3.2 Visão Geral sobre Visualização da Informação A Visualização da Informação é a área do conhecimento dedicada ao estudo de sistemas de visualização baseados em computador. Sistemas estes, que promovem representações visuais de conjuntos de dados, com objetivo de auxiliar pessoas a realizarem tarefas de forma mais eficientes (MUNZNER, 2014). Segundo o autor, é enorme o escopo de estudo da área de visualização da informação, contemplando principalmente considerações de como criar e como interagir com representações visuais. Contemplando também o estudo do design, do processo, da construção e da avaliação de ferramentas de visualização. Nota-se na definição apresentada a presença de pessoas e computadores, sendo o elemento humano o principal ator em um sistema de visualização de informações. Capítulo 3. Referencial Teórico 38 3.2.1 Interação Humano-Computador na Visualização de Informações Soluções de visualização usufruem da significativa capacidade de processamento de informação visual que o cérebro humano possui. O sistema visual humano possui uma ligação com cérebro através de um canal com altíssima largura de banda, provendo a transmissão de significativa quantidade de informações visuais, cujo processamento ocorre de forma paralela e em nível pré-consciente (MUNZNER, 2014). Ware (2012) descreve o processo de visualização da informação em quatro etapas, que contemplam desde a origem dos dados até o processamento da informação pelo cérebro humano: • Coleta e Armazenamento de Dados — Etapa de obtenção e registro dos dados de interesse. • Pré-processamento — Responsável pela sanitização dos dados, com objetivo de torná-los mais amigáveis para manipulação e compreensão. • Representação Visual — Projeção dos dados em ferramentas de visualização da informação suportadas por computador. • Percepção do Significado da Representação — O processo cognitivo humano. A Figura 4 representa o processo descrito por Ware (2012). O autor descreve que é comum que sejam realizados na etapa de pré-processamento, procedimentos como: i) a resolução de ambiguidades textuais; ii) a redução da quantidade de dados; e, iii) a transformação e padronização de dados tais como nomenclaturas ou unidades métricas quantitativas. Com relação à representação visual, Munzner (2014) destaca que ferramentas de visua- lização são representações externas que possibilitam estender a memória interna e melhorar a capacidade de cognição humana. O autor indica que uma das vantagens da utilização de gráficos como memória externa, é a possibilidade de organizar informações por localização espacial, o que acelera tanto a busca quanto o reconhecimento de padrões. Figura 4 – Etapas do Processo de Visualização da Informação. Fonte: Extraído de (DA SILVA RODRIGUES; BREGA, 2017). Capítulo 3. Referencial Teórico 39 Munzner (2014) também ressalta a importância de se considerar as limitações envolvidas nesta relação de interação humano-computador na visualização de informações. O autor elenca três principais tipos de limitações que afetam de diferentes formas os componentes da relação: • Capacidade Perceptual e Cognitiva Humana — A atenção do ser humano pode ser facilmente prejudicada. E a capacidade da memória humana para o armazenamento de longo prazo de informações não visuais é limitada. Por fim, surpreendentemente, a memória de trabalho visual (memória de curto prazo) armazena poucas informações pode nos deixar vulneráveis à cegueira da mudança. • Capacidade Computacional — Recursos computacionais como a memória e a capacidade de processamento, são recursos limitados e finitos. O tamanho do conjunto de dados pode ultrapassar a capacidade de memória do computador. Da mesma forma, é uma grande preocupação a complexidade computacional dos algoritmos para pré-processamento de dados, transformação, layout e renderização. • Capacidade de Exibição. — Por vezes, o tamanho e a resolução da tela disponível, não é suficiente para mostrar simultaneamente todas as informações desejadas. Deste modo, o projetista de ferramenta de visualização deve ponderar entre os benefícios de apresentar tudo que for possível de uma única vez, o que minimiza a necessidade de navegação e exploração, contrapondo com os malefícios de apresentar muitas informações, o que pode prejudicar a experiência do usuário pela desordem visual. 3.2.2 Motivações para Construção de Ferramentas de Visualização Ferramentas de visualização podem ser projetadas para diversas finalidades. Estas ferra- mentas ajudam pessoas analisarem a estrutura do conjunto de dados, seja de forma exploratória para se encontrar padrões, confirmando os esperados ou descobrindo os inesperados, ou seja como ferramenta de apoio na avaliação e análise modelos estatísticos, julgando-se a adequação do modelo aos dados. Ferramentas de visualização permitem que pessoas analisem dados para encontrar respostas a perguntas que não sabiam que deveriam ser feitas (MUNZNER, 2014). O autor destaca que uma solução de visualização é adequada quando existe a necessidade de aumentar as capacidades do agente humano envolvido no processo de tomada de decisão, ao invés de simplesmente substituir as pessoas por métodos computacionais de tomada de decisão. Destacando ainda, o fato da necessidade de julgamento humano sobre as informações relacionadas, ser fator determinante para criação (ou não) de uma solução de visualização de informações. Pois se existe solução aceitável baseada em computador que consiga tomar decisões de forma completamente automatizada, então não existe necessidade de se projetar uma ferramenta de visualização. 3.2.3 Motivações para Utilização de Ferramentas de Visualização A utilização de ferramentas de visualização na análise de dados, pode ser feita por pessoas que desejam apenas consumir informações existentes, ou pode ser realizada por usuários Capítulo 3. Referencial Teórico 40 interessados em produzir ativamente novas informações. Sendo mais comum o caso dos usuários que desejam apenas consumir informações existentes (MUNZNER, 2014). Neste caso, o autor informa que a utilização de ferramentas de visualização são motivadas por três principais objetivos: • Descobrir — A meta de descoberta consiste na utilização da visualização para encontrar no- vos conhecimentos. Esta utilização pode ser com objetivo de encontrar coisas completamente novas ou de descobrir se uma conjectura é verdadeira ou falsa. • Apresentar — Utilização da visualização para comunicação sucinta de informações com storytelling, que consiste na contação de história com apresentação de dados para orientar um público através de uma série de operações cognitivas. A principal característica deste objetivo é a utilização da visualização para comunicar algo específico e já compreendido para o público, podendo ocorrer em contextos institucionais como a tomada de decisão, planejamento, previsão e processos de instrução. • Apreciar — A apreciação refere-se a encontros casuais com visualizações, por exemplo, ao se observar um infográfico que acompanha um texto publicado. Neste sentido, a utilização de ferramentas de visualização não é motivada por uma necessidade, mas pela curiosidade. Curiosidade esta que pode ser satisfeita ou estimulada pela ferramenta de visualização. 3.2.4 Diretrizes para Projeto de Construção de Ferramentas de Visualização Segundo Munzner (2014), o projeto de uma ferramenta de visualização deve ser balizado pela tarefa objetivo do usuário, ou seja, é necessário pensar no que o usuário pretende fazer para que a ferramenta seja adequada à tarefa. Pois uma mesma ferramenta de visualização pode servir bem para uma tarefa e ao mesmo tempo ser inadequada para outra. A criação e manipulação de representações visuais segue o idioma de visualização esta- belecido para tal, sendo possível criar de muitas maneiras uma representação visual de dados como uma única imagem. Representações estáticas simples podem ser concebidas com vários tipos de gráficos (e.g., gráfico de barras, gráfico de linhas, gráfico de pizza, gráfico de rosca). E as possibilidades de design expandem-se ao considerar a manipulação de uma ou mais dessas imagens de forma interativa, de modo que a união de múltiplos diagramas simples por meio da interação apresenta um idioma de visualização mais complexo. A interatividade é crucial em ferramentas de visualização que lidam com complexidades, pois permitem a investigação em vários níveis de detalhe, desde uma macrovisão resumida até uma microvisão detalhada, permitindo também representar relações, conexões e dependências de informações (e.g., hierarquias, especializações, generalizações). Tufte (2001) discorre sobre a representação visual da informação quantitativa, mostrando como utilizar pontos, linhas, sistema de coordenadas, números, símbolos, palavras, sombreamento e cores, para apresentar visualmente quantidades medidas. O autor estabelece que bons gráficos servem a um propósito claro, devendo mostrar os dados. A ferramenta de visualização deve induzir o usuário a pensar sobre o conteúdo e não sobre a forma. Bons gráficos são capazes de representar grandes conjuntos de informação de forma coerente e evitando distorções. Estes Capítulo 3. Referencial Teórico 41 gráficos devem revelar dados em vários níveis de detalhamento e deve ser possível a comparação entre trechos de dados. Kirk (2012) fornece orientações para que projetistas de visualizações tenham sucesso na construção de ferramentas de visualização de informações. O autor discorre, por exemplo, sobre objetivos típicos de visualizações e realizada a indicação de ferramentas adequadas para se atingir estes objetivos. A Tabela 4 apresenta exemplos da relação estabelecida pelo autor entre os objetivos típicos e as ferramentas indicadas. Tabela 4 – Relação de Objetivos com Métodos de Visualização de Dados. Finalidade da Visualização Método de Visualização Indicado Representação de relações hierárquicas Gráfico de Pizza/RoscaRepresentação de relação parte-de-todo Comparação monovalorada de categorias Gráfico de Barras Comparação multivalorada de categorias Diagrama de Sankey Representação de mudanças ao longo do tempo Gráfico de Linha Fonte: Produzida pelo autor. 3.2.5 Ferramentas de Visualização Esta seção dedica-se à descrição das ferramentas de visualização implementadas neste trabalho. ◆ Gráfico de Pizza e Gráfico de Rosca Os gráficos de pizza e rosca são representados por figura circular, sendo o gráfico de pizza um círculo com a totalidade de sua área preenchida pelo conteúdo, enquanto o gráfico de rosca possui a região central sem conteúdo, permitindo a inclusão de rótulos ou ícones nesta região. Segundo Kirk (2012), os gráficos circulares são provavelmente o tipo de gráfico mais controverso, pois pode atrair um sentimento negativo devido a dificuldade humana em interpretar com precisão ângulos e avaliar (ou comparar) áreas de segmentos circulares. O autor também destaca que esta negatividade é na realidade um reflexo do implacável mau uso desta ferramenta. Desta forma, não é indicada a inclusão de muitas categorias e cores, também sendo fortemente contraindicada a utilização de decorações 3D. Recomenda-se sempre iniciar o primeiro corte a partir da posição vertical, para melhor disposição do arranjo visual da ferramenta. ◆ Gráfico de Barras A ferramenta gráfico de barras, que também pode ser chamada de gráfico de colunas, transmite informações com a utilização da altura ou da largura de uma barra. A disposição das barras lado a lado possibilita ao usuário realizar comparações precisas entre valores relativos ou absolutos das categorias apresentadas. É importante mostrar toda a extensão da propriedade quando se utiliza o comprimento como a variável visual para representar um valor quantitativo, por isso, sempre deve-se iniciar Capítulo 3. Referencial Teórico 42 a barra do ponto zero do eixo. E o uso da coloração pode ajudar no destaque de categorias específicas e na construção da narrativa relacionada com a informação (KIRK, 2012). ◆ Diagrama de Sankey O Diagrama de Sankey é uma ferramenta de visualização que permite representar o fluxo de um conjunto de valores. Os elementos terminais do fluxo são chamados de nós (node, em inglês), sendo estes conectados pelos elementos chamados de links. Este diagrama é indicado para demonstrar mapeamentos de muitos para muitos entre dois domínios, sendo também indicado para representar vários caminhos em um evento separado por etapas (KIRK, 2012; GOOGLE, 2022). Um famoso exemplo na área de visualização de informação, para a utilização deste tipo de diagrama representando fases de um evento, é o trabalho de Charles Joseph Minard representado na Figura 5, na qual estão demonstradas as baixas do exército de Napoleão, durante a campanha contra a Rússia nos anos de 1812 e 1813. Figura 5 – Representação de Charles Joseph Minard para as baixas no exército de Napoleão. Fonte: Tufte (2006, pág. 123-124). No Diagrama de Sankey, nós e links são representados de acordo com a variação de valores atribuídos. Ou seja, quanto maior o valor, maior será o tamanho do elemento relacionado. Segundo o Google (2022), na documentação de sua plataforma Google Charts1, este tipo de diagrama recebeu o nome do capitão Sankey, que criou um diagrama de eficiência do motor a vapor, utilizando setas com larguras proporcionais à perda de calor. ◆ Gráfico de Linha As ferramentas do tipo gráfico de linhas são provavelmente algo que a maioria das pessoas estejam familiarizadas. Este tipo de gráfico é utilizado para analisar uma variável quantitativa 1 https://developers.google.com/chart/interactive/docs https://developers.google.com/chart/interactive/docs Capítulo 3. Referencial Teórico 43 contínua no eixo X, registrando-se os valores periodicamente medidos no eixo Y. Os pontos de medição são unidos usando-se linhas que demonstram a trajetória de tendência (descendente, estável, ascendente) observada na medição temporal. Destaca-se que ao contrário dos gráficos de barras, o eixo Y não precisa começar no valor zero, pois a ferramenta apresenta um padrão relativo do percurso de dados (KIRK, 2012). Segundo Castillo (2014), gráficos de linha são ideais para representação de séries temporais, pois permitem a fácil identificação de pontos sazonais discrepantes. Este conceito frequentemente é expresso em inglês como outliers. O autor destaca ainda que caso seja necessário precisão de valores, a representação em tabela é a melhor escolha, mas se a exatidão não for necessária, o gráfico de linhas é uma excelente ferramenta para representação de séries temporais. Para Munzner (2014), séries temporais são a forma de representação mais utilizada de design gráfico. Séries temporais são utilizadas para apresentar valores medidos em intervalos regulares de tempo. Os registros de preços de uma ação ou os registros de batidas do coração em um eletrocardiograma, são bons exemplos de séries temporais. ◆ Dashboards A palavra dashboard poderia ser traduzida para Língua Portuguesa como “painel”, no sentido de ser um “painel visual”. Few (2006, tradução livre) define dashboard como “uma exibição visual das informações mais importantes necessárias para atingir um ou mais objetivos; consolidados e organizados em uma única tela para que as informações possam ser monitoradas rapidamente”. Castillo (2014) descreve que dashboards são exibições densas de gráficos para ajudar a entender da maneira mais rápida e eficaz possível, as principais métricas de um problema observado. Sendo esta ferramenta frequentemente utilizada em soluções de BI, para apresentação de painéis de inteligência de negócios. O autor destaca ainda que a principal característica de um dasboard é que toda informação possível deve estar visível e disponível para o consumo imediato do usuário, de modo que toda a informação seja entregue rapidamente. 3.2.6 Avaliação de Ferramentas de Visualização Segundo Kirk (2012), projetistas de soluções de visualização podem conhecer grandes conceitos e ter impressionantemente ideias criativas, que podem ser concretizadas utilizando-se os recursos tecnológicos adequados e disponíveis. Após esta concretização e lançamento da ferramenta, o projetista deve avaliar a eficácia e o impacto das visualizações, buscando identificar o quão bem seu projeto serviu ao propósito de criação determinado no início do processo. O autor elenca que os principais feedbacks de interesse são: • Houve uma reação positiva à peça criada? • A solução ofereceu o tom apropriado? • O trabalho atingiu o tipo e volume de público de interesse? Capítulo 3. Referencial Teórico 44 • Os usuários foram capazes de consumir ou descobrir ideias de forma eficaz? • Quais os problemas que as pessoas experimentam, se houveram? Para se obter estes feedbacks de interesse, o autor sugere alguns possíveis métodos de avaliação, por exemplo: • Métricas e Indicadores de Referência — Quantificação de informações estatísticas, utilizada frequentemente em soluções Web para indicar o alcance e popularidade da página. • Feedback de Cliente — Retorno daqueles que demandaram a visualização, que obviamente possuem a opinião mais relevante sobre a solução apresentada. • Revisão por Pares — Avaliações importantes e construtivas podem ser realizadas por profissionais especialistas, estudiosos ou líderes de pensamento. • Feedback Não Estruturado — Valor obtido por comentários espontâneos, frequentemente realizados em soluções online que permitem esta manifestação do usuário. • Solicitação de Avaliação — Convite realizado de forma pró-ativa para que os usuários avaliem a solução proposta. • Estudo de Caso Formal — Nível avançado de avaliação, com utilização de método científico. 3.3 Visão Geral sobre Classificação de Texto Numa definição ampla, a classificação de texto é o processo de atribuir categorias à amostras de texto. Este conceito de também pode ser encontrada na literatura como categorização de texto (KUMAR; RAVI, 2016; RAZA et al., 2019). A tarefa de classificação de documentos, é uma especificação da classificação de texto, também consistindo na atribuição de uma ou mais classes a um documento de texto (KOTU; DESHPANDE, 2019). Um tradicional exemplo de aplicação desta tarefa é a classificação de emails, realizada para identificação de mensagens de spam e phishing, ou realizada para categorização de mensagens por tópicos de interesse. Maron (1961) e Borko e Bernick (1963) demonstram que a pesquisa em classificação automática de texto não é recente, remontando à década de 60. Mas este é um tema de pesquisa que ainda demonstra-se atual, tendo como principal foco a melhoria nos métodos ou abordagens de classificação. Analisando-se o tópico Classificação de Documentos da ScienceDirect (2023), percebe-se que este é um tema de pesquisa multidisciplinar. Tema relacionado por exemplo, mas não exclusivamente, com a Ciência da Informação (MAALEJ et al., 2016), com a Ciência da Computação (WALLACE; PAVLENKO, 2011) e com o Processamento de Linguagem Natural (YOUNG et al., 2018). Guo, Shi e Tu (2016) descrevem que é possível distinguir abordagens de análise de texto em três categorias: Lexical, Semântica e Machine Learning. A abordagem lexical se refere a técnicas relacionadas com medidas de legibilidade de texto como Fog Index ou, refere-se a técnicas baseados em dicionários léxicos como Harvard General Inquirer (Harvard GI) ou Loughran and Capítulo 3. Referencial Teórico 45 Mcdonald dictionary (LM dictionary). Os autores destacam o trabalho de Ingram e Frazier (1980) como o primeiro trabalho a introduzir a análise de conteúdo textual, utilizando-se da contagem de frequência de palavras-chave para realizar esta abordagem lexical. A abordagem semântica dedica-se à extração de conteúdo conceitual em documentos de texto, buscando também a identificação de relações entre documentos. E a abordagem Machine Learning é empregada em diversas tarefas de mineração de texto. Tendências recentes apresentam utilização de técnicas cada vez mais complexas para realização de tarefas de classificação de texto, com pesquisadores utilizando abordagens de Machine Learning (ML), Deep Learning (DL) e Inteligência Artificial (AI, do inglês Artificial Intelligence), para obterem melhores resultados de classificação em problemas específicos (HINGMIRE et al., 2013; YOUNG et al., 2018; MIROŃCZUK; PROTASIEWICZ, 2018; PIKIES; ALI, 2019; IBRAHIM et al., 2021; MA et al., 2022). Apesar de toda evolução nos métodos de classificação de texto, nem todo problema de classificação necessita da utilização de algoritmos complexos e de difícil implementação (Hard Computing solution). A teoria Soft Computing denota que problemas suaves podem ser enfrentados por técnicas tradicionais (ZADEH, 1994; IBRAHIM, 2016). 3.4 Tipos de Problemas de Classificação de Texto Embora a conceitualização ampla da classificação de texto ser bastante simples, esta definição varia de acordo com o modo operante e com o problema de classificação abordado. No quesito modo operante, a classificação pode ser automática ou manual. Sendo a classificação automática de texto a mais proeminente dentre todas as tarefas da mineração de texto, tanto que 67% dos trabalhos analisados no estudo de Amani e Fadlalla (2017) estavam relacionados com a tarefa de classificação de texto. Quanto aos problemas de classificação, eles podem ser divididos em: i) Planos ou Hierárquicos; ii) Binários ou Multiclasse; e, iii) Monorrótulo ou Multirrótulo. A nomenclatura dos tipos de problemas é definida por características específicas de cada problema, podendo um mesmo problema se enquadrar em mais de um tipo. Os tópicos a seguir descrevem os seis principais tipos de problemas de classificação. 3.4.1 Classificação Binária Modelo de problema onde o conjunto de soluções é de ordem binária. O conjunto de classes possíveis de serem atribuídas às amostras consiste em apenas duas opções. Exemplos de classes para problemas binários: {0,1}, {é, não é}, {verdadeiro, falso} e {crédito, débito}. 3.4.2 Classificação Multiclasse Neste modelo, o conjunto de soluções tem um tamanho finito variando de três até n. Exemplos de classes para problema multiclasse: {auxílios, compras, diárias, transportes}. Capítulo 3. Referenc