UNIVERSIDADE ESTADUAL PAULISTA FACULDADE DE FILOSOFIA E CIÊNCIAS, CAMPUS DE MARÍLIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO Jorge Janaite Neto Recuperação de Informação Textual Baseada em Cluster Conceitual Marília – SP 2023 UNIVERSIDADE ESTADUAL PAULISTA FACULDADE DE FILOSOFIA E CIÊNCIAS, CAMPUS DE MARÍLIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO Jorge Janaite Neto Recuperação de Informação Textual Baseada em Cluster Conceitual Tese apresentada ao Programa de Pós-Graduação em Ciência da Informação da Faculdade de Filosofia e Ciências – Universidade Estadual Paulista “Júlio de Mesquita Filho” – UNESP, campus de Marília, como requisito parcial para obtenção do título de Doutor em Ciência da Informação Área de concentração: Informação, Tecnologia e Conhecimento Linha de Pesquisa: Informação e Tecnologia Orientador: Prof. Dr. Edberto Ferneda Marília – SP 2023 Tese (doutorado) - Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Marília Orientador: Edberto Ferneda 1. Algoritmos de computador. 2. Recuperação da informação. 3. Indexação automática. 4. Análise por agrupamento. 5. Estruturas conceituais (Teoria da informação). I. Título. Recuperação de informação textual baseada em cluster conceitual / Jorge Janaite Neto. -- Marília, 2023 128 p. Janaite Neto, Jorge J33r Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Filosofia e Ciências, Marília. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. Impacto potencial desta pesquisa Esta tese traz uma proposta que possui o potencial de causar impactos positivos à sociedade. Conforme estabelecido pela Assembleia Geral das Nações Unidas (AGNU) no ano de 2015, os Objetivos de Desenvolvimento Sustentável (ODS) oferecem “um plano comparti- lhado para a paz e a prosperidade das pessoas e do planeta, agora e no futuro”1; este plano é composto por 17 metas que compõem um plano maior para Desenvolvimento Sustentável, chamado Agenda 2030. O impacto potencial para a sociedade que esta tese apresenta está fortemente relacionado a três objetivos: ODS 04 (Educação de Qualidade), ODS 10 (Redução das Desigualdades) e ODS 16 (Paz, Justiça e Instituições Eficazes). ODS 04: Educação de Qualidade – “Garantir uma educação de qua- lidade, inclusiva e equitativa, e promover oportunidades de aprendizagem ao longo da vida para todos”2. Recuperar informação está intimamente ligado à aprendizagem. A proposta de empregar clusters para a repre- sentação dos conceitos contidos nos documentos, além de promover uma indexação automática mais assertiva, também oferece a possibilidade de novas interfaces de busca. Isso contribui significativamente para ampliar as oportunidades de aprendizagem ao longo da vida das pessoas. ODS-10: Redução das Desigualdades – “Reduzir a desigualdade de rendimentos dentro e entre os países”3. Existe um certo consenso de que há indícios de uma forte relação entre nível de escolaridade e renda aqui no Brasil. Este trabalho científico traz uma proposta que tem o potencial de oferecer maneiras mais intuitivas e mais assertivas para a recuperação de informação, tornando menos elitizado o acesso aos materiais, incentivando o indivíduo a explorar os textos, independentemente de quão familiarizado ele esteja com tais; com isso incentivando os estudos e trazendo como consequência, a longo prazo, uma redução desta desigualdade de rendimentos. ODS 16: Paz, Justiça e Instituições fortalecidas – “Promover soci- edades pacíficas e inclusivas para o desenvolvimento sustentável, proporcio- nar acesso à justiça para todos e construir instituições eficazes, responsáveis e inclusivas a todos os níveis”4 . Neste aspecto, esta tese ao propor melhoria na forma de manipular os conceitos e com isso auxiliar no processo de in- 1 “[The 17 goals are] shared blueprint for peace and prosperity for people and the planet, now and into the future”. Disponível em . Acesso em 01.nov.2023. 2 “Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all” 3 “Reduce income inequality within and among countries” 4 “Promote peaceful and inclusive societies for sustainable development, provide access to justice for all and build effective, accountable and inclusive institutions at all levels” https://sdgs.un.org/goals dexação automática e recuperação, favorece a criação de novas ferramentas para promover o acesso à justiça, tais como ferramentas de busca por situações semelhantes para garantir a uniformidade das decisões aplicadas. Esta pesquisa também busca contribuir com a Ciência da Informação e com a linha de pesquisa Informação e Tecnologia, do Programa de Pós-Graduação em Ciência da Informação (PPGCI) da Unesp de Marília, ao propor novas maneiras de representar a informação. Potential impact of this research This thesis presents a proposal that has the potential to have a positive impact on society. As established by the United Nations General Assembly (UNGA) in 2015, the Sustainable Development Goals (SDGs) offer “a shared blueprint for peace and prosperity for people and the planet, now and into the future”5; this plan is made up of 17 goals that make up a larger plan for Sustainable Development, called 2030 Agenda. The potential impact on society that this thesis presents is strongly related to three goals: SDG 04 (Quality Education), SDG 10 (Reducing Inequalities) and SDG 16 (Peace, Justice and Effective Institutions). SDG 04: Quality Education “Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all”. Retrieving information is closely linked to learning. The proposal to use clusters to represent the concepts contained in documents not only promotes more assertive automatic indexing, but also offers the possibility of new search interfaces. This contributes significantly to expanding people’s lifelong learning opportunities. SDG-10: Reducing Inequalities – “Reduce income inequality within and among countries”. There is a certain consensus that there is evidence of a strong relationship between educational attainment and income here in Brazil. This scientific work puts forward a proposal that has the potential to offer more intuitive and more assertive ways of retrieving information, making access to materials less elitist, encouraging individuals to explore texts, regardless of how familiar they are with them; thereby encouraging study and bringing about, in the long term, a reduction in this income inequality. SDG 16: Peace, Justice and Strengthened Institutions – “Promote peaceful and inclusive societies for sustainable development, provide access to justice for all and build effective, accountable and inclusive institutions at all levels”. In this respect, this thesis, by proposing an improvement in the way concepts are manipulated and thereby assisting in the automatic indexing and retrieval process, favors the creation of new tools to promote access to justice, such as search tools for similar situations to ensure uniformity in the decisions applied. This research also aims to contribute to Information Science and the Information and Technology research line of the Postgraduate Program in Information Science (PPGCI) at Unesp Marília, by proposing new ways of representing information. 5 Available at . Accessed on 01.nov.2023. https://sdgs.un.org/goals Jorge Janaite Neto Recuperação de Informação Textual Baseada em Cluster Conceitual Tese apresentada ao Programa de Pós-Graduação em Ciência da Informação da Faculdade de Filosofia e Ciências – Universidade Estadual Paulista “Júlio de Mesquita Filho” – UNESP, campus de Marília, como requisito parcial para obtenção do título de Doutor em Ciência da Informação Área de concentração: Informação, Tecnologia e Conhecimento Linha de Pesquisa: Informação e Tecnologia Banca Examinadora Prof. Dr. Edberto Ferneda (Orientador) Departamento de Ciência da Informação Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP) Profa. Dra. Rachel Cristina Vesu Alves Departamento de Ciência da Informação Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP) Prof. Dr. Cecilio Merlotti Rodas Departamento de Ciência da Informação Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP) Prof. Dr. Fabricio Baptista Instituto Federal de Educação, Ciência e Tecnologia do Paraná (IFPR) Campus Jacarezinho Prof. Dr. Marckson Roberto Ferreira de Sousa Departamento de Ciência da Informação Universidade Federal da Paraíba (UFPB) Marília, 28 de setembro de 2023. Este trabalho é dedicado ao meu incrível e estimado irmão Antonio Janaite Filho e aos meus queridos pets6 que ao longo destes anos foram, literalmente, aparecendo em minha vida, cada um acompanhado de uma história Vocês todos são o máximo! 6 Gatos: Sir James White, Penélope Caroline, Coquinho Cristina, Ivanov Vaquinha, Charlie Root, Leon Henrique, David Fluke (in memoriam), Billy (in memoriam), Luizão, Mike, Salém, Lucy, Dennis Yellow; Cachorros: Shoyo (in memoriam), Bill, Meggie, Greta, Chico, Bóris, Maverick, Ada, Ted Nelson, Layla e Max (in memoriam). Agradecimentos A elaboração de qualquer pesquisa envolve diversas vivências ao longo da jornada. Quero agradecer, primeiramente, ao Prof. Dr. Edberto Ferneda, meu orientador, que soube com serenidade e conhecimento conduzir esse trabalho, proporcionando ótimas discussões e trazendo reflexões inusitadas a todo momento. Agradeço à Giselli Hara que se fez presente, com dedicação e companheirismo, durante todas as etapas. Agradeço também aos membros da banca de qualificação e defesa, pelas importantes sugestões que serviram para aprimorar este trabalho. Meus sinceros agradecimentos a todos os envolvidos que, de alguma maneira, contribuíram com este trabalho, incluindo aqui todos aqueles que participaram desta minha jornada acadêmica desde os tempos de minha graduação até este momento. [. . . ] Espero, disse Poole a si mesmo, que essa confiança seja justificada. Alguém disse uma vez que qualquer tecnologia suficientemente avançada é indistinguível da magia Encontrarei magia neste novo mundo – e serei capaz de lidar com ela? Arthur C. Clarke (1997, p. 36) É na prática que o homem tem de comprovar a verdade, isto é, a realidade e o poder, a natureza interior de seu pensamento. A disputa acerca da realidade ou não realidade do pensamento – que é isolado da prática – é uma questão puramente escolástica. Karl Marx (2007, p. 533). Resumo A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operar- mos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa. Palavras-chave: Algoritmos de computador. Recuperação da informação. Indexação automática. Análise por agrupamento. Organização da informação. Abstract The current abundance of document production makes it necessary to develop new classification schemes that can organize a large volume of material produced incessantly. Since a significant part of this textual material is produced and stored digitally, this greatly favors the use of automatic indexing systems. Information retrieval is a linguistic process while automatic indexing operated by computers is a statistical process, making it necessary to bring these areas of knowledge closer together. Traditionally, texts are considered as a set of words with a topical relevance proportional to the frequency of occurrence within each document and the frequency between the documents that make up the document corpus, this representation is called bag-of-words. The main shortcoming of these classic representations based on the bag-of-words model is the treatment given to ambiguous words: they are discarded or ignored; this greatly reduces the quality of indexing and consequently the quality of retrieval. The problem of terminological ambiguity is a linguistic problem: some words that are orthographically identical have different meanings. If we overcome the terminological issue and operates at a conceptual level, the problem of ambiguity would be solved: the concepts are unambiguous. The purpose of this dissertation is to investigate and propose the use of concept-based clustering to improve the effectiveness of the automatic indexing and information retrieval process by improving representation of the texts that make up the document corpus, representing them by conceptual groupings. At the end, an experiment is carried out to illustrate the practical application of the proposed algorithm, as well as to demonstrate the promising results achieved and lay the groundwork for a future full implementation of it. Keywords: Computer algorithms. Information retrieval. Automatic indexing. Cluster analysis. Conceptual structures (Information theory). Information organization. Lista de ilustrações Figura 1 – Representação da Necessidade de Informação . . . . . . . . . . . . . . 33 Figura 2 – Funções de um sistema de recuperação de informações . . . . . . . . . 42 Figura 3 – Modelo de SRI proposto por Ingwersen (1996) . . . . . . . . . . . . . . 43 Figura 4 – Modelo atualizado de SRI de Ingwersen (1999) . . . . . . . . . . . . . . 45 Figura 5 – Fluxo de um sistema de recuperação de informações digital . . . . . . . 46 Figura 6 – Classificação das features . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Figura 7 – Obtenção das unidades terminológicas . . . . . . . . . . . . . . . . . . 66 Figura 8 – Obtenção das unidades conceituais . . . . . . . . . . . . . . . . . . . . 67 Figura 9 – Ilustração da proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Figura 10 – Ilustração dos algoritmos utilizados na proposta . . . . . . . . . . . . . 69 Figura 11 – fluxograma do algoritmo RSLP . . . . . . . . . . . . . . . . . . . . . . 72 Figura 12 – Obtenção do prefixo e do sufixo . . . . . . . . . . . . . . . . . . . . . . 73 Figura 13 – Fluxograma de execução de um passo do Algoritmo RSLP . . . . . . . 74 Figura 14 – exemplo de similaridade de Jaccard . . . . . . . . . . . . . . . . . . . . 80 Figura 15 – Exemplo do algoritmo K–Means Clutering . . . . . . . . . . . . . . . . 82 Figura 16 – Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Figura 17 – Resultado da aplicação do K-Means Cluster . . . . . . . . . . . . . . . 91 Lista de quadros Quadro 1 – Exemplo para cálculo dos coeficientes de distância . . . . . . . . . . . 57 Quadro 2 – Exemplo coeficientes a, b, c, d entre documentos Doc1 x Doc2 . . . . . 57 Quadro 3 – Exemplo: coeficiente de distância Simple Match . . . . . . . . . . . . . 57 Quadro 4 – Exemplo: coeficiente de distância de Jaccard . . . . . . . . . . . . . . 58 Quadro 5 – Exemplo: termo × documento . . . . . . . . . . . . . . . . . . . . . . 58 Quadro 6 – Algoritmo RSLP exemplo de redução plural . . . . . . . . . . . . . . . 75 Quadro 7 – Algoritmo RSLP exemplo de redução plural . . . . . . . . . . . . . . . 75 Quadro 8 – Algoritmo RSLP exemplo de redução adverbial . . . . . . . . . . . . . 76 Quadro 9 – Algoritmo RSLP exemplo de redução do aumentativo e do diminutivo 76 Quadro 10 – Algoritmo RSLP exemplo de redução de sufixo nominal . . . . . . . . 76 Quadro 11 – Algoritmo RSLP exemplo de redução de sufixo verbal . . . . . . . . . 77 Quadro 12 – Algoritmo RSLP exemplo de remoção de vogal . . . . . . . . . . . . . 77 Quadro 13 – matriz de similaridade entre os documentos doc1, doc2, doc3 . . . . . 79 Quadro 14 – Exemplo: Algoritmo Apriori – dataset . . . . . . . . . . . . . . . . . . 85 Quadro 15 – Exemplo: Algoritmo Apriori – passo 01 . . . . . . . . . . . . . . . . . 86 Quadro 16 – Exemplo: Algoritmo Apriori – passo 02 . . . . . . . . . . . . . . . . . 86 Quadro 17 – Exemplo: Algoritmo Apriori – passo 03 . . . . . . . . . . . . . . . . . 86 Quadro 18 – Exemplo: Algoritmo Apriori – Resultado final . . . . . . . . . . . . . 86 Quadro 19 – Formação das Unidades Terminológicas . . . . . . . . . . . . . . . . . 90 Quadro 20 – Unidades Terminológicas selecionadas (TF-IDF normalizado >= 0,3) . 94 Quadro 21 – Processamento Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Quadro 22 – Unidade Conceitual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Quadro 23 – palavras radicalizadas e contagem de frequência . . . . . . . . . . . . 107 Quadro 23 – palavras radicalizadas e contagem de frequência (continuação . . . ) . . 108 Quadro 24 – Redução Plural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Quadro 25 – Redução do Feminino . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Quadro 26 – Redução Adverbial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Quadro 27 – Redução Aumentativo/Diminutivo . . . . . . . . . . . . . . . . . . . . 112 Quadro 28 – Redução do Sufixo Nominal . . . . . . . . . . . . . . . . . . . . . . . . 113 Quadro 28 – Redução do Sufixo Nominal (continuação . . . ) . . . . . . . . . . . . . 114 Quadro 28 – Redução do Sufixo Nominal (continuação . . . ) . . . . . . . . . . . . . 115 Quadro 28 – Redução do Sufixo Nominal (continuação . . . ) . . . . . . . . . . . . . 116 Quadro 29 – Redução Sufixo Verbal . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Quadro 29 – Redução Sufixo Verbal (continuação . . . ) . . . . . . . . . . . . . . . . 117 Quadro 29 – Redução Sufixo Verbal (continuação . . . ) . . . . . . . . . . . . . . . . 118 Quadro 29 – Redução Sufixo Verbal (continuação . . . ) . . . . . . . . . . . . . . . . 119 Quadro 30 – Remoção de Vogal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Lista de tabelas Tabela 1 – TF , Docfreq e IDF das Unidades Terminológicas . . . . . . . . . . . 93 Tabela 2 – TF ∗ IDF das Unidades Terminológicas e conjunto C1 . . . . . . . . . 95 Lista de abreviaturas e siglas CLI Command Line Interface CO2 Gás Carbônico – dióxido de carbono CSV Comma separated values. Arquivo separado por vírgulas Docfreq Frequência de um termo ou UT em um documento IDF Inverse Document Frequency IPCC Painel Intergovernamental sobre Mudanças Climáticas ISO International Organization for Standardization IUCN União Internacional para Conservação da Natureza MND Mutual Neighbor Distance MS Excel Software Microsoft Excel – Software planilha de cálculos PHP PHP Hypertext Processing (acrônimo recursivo) PIN Perceived Information Need PLN Processamento de Linguagem Natural RI Recuperação de Informações RIN Real Information Need RSLP Removedor de Sufixos da Língua Portuguesa SI Sistemas de Informação SMART System for the Mechanical Analysis and Retrieval of Text SRI Sistema de Recuperação de Informações TF Term Frequency TF-IDF Term Frequency - Inverse Document Frequency TGT Teoria Geral da Terminologia UC Unidade Conceitual UT Unidade Terminológica Lista de símbolos ∈ Símbolo matemático de “pertence” R Conjunto dos Números Reais ≡ Símbolo matemático para “equivalente” φ Letra grega minúscula Phi Neste trabalho, função “medida de dissimilaridade” = Símbolo matemático para igualdade ̸= Símbolo matemático para não igualdade ≈ Símbolo matemático para aproximadamente α Letra grega minúscula alfa δ Letra grega minúscula delta∑ Letra grega Sigma Símbolo matemático para somatória Exemplo: ∑7 n=5 Xi soma os elementos X5 + X6 + X7 π Letra grega minúscula Pi D Letra D em escrita gótica Fraktur Neste trabalho, conjunto de transações/termos que serão analisados pelo algoritmo Apriori; e conjunto de documentos que serão processados e agrupados pelo algoritmo K-Means |x| Operação módulo. Valor absoluto τ Letra grega minúscula Tau A ⊆ B Conjunto A é um subconjunto de B. A esta contido em B A ⊂ B Conjunto A é um subconjunto próprio de B. Condição: B ⊆ A e B ̸= A A ∩ B Intersecção entre conjunto A e conjunto B ∅ Símbolo matemático para conjunto vazio A ∪ B União entre o conjunto A e o conjunto B ++ Símbolo matemático duplo sinal de soma. Representa incremento unitário de uma variável inteira Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2 Problema de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4 Pressupostos teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.5 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.6 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.7 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 24 2 CONCEITOS BÁSICOS . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1 Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 Termo e Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Terminologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4 Necessidade de Informação e Relevância . . . . . . . . . . . . . . . . 30 2.5 Sistemas de Informação e a Recuperação de Informação . . . . . . . 38 2.6 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3 CLUSTERING DE DOCUMENTOS . . . . . . . . . . . . . . . . . . 52 3.1 Representação de documentos textuais . . . . . . . . . . . . . . . . . 53 3.2 Medidas de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.1 Fórmulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.2 Medidas de Dissimilaridade . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2.3 Coeficientes de distância . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2.4 Discussão sobre o Coeficiente de Jaccard . . . . . . . . . . . . . . . . . . 58 3.3 Cluster: definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4 Identificação de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.1 Representação textual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.2 Medição de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.3 Métodos de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4.4 Representação do Clustering (abstração dos dados) . . . . . . . . . . . . . 61 3.4.5 Validação do Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 DEFININDO UM MÉTODO DE CLUSTERING BASEADO EM CONCEITO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.1 Representação de documentos por meio de conceitos . . . . . . . . 64 4.2 Definição dos algoritmos utilizados . . . . . . . . . . . . . . . . . . . 69 4.3 Stemming: Removedor de Sufixo da Língua Portuguesa (RSLP) . . 70 4.3.1 Passo 01: redução do plural . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3.2 Passo 02: redução do feminino . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3.3 Passo 03: redução adverbial . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3.4 Passo 04: redução do aumentativo/diminutivo . . . . . . . . . . . . . . . . 76 4.3.5 Passo 05: redução de sufixo nominal . . . . . . . . . . . . . . . . . . . . . 76 4.3.6 Passo 06: redução de sufixo verbal . . . . . . . . . . . . . . . . . . . . . . 77 4.3.7 Passo 07: remoção de vogal . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.3.8 Passo 08: remoção das acentuações . . . . . . . . . . . . . . . . . . . . . 77 4.4 Term frequency – Inverse Document Frequency (TF-IDF) . . . . . . 77 4.5 Similaridade entre documentos: Coeficiente de Jaccard . . . . . . . 79 4.6 Algoritmo de Clustering : K–Means Clustering . . . . . . . . . . . . . 81 4.6.1 Qualidade do Cluster : método Silhouette . . . . . . . . . . . . . . . . . . 83 4.7 Regras de Associação: Algoritmo Apriori . . . . . . . . . . . . . . . . 84 4.7.1 Exemplo do algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . 85 5 EXPERIMENTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 APÊNDICE A – CONTAGEM DE PALAVRAS RADICALIZADAS . 107 ANEXO A – PARÂMETROS DO ALGORITMO REMOVEDOR DE SUFIXOS DA LÍNGUA PORTUGUESA (RSLP) . . . 110 ANEXO B – TEXTOS UTILIZADOS NO EXPERIMENTO . . . . 120 ANEXO C – STOPWORDS UTILIZADAS NO EXPERIMENTO . 127 19 1 Introdução O constante crescimento na produção e armazenamento de informações propiciado principalmente pelas novas tecnologias torna necessário o desenvolvimento de técnicas para organizá-las a um ritmo cada vez mais acelerado para que todo esse conhecimento se torne acessível. A produção de documentos textuais é abundante, com uma parte expressiva sendo produzida e armazenada em meios digitais, viabilizando o uso de métodos automáticos ou semiautomáticos de classificação, uma vez que o conteúdo já está representado em algum formato digital, favorecendo o processamento. Uma possível solução para a organização da informação textual é o uso de métodos automáticos, que dispensam intervenção humana. O tratamento computacional de um texto tradicionalmente considera o conjunto de suas palavras, ponderadas com suas respectivas frequências de ocorrência em um determinado documento e nos demais textos que compõem o corpus documental. Esta representação é denominada bag-of-words (Van Rijsbergen, 1979), que desconsidera a posição que cada palavra ocupa em cada texto. Diversos modelos de recuperação, classificação e clustering de textos adotam esta maneira para representar e analisar a informação. O modelo bag-of-words, no contexto desta discussão, apresenta dois problemas principais: (1) ambiguidade e (2) presunção de independência entre as palavras. A ambi- guidade surge porque o modelo ignora o fato de que algumas palavras ortograficamente diferentes tenham o mesmo significado e que algumas palavras ortograficamente idênticas têm significados diferentes; para resolver esta ambiguidade é necessária uma análise baseada no contexto de uso, porém como as palavras são isoladas de seu contexto esta resolução de ambiguidade fica completamente prejudicada. O segundo problema é a presunção de independência entre as palavras, ignorando que as palavras não existem como unidade linguísticas isoladas, havendo sempre um relacionamento entre elas para formar estruturas mais complexas capazes de expressar uma ideia; ao interpretarmos um texto, são estas relações entre as palavras que nos auxiliam a extrair os conceitos e compreender a ideia expressa. Ao buscar uma melhor solução para este problema de organização, tentando amenizar os problemas mencionados com o modelo bag of words, temos as técnicas de clustering. O clustering conceitual é uma técnica que analisa automaticamente as relações entre textos e os organiza em estruturas temáticas coerentes denominadas de clusters. Os textos agrupados dentro de um determinado cluster compartilham tópicos similares. Esse agrupamento temático também favorece a exploração e análise da informação, propiciando novas maneiras de visualização do corpus textual. Seção 1. Introdução 20 Esta tese propõe o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo. A definição de conceito adotada aqui é a mesma da International Standard for Terminology Work – Principles and Methods (ISO 704:2009, 2009) que os define como “[conceitos são] unidades de conhecimento que abstraem e representam um conjunto perceptível de objetos com as mesmas características”, portanto objetos com características diferentes são abstraídos em conceitos diferentes. O termo é a expressão literal que representa o conceito, podendo um mesmo termo fazer referência a conceitos distintos de acordo com o contexto em que for empregado; por exemplo, o termo “manga” faz referência a dois conceitos distintos: o conceito de fruta e o conceito de parte de uma peça do vestuário; neste caso o termo é ambíguo, porém os conceitos não, os conceitos são inequívocos. Um sistema conceitual consiste em um conjunto de estruturas conceituais relacionadas entre si (ISO 704:2009, 2009). O Clustering de documentos textuais é uma técnica de processamento que produz agrupamento de textos semelhantes segundo um ou mais critérios; estes agrupamentos são chamados de clusters. É utilizado frequentemente para descobrir padrões, tendências ou temas dentro de grandes conjuntos de dados textuais. A recuperação de informação baseada em clustering conceitual combina técnicas de recuperação de informação e clustering para melhorar a precisão e relevância dos resultados em sistemas de recuperação de informação. O objetivo é agrupar documentos ou informações similares com base em conceitos subjacentes, independente das correspondências exatas de palavras ou termos. O clustering conceitual busca organizar os documentos em grupos com base em características relacionadas aos conceitos presentes no conteúdo. Esses clusters representam conceitos ou tópicos, o que pode facilitar a navegação e a recuperação de informações relevantes. Ao realizar a recuperação de informações baseada em clustering conceitual, os sistemas de busca podem levar em consideração os conceitos relacionados ao conteúdo dos documentos textuais, uma vez que os clusters representam conceitos. Isto permite uma abordagem mais intuitiva aos usuários que desejam encontrar informações específicas, mesmo desconhecendo as palavras-chave exatas porque torna possível a apresentação de interfaces de busca que visualmente demonstrem a relação conceitual existente entre documentos e a hierarquia formada entre essas relações, exemplo uma interface gráfica baseada em dendrograma dos documentos a partir da dissimilaridade conceitual entre eles. É importante notar que a implementação dessa abordagem envolve várias etapas, incluindo a representação dos documentos e a identificação de características relevantes (denominadas features). O resultado obtido por meio da aplicação das técnicas de agru- pamento pode ser utilizado, por exemplo, na criação de uma interface amigável para a navegação pelos resultados de busca de um sistema de recuperação de informação ou um mecanismo de busca na Web. Seção 1. Introdução 21 1.1 Motivação Um sistema de Recuperação de informação textual pode ser esquematizado em dois blocos principais mediados por um terceiro bloco: (a) situado em uma das extremidades, um conjunto de documentos textuais; (b) na outra extremidade o usuário com sua necessidade de informação; (c) mediando as duas extremidades, uma função de busca, que é responsável pela seleção e ranqueamento dos documentos segundo a necessidade de informação do usuário. Os documentos textuais são compostos por palavras que posicionadas em um contexto representam determinados conceitos. Os conceitos são diretamente inacessíveis, sendo necessário o uso de termos contextualizados representados por uma ou mais palavras dentro de uma construção sintaticamente válida formando o texto. A necessidade de informação do usuário será satisfeita apenas por determinados conceitos; portanto, o problema que a recuperação de informação busca solucionar é um problema conceitual: como representar os conceitos discutidos nos textos e como saber quais conceitos satisfarão o usuário do sistema. Existem sistemas conceituais dos mais variados tipos, sendo alguns mais simples como vocabulário de termos controlados ou tão complexos quanto ontologias online. Cada sistema tem o seu foco específico em domínio, cobertura e abrangência. O uso destes sistemas já é consagrado dentro da Ciência da Informação, podemos citar como exemplo os vocabulários controlados utilizados em bibliotecas durante a indexação do acervo. Porém esta solução é fortemente dependente de um trabalho intelectual complexo, baseado em profissionais altamente treinados e qualificados ficando restrita a certos domínios do conhecimento. Os sistemas automáticos de indexação e recuperação de informação, tradicional- mente, representam os textos do corpus documental como um conjunto não ordenado de termos e, durante seu uso, transformam a necessidade de informação manifesta pelo usuário em uma expressão de busca composta também por termos não ordenados que serão utilizados pela função de busca na seleção e ranqueamento dos documentos. Uma deficiência deste processo é que os conceitos quando reduzidos aos termos e removidos de contexto produzem termos por diversas vezes ambíguos prejudicando bastante a qualidade final da recuperação. A utilização de clustering na recuperação de informação é uma abordagem que visa organizar grandes volumes de dados de forma a facilitar a sua recuperação e análise. O clustering textual envolve o agrupamento de documentos semelhantes em clusters, onde documentos pertencentes a um mesmo cluster compartilham características e tópicos semelhantes. Seção 1. Introdução 22 Essa técnica é particularmente útil na recuperação de informação, pois permite identificar grupos de documentos com característica comuns, o que pode facilitar a nave- gação e a busca por informações relevantes. Ao invés de apresentar uma lista linear de resultados, um sistema de recuperação de informação que utiliza clustering textual pode apresentar grupos de documentos relacionados, o que ajuda os usuários a entenderem a distribuição e a diversidade dos conteúdos disponíveis. Existem várias abordagens para a implementação de clustering de documentos textuais, incluindo métodos baseados em palavras-chave, análise de tópicos, técnicas de aprendizado de máquina, como o k–means, e algoritmos de aprendizado profundo, como o embedding-based clustering (Dai; Bikdash; Meyer, 2017). No contexto da recuperação de informação, clustering textual pode ser usado para melhorar a organização e a apresentação dos resultados de busca, bem como para descobrir padrões e temas presentes nos documentos. Além disso, essa técnica também pode ser aplicada em sistemas de recomendação e análise de sentimentos, entre outras aplicações. Em vista do exposto, notamos que um sistema de indexação automática e recupera- ção é muito útil em diversas situações, porém a ambiguidade terminológica resultante das técnicas tradicionais prejudica o processo de recuperação de informação. Assim, considera- se que um sistema deveria operar mais em nível conceitual do que em nível terminológico, e que dada as dificuldades já expostas com os sistemas tradicionais, seria necessário que os conceitos pudessem ser extraídos de maneira automática. Isso nos leva à nossa questão de pesquisa. 1.2 Problema de pesquisa O problema de pesquisa deste trabalho consiste em: Como organizar um acervo textual utilizando os conceitos presentes nos textos? Como extrair esses conceitos a partir do conjunto de documentos? Em qual medida seria possível um algoritmo computacional, automaticamente, representar os conceitos expressos em um texto e utilizar essa representação conceitual no processo de indexação automática de documentos textuais? 1.3 Hipóteses As hipóteses de pesquisa são: (1) processos estatísticos aplicados ao processamento de palavras permitem a representação de conceitos presentes nos textos por meio do agrupamento destas; (2) estes agrupamentos, quando utilizados em conjunto, servem como representação dos documentos presentes em um acervo durante o processo de indexação automática. Em síntese: Seção 1. Introdução 23 • Um conceito pode ser especificado por um conjunto de termos, que individualmente podem se mostrar genéricos ou ambíguos; • A terminologia presente em um acervo de documentos textuais é capaz de especificar os conceitos necessários para a organização deste. 1.4 Pressupostos teóricos • Os conceitos são expressos por um grupo de palavras, mesmo que polissêmicas, e em conjunto servem como representação de um texto. A polissemia da palavra é resolvida com contextualização; • A terminologia presente em um conjunto de documentos textuais é capaz de especificar os conceitos necessários para a organização deste; • É possível tratar estatisticamente a terminologia presente em um conjunto de documentos textuais, detectando padrões e extraindo contextos. 1.5 Objetivo Devido à maneira como um sistema de Recuperação de Informação textual opera, qualquer alteração na representação dos textos impacta na qualidade do sistema, por isso, nosso objetivo geral é aprimorar o processo de recuperação de informação textual aperfeiçoando a exatidão da representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. A partir deste objetivo geral, desdobram-se três objetivos específicos: 1. Extrair conceitos representados nos textos sem utilizar base externa de conhecimento; 2. Agrupar os conceitos sem o uso de um sistema conceitual predefinido; 3. Representar todos os textos do corpus documental por meio dos agrupamentos conceituais. 1.6 Metodologia A pesquisa científica é um método de investigação que objetiva a solução dos problemas por meio da produção de novos conhecimentos (Barros; Lehfeld, 2002; Gil, 2002). O método científico é “[...] o conjunto das atividades sistemáticas e racionais que, com maior segurança e economia, permite alcançar o objetivo [...] traçando o caminho a ser seguido, detectando erros e auxiliando as decisões do cientista” (Marconi; Lakatos, 2003, p. 83). É um procedimento formal que consegue descobrir verdades parciais. Seção 1. Introdução 24 O presente estudo caracteriza-se como de natureza pura onde o conhecimento científico é desenvolvido sem uma preocupação direta com sua aplicação prática, sendo formalizado com o objetivo de construir teorias e leis; desenvolvido “com base em material já elaborado, constituído principalmente de livros e artigos científicos” (Gil, 2002, p. 44). Trabalhos de cunho exploratório buscam levantar informações sobre um deter- minado objeto “delimitando assim um campo de trabalho, mapeando as condições de manifestações desse objeto” (Severino, 2016, p. 132). A técnica de pesquisa empregada para o levantamento de dados é a pesquisa bibliográfica (fonte secundária) por meio de publicações científicas realizadas em livros e periódicos das áreas de text mining e recuperação de informação (Marconi; Lakatos, 2003). 1.7 Organização do trabalho Este trabalho está organizado em seis seções, da seguinte maneira: • Seção 1: Introdução — aqui apresentada, onde é discutida a motivação e a questão que a presente pesquisa pretende responder; • Seção 2: Conceitos básicos — serão apresentados alguns conceitos básicos necessário para a discussão realizada em seções posteriores. Alguns conceitos são: documento, termo/conceito, necessidade de informação, relevância, features. • Seção 3: Clustering de documentos — esta seção discute o conceito de clustering de documentos incluindo o conceito de cluster, medidas de similaridade, coeficientes de distância dentre outros; • Seção 4: Definindo um método de clustering baseado em conceito – no qual apresentará a proposta de um método de clustering cujas característica atendam ao enunciado pela motivação deste trabalho; • Seção 5: Experimentação — será descrito um experimento simples para ilustrar na prática todo o processo proposto por este trabalho; • Seção 6: Conclusões — nesta seção são apresentadas as possibilidades que esta proposta abre bem como suas deficiências e sugestões para trabalhos futuros; • Apêndices e Anexos: aqui estão alguns quadros e materiais de apoio para as seções anteriores. 25 2 Conceitos básicos A temática principal deste trabalho, Recuperação de Informação e clustering, envolve três campos científicos distintos: a Ciência da Informação, a Matemática, e a Ciência da Computação, por isso poderão surgir problemas terminológicos resultantes das diferentes nomenclaturas utilizadas para um mesmo conceito. Este trabalho preferencialmente utilizará a terminologia empregada na Ciência da Informação exceto os termos já consolidados nas outras ciências e amplamente utilizados, nestes casos a preferência será pelo termo mais comumente empregado. 2.1 Documento Existem várias definições sobre o que é um documento. Uma definição abrangente foi dada por Suzanne Briet (1951), nos trazendo a definição de documento como uma representação de algo físico ou conceitual: Um documento é uma prova de um fato [..] qualquer evidência concreta ou simbólica, preservada ou registrada, com a finalidade de representar, de reconstituir ou comprovar um fenômeno físico ou intelectual1 (Briet, 1951, p. 7, tradução nossa). Desta forma a autora posiciona o documento com uma maneira de se obter acesso a uma evidência, elencando alguns exemplos, dentre os quais está o exemplo do antílope: Um antílope selvagem, vivendo na natureza não é um documento, mas a partir do momento em que ele é capturado, levado a algum zoológico e transformado em um objeto de estudo ele se torna uma evidência física e passa a ser um documento. Segundo Michael Buckland (1997, p. 806), as regras de Briet para determinar quando um objeto passa a ser um documento não são muito claras, ele faz quatro inferências: (1) A existência de materialidade, ou seja, apenas objetos físicos ou sinais físicos; (2) a intencionalidade, o objeto tem a intenção de ser tratado como evidência; (3) os objetos precisam ser processados, ou seja, precisa ser transformados em documento; (4) existência de um posicionamento fenomenológico, no qual o objeto é percebido como um documento. Estendendo o conceito de documento, temos o documento digital. Michael Buckland (1998) ao discutir sobre o que é um documento digital traça um panorama sobre as definições de documento e como isso refletiu na denominação da ciência que lida com tal. Inicia com o surgimento do termo “bibliografia”, afirmando que este veio da necessidade de nomear as 1 Un document est une preuve à l’apui d’un fait [. . . ] tout indice concret ou symbolique, conservé ou enregistré, aux fins de représenter, de reconstituer ou de prouver un phénomène ou physique ou intellectuel (Briet, 1951, p. 7) Seção 2. Conceitos básicos 26 “técnicas eficientes e confiáveis [...] para coleta, preservação (organização), representação (descrição), seleção (recuperação), reprodução (cópia) e disseminação dos documentos”2 . Prossegue traçando um histórico desde o início do século XX onde a palavra documentação já era amplamente empregada na Europa, em substituição ao termo bibliografia e que após o ano de 1920, o termo “documentação” foi sendo gradativamente empregado para englobar bibliografia, serviços de informação acadêmica, gerenciamento de registros e trabalho de arquivo3(Buckland, 1998). O autor conclui que essas alterações na terminologia refletem as mudanças conceituais que o documento sofreu ao longo do tempo e afirma que devemos: “definir um documento em termos de sua função ao invés de seu formato físico”4 porque mesmo a saída produzida por algoritmos como, por exemplo, um para gerar uma tabela de logaritmos, é um documento digital dinâmico. Em um sistema de recuperação de informação, a definição de documento como algo físico na qual a informação está contida atende perfeitamente, pois o processo de Recuperação de Informação ficará restrito à recuperação de documentos que potencialmente possuem a informação necessitada pelo usuário do sistema. No escopo deste trabalho, documento será aquele objeto digital de característica estritamente textual escrito em alguma linguagem natural respeitando às regras ortográficas e gramaticais vigentes para aquela linguagem. Ele é o suporte material em que a informação está contida. O presente trabalho pretende tratar sobre documentos textuais escritos em língua portuguesa. 2.2 Termo e Conceito Segundo Dahlberg (1978, p. 101) Desde que o homem foi capaz de pensar e de falar, empregou palavras (conjunto de símbolos) para designar os objetos de sua circunstância assim como para traduzir os pensamentos formulados sobre os mesmos. Foi também através de formas verbais que se fez entender pelos seus semelhantes. Ainda segundo a autora, “a linguagem constitui a capacidade do homem designar os objetos que o circundam assim como de comunicar-se com os seus semelhantes”. Assim, as linguagens utilizadas para a nossa convivência social são denominadas linguagens naturais. O ser humano também criou outros tipos linguagens: as linguagens artificiais ou linguagens especiais, tal como a linguagem da Química, a linguagem da Matemática, etc. 2 Efficient and reliable techniques were needed for collecting, preserving, organizing (arranging), repre- senting (describing), selecting (retrieving), reproducing (copying), and disseminating documents. The traditional term for this activity was “bibliography” (Buckland, 1998). 3 Encompass bibliography, scholarly information services, records management, and archival work (Buc- kland, 1998). 4 It would be consistent with the trend, described above, towards a defining a document in terms of function rather than physical format (Buckland, 1998). Seção 2. Conceitos básicos 27 Ainda segundo Dahlberg (1978), todo enunciado sobre objetos contém um elemento do respectivo conceito. Estes elementos se identificam com as chamadas características dos conceitos. Assim, a formação de um conceito se faz pela reunião e compilação de enunciados verdadeiros a respeito de determinado objeto. Para fixar o resultado dessa compilação de enunciados necessitamos de um instrumento constituído pela palavra ou qualquer signo que possa fixar essa compilação. Portanto, pode-se definir um conceito como a compilação de enunciados verdadeiros sobre um determinado objeto, fixada por um símbolo linguístico. Mario Barité Roqueta (2000) traz a noção de conceito como um iceberg, onde a parte de baixo da linha da água é o conceito e a parte visível é a palavra, o símbolo que expressa esse conceito. Portanto a terminologia auxilia na manipulação dos conceitos. Toda conceitualização possui duas faces: uma interna e outra externa; a face interna corresponde ao conjunto de enunciados que definem o conceito enquanto a face externa corresponde à palavra ou qualquer outro símbolo que identificará o conceito Os termos são sim conceitualizações objetivadas, mas nunca objetos, são a expressão de artefatos abstratos de extrema complexidade que exigem uma aproximação multidisciplinar para descrevê-los e utilizá-los com excelência para nossas finalidades5 (Barité Roqueta, 2000, p. 51, tradução nossa). Walter Moreira (2019) define a relação entre termo e conceito da seguinte forma: Um termo é o resultado da equação que compreende o conceito mais sua designação verbal [...] as relações que são estabelecidas entre os termos são conceituais e não terminológicas [..] Tais relações podem ser, inclusive, orientadas por modelos de dados (Moreira, 2019, p. 19). As relações estabelecidas entre termos e conceitos são estudadas pela terminologia. O conceito está situado em um âmbito cognitivo mais profundo e inacessível diretamente, cabendo aos termos oferecerem uma designação verbal, trazendo o conceito para o âmbito tangível e por isso comunicável. Neste trabalho adotamos a definição de Moreira (2019), pois uma vez que os termos estabelecem entre si relações conceituais, isso viabiliza delinearmos os conceitos a partir do estudo estatístico da relação de frequência e ocorrência entre conjuntos de termos, inclusive representarmos conceitos a partir destes conjuntos. 2.3 Terminologia Terminologia é uma disciplina que estuda “o conjunto de termos de um domínio e dos conceitos (ou noções) por eles designados” (Barros, 2004, p. 34). Ao analisar os termos 5 Los términos son sí, conceptualizaciones objetivadas, pero nunca objetos, sino la expresión de artefactos abstractos de extrema complejidad, que exigen una aproximación multidisciplinaria para describirlos y utilizarlos con excelencia para nuestras finalidades (Barité Roqueta, 2000, p. 51) Seção 2. Conceitos básicos 28 em contexto, é possível documentá-los e promover o seu uso correto. Este estudo pode ser limitado a uma língua ou pode cobrir mais de uma língua ao mesmo tempo (terminologia multilíngue, bilíngue, trilíngue, etc.). Na tradução, a gestão da terminologia é um elemento central para uma boa legibilidade e correção técnica de textos traduzidos. Os tradutores profissionais administram a terminologia na forma de glossários bilíngues, usando ferramentas de controle de qualidade que fazem com que o mesmo termo técnico seja traduzido uniformemente em todo o texto. A palavra “terminologia” pode assumir os seguintes significados: • Uso e estudo de termos que são utilizadas em contextos específicos; • Estudo dos termos técnicos usados em um determinado contexto ou domínio do conhecimento; • Conjunto de termos utilizados em um contexto ou em um domínio, por uma pessoa ou em uma região geográfica; • Estudo que identifica e delimita os conceitos característicos de uma área e a designação de cada um destes por um determinado termo. A norma ISO 1087–1:2000 (2000, p. 10) define terminologia de duas formas: 1. conjunto de designadores pertencentes a uma linguagem especial; 2. ciência que estuda a estrutura, formação, desenvolvimento e gestão das terminologias em variados domínios, sendo “domínios” um campo especializado do conhecimento. Cabré (1993) postula que dentro da ciência terminológica podem ser observadas três abordagens, não necessariamente excludentes: a terminologia como matéria autônoma, aquela com interesse nos sistemas de conceitos e organização do conhecimento (abordagem filosófica) e uma terceira centrada na linguística, considerando a terminologia como “um subcomponente do léxico e das linguagens especializadas” (Cabré, 1993, p. 32). A Teoria Geral da Terminologia (TGT), parte da primeira abordagem mencionada, a da terminologia como matéria autônoma que se preocupa com a natureza do conceito, as relações conceituais, as relações entre termo e conceito; e a atribuição de termos aos conceitos. A Teoria Geral da Terminologia (TGT) surge como ciência a partir dos trabalhos de Eugen Wüster (1971). Segundo esta teoria, “os termos se definem uns em relação aos outros, formando assim um sistema” (Campos, 2001 apud Wüster, 1971, p. 68). Ela é considerada a base das correntes de estudo terminológico. Busca fixar os conceitos por meio de definições e estabelecer princípios para a criação de novos termos. Preocupa-se Seção 2. Conceitos básicos 29 em estabelecer uma comunicação mais precisa entre os especialistas de uma área do conhecimento humano. Duas importantes características que diferenciam a TGT da Lexicografia são: 1. A lexicografia tem como escopo de trabalho a língua natural, resultado do devir histórico e repleta de polissemia, homonímia, sinonímia, etc; a TGT tem como seu escopo a língua artificial, desenvolvida e compreendida dentro de um grupo de especialistas, objetivando ser unívoca na relação entre conceito e denominação (Campos, 2001 apud Wersig, 1981, p. 67); 2. Na atividade lexicográfica, a unidade de estudo é a “palavra”, enquanto na TGT o trabalho terminológico inicia no “conceito”, que por definição possui uma “unidade de denominação” chamada “termo”; cabe a TGT o papel de unificá-los, exercendo uma função de natureza prescritiva. “O conceito é o significado do termo” (Campos, 2001, p. 66). Nos estudos terminológicos existem duas grandes perspectivas para análise: análise semasiológica, que parte do termo para o conceito e análise onomasiológica, que parte do conceito para o termo. Em uma abordagem semasiológica, a terminologia estuda a verbalização do conhecimento, tratando os termos como unidades lexicais especializadas que operam dentro de um sistema linguístico próprio. Já em uma abordagem onomasiológica, existe a preocupação em se eliminar a ambiguidade da linguagem por meio da normalização terminológica, é neste tipo de abordagem que encontramos a TGT (Santos, 2010, p. 72–83). A TGT classifica as relações em lógicas e ontológicas e dentro destas últimas existem as relações partitivas e associativas. Ela enfatiza o papel das características para a formação do conceito. Quando estas características são atribuídas é necessário estabelecer relações. Preocupa-se com os princípios que norteiam o estabelecimento destas relações (Sales, 2006, p. 72). A terminologia como disciplina, segundo Cabré (1993, p. 100), necessita apoiar-se em três teorias: uma do conhecimento, uma da comunicação e uma da linguagem. Na situação específica da Recuperação de Informação, conforme lembra Cabré, são utilizadas ferramentas terminológicas com o objetivo de representar os conceitos contidos nos do- cumentos e isto é feito mediante o uso dos termos, sendo comum o emprego de tesauros. Esses tesauros são basicamente “recompilações de termos relacionados semanticamente”, pois a informação contida em um documento origina da disposição dos conceitos que este contém, sendo “cada conceito portador de informação, e entre os conceitos se estabelecem distintos tipos de relação” (Cabré, 1993, p. 101). Neste trabalho utilizaremos a terminologia a partir de uma abordagem semasiológica de cunho estatístico, ou seja, partimos do termo para o conceito Seção 2. Conceitos básicos 30 assumindo que os conceitos, como entidades mais elaboradas, sempre serão compostos por mais de um termo, posicionados dentro de um contexto e que diversas palavras (sejam elas sinônimos ou formas flexionadas) remetem a um mesmo termo; também assumimos que é possível detectar esse comportamento da linguagem natural empregando-se técnicas de análise estatística sobre a representação textual. 2.4 Necessidade de Informação e Relevância Necessidade de Informação e relevância estão relacionados ao que o usuário busca e ao que ele obtém como resposta de sua busca. Esta necessidade de informação é aquilo que o usuário possui, é uma lacuna em seu conhecimento que ele necessita preencher e para isso recorre a um sistema de recuperação. Relevância é a avaliação que o usuário faz a respeito dos resultados obtidos a partir de sua busca; é um julgamento a respeito do conteúdo dos documentos recuperados, se estes foram ou não capazes de satisfazer sua a necessidade de informação. De acordo com Sanz Casado (1994, p. 19), o usuário da informação é o “indivíduo que necessita de informação para o desenvolvimento de suas atividades”. Essa necessidade surge quando um indivíduo se depara com uma situação ou problema que requer conheci- mento ou orientação. As demandas por informações podem ser influenciadas por fatores internos, como conhecimentos prévios, o desejo por saber, valores, crenças e interesses, ou externos, como situações cotidianas, problemas complexos que demandam resolução, mudanças sociais, econômicas e tecnológicas (Figueiredo, 1994). As demandas por informação podem ser entendidas como as necessidades informaci- onais de um usuário frente a um problema. A compreensão das necessidades informacionais, muitas vezes, é associada às necessidades cognitivas de uma pessoa, ou seja, a falta ou deficiência de conhecimento ou de compreensão sobre um problema, que podem ser ex- pressas em perguntas ou tópicos apresentados a um sistema ou fonte de informação. No entanto, a informação também precisa satisfazer necessidades emocionais ou afetivas, pois a busca e o uso da informação acontecem em situações sociais (Choo, 2003). As necessidades informacionais são geradas principalmente pelo desempenho de tarefas organizacionais, como planejamento e tomada de decisões, e por fatores relacionados à personalidade do usuário. Desta forma, as necessidades emocionais, como a necessidade de conquista, de expressão e de realização, são igualmente importantes na busca pela informação (Choo, 2003). Além disto, à medida em que as circunstâncias, os interesses e os objetivos dos indivíduos evoluem ou mudam, suas necessidades de informação também se modificam e se adaptam. Inicialmente, o indivíduo pode perceber uma sensação de intranquilidade ou inadequação com seu conhecimento, o que o leva a buscar informações. Gradualmente, o indivíduo forma uma opinião sobre a importância do problema e identifica os vazios de Seção 2. Conceitos básicos 31 informação que precisam ser preenchidos. A consciência da necessidade de informação nem sempre leva à busca, pois a pessoa pode decidir aceitar desconsiderar o problema, levando em conta a importância do assunto, seu conhecimento sobre o tema e o esforço necessário para fazer a busca (Choo, 2003). Segundo Wilson (2006), o conceito de necessidade informacional como uma experiência subjetiva que ocorre exclusivamente na mente de cada indivíduo, sendo inacessível diretamente ao observador. Para identificar esta necessidade é necessário deduzir o problema por meio da observação do comportamento do indivíduo ou através da própria manifestação da necessidade pelo indivíduo. Os estudos de Dervin (1992) destacam o caráter cognitivo e não observável das necessidades informacionais, apontando para a existência de lacunas que podem gerar descontinuidade no conhecimento humano. Quando percebidas pelo indivíduo, estas lacunas suscitam o surgimento da necessidade informacional. Belkin (1980) explicou o fenômeno da lacuna informacional a partir do conceito de estado anômalo do conhecimento. Belkin (1980, p. 44, tradução nossa), considera que, quando “o estado de conhecimento do usuário em relação a um tópico é de alguma forma inadequado em relação à capacidade da pessoa de alcançar algum objetivo”6, este pode ser entendido como anômalo. Tal percepção de lacuna de conhecimento leva o usuário a buscar ativamente por informações adicionais, a fim de corrigir essa lacuna e adquirir um nível de conhecimento mais completo e sólido. O usuário reconhece que precisa preencher esta falta de informação para tomar decisões informadas e alcançar seus objetivos. Em adição a isso, Le Coadic (2004, p. 8) destacou que: Nosso estado (ou nossos estados) de conhecimento a respeito de determinado assunto, em determinado momento, são representados por uma estrutura de conceitos ligados por suas relações: nossa imagem de mundo. Quando constatamos uma deficiência ou anomalia desse(s) estado(s) de conhecimento, encontramos um estado anômalo de conhecimento. Tentamos obter uma informação ou informações que corrigirão essa anomalia. Disso, resultará um estado novo de conhecimento (Le Coadic, 2004, p. 8). Le Coadic (2004, p. 40) ainda complementou, indagando: [. . . ] o que leva uma pessoa a procurar informação? A existência de um problema a resolver, de um objetivo a atingir e a constatação de um estado anômalo de conhecimento, insuficiente e inadequado (Le Coadic, 2004, p. 40). Nota-se que a ausência de conhecimento sobre um determinado assunto ou um problema específico do usuário pode desencadear o processo de busca por informações. 6 the user’s state of knowledge with respect to a topic is in some way inadequate with respect to the person’s ability to achieve some goal (Belkin, 1980, p. 4). Seção 2. Conceitos básicos 32 Esta demanda por conhecimento exerce influência sobre o comportamento do usuário diante de seu problema informacional. Le Coadic (2004, p. 39) indicou que as necessidades e os usos da informação são “interdependentes, se influenciam reciprocamente de uma maneira complexa que determinará o comportamento de um usuário e suas práticas”. Desta forma, considerando o contexto em que a necessidade informacional se manifesta, as habilidades e competências do usuário, bem como, a disponibilidade de acesso a recursos informacionais, tem-se o que se denomina de comportamento informacional. Desta forma, o comportamento informacional se refere às atividades, às estratégias e aos processos que os indivíduos empregam para buscar, acessar, avaliar e utilizar informações que atendam às suas necessidades informacionais. Stefano Mizzaro (1998) demonstra como ocorre o processo da representação da necessidade informação do usuário em um sistema de Recuperação de Informação, fazendo uma distinção entre a necessidade real de informação (RIN – Real Information Need), a necessidade percebida (PIN – Perceived Information Need), a requisição (Request) e a expressão de busca (Query). O processo de representação começa com uma lacuna no conhecimento do usuário a respeito de um determinado assunto, esta é a RIN, que ao percebê-la e tentar pensar a seu respeito torna-se PIN, ou seja, a PIN é a representação mental da RIN, não sendo necessariamente correta ou completa; a seguir esta PIN é expressa por meio de uma representação em linguagem humana, que é denominada request e por fim, esta request é formalizada em uma expressão de busca (query). Todo esse processo é apresentado na Figura 1. Na Figura 1 é ilustrado o processo de representação da necessidade de informação conforme descrito por Mizzaro (1998). Nesta figura podemos observar os quatro estágios de representação mental que uma necessidade informacional passa até que seja formalizada em uma query e submetida a um sistema de recuperação de informação. Inicialmente existe apenas uma lacuna informacional, a Real Information Needed (RIN); esta lacuna, por meio do processo de percepção, emerge na mente do usuário sob a forma de uma Perceived Information Need (PIN); que por sua vez precisa ser expressa por meio de uma Request, uma expressão verbalizada da necessidade percebida; a Request então é formalizada em uma Query e será fornecida para o sistema de recuperação de informação. Ao compreender e interpretar a informação recuperada, o usuário avalia seu potencial de relevância ou pertinência. Lima e Campos (2022) definiram relevância como: [. . . ] grau de similaridade entre termos que compõem as expressões de buscas de usuários e a ocorrência em documentos da coleção ou nos termos de indexação. Já a pertinência é a relação que existe entre a informação obtida em uma busca que responde à necessidade ou demanda Seção 2. Conceitos básicos 33 Figura 1 – Representação da Necessidade de Informação Fonte: Mizzaro (1998, p. 306) de informação do usuário, ou seja, a informação que é útil para o usuário (Lima; Campos, 2022, p. 2). Relevância, porém, é um conceito bastante subjetivo e elástico, dependendo do contexto em que é avaliado. A avaliação de relevância da informação depende de uma série de fatores objetivos e subjetivos dos usuários, que devem ser considerados para o projeto e aprimoramento de Sistemas de Informação (SIs). Araújo (1995, p. 31) diz que este conceito é [. . . ] indissociável dos sistemas de recuperação da informação, do usuário e dos documentos, é extremamente subjetivo e sujeito a variações de interpretação e julgamento, dependendo dos momentos e condições iniciais do sistema, dos diferentes usuários e dos documentos em suas inter-relações. Qualquer alteração nessas variáveis pode mudar drasticamente os resultados esperados. O que é relevante para um elemento do sistema (responsável, por exemplo, pela seleção, indexação e demais processos) pode ou não ser para ele próprio em um outro momento no tempo, ou para outros elementos do sistema; o que é relevante para um usuário em um tempo T pode não ser para outros usuários ou para o mesmo em outro tempo T1; documentos têm sua própria relevância, a priori do sistema, e que pode ser alterada dependendo do conjunto ao qual esses documentos venham a pertencer; há, no sistema, uma imprevisibilidade de comportamento. E o sistema como um todo é sensível às alterações que tais imprevisibilidades vão provocar em suas variáveis – alterações estas que, conforme visto, não são lineares (Araújo, 1995, p. 31). De forma geral, a relevância da informação pode ser considerada como um atributo de qualidade, ou seja, um atributo que indica se a recuperação de uma informação em Seção 2. Conceitos básicos 34 um SI atende as necessidades e as expectativas do usuário. Isso inclui aspectos como precisão, completude, atualidade, relevância, confiabilidade e clareza da informação. Uma informação de alta qualidade é aquela considerada precisa, confiável, relevante e útil para o usuário em um contexto específico. A percepção de relevância envolve diversos fatores além do atributo de qualidade, uma vez que os processos emocionais e lógicos envolvidos na percepção de relevância variam de acordo com as condições potenciais de uso da informação (Kuhlthau, 1991). Identificar o que é relevante para um usuário específico é, portanto, condicionado por vários fatores complexos e inter-relacionados, tanto sistêmicos quanto relacionados à apropriação do uso da informação (Araújo Júnior, 2005). Segundo Borlund (2003), duas abordagens podem ser consideradas para o estudo da relevância em Sistemas de Recuperação de Informação (SRIs): uma abordagem orientada pelo sistema, e outra abordagem cognitiva orientada pelo usuário, cada uma com sua própria compreensão de relevância. A abordagem orientada pelo sistema trata a relevância como um conceito estático e objetivo, enquanto a abordagem cognitiva orientada pelo usuário considera a relevância como uma experiência mental subjetiva, individualizada, que envolve reestruturação cognitiva. Diferentes tipos de relevância são identificados em ambas as abordagens, incluindo relevância do sistema ou algorítmica, relevância semelhante ao tópico, pertinência ou relevância cognitiva, relevância situacional e motivacional, e afetiva (Borlund, 2003). A relevância algorítmica é o tipo mais comum e claro de relevância de sistema, é usada na avaliação tradicional de sistemas de RI, medindo quão bem o tópico da informação recuperada corresponde ao tópico da solicitação. Este tipo de relevância é restrito, pois lida apenas com o grau em que a representação da consulta corresponde ao conteúdo dos objetos de informação recuperado. A especificação dos tipos objetivos de relevância algorítmica pode ser rotulada como “tópico igual a conteúdo” (Borlund, 2003). As abordagens cognitivas, por sua vez, são mais direcionadas às particularidades dos usuários e, portanto, têm maior adequação para avaliar SRIs que lidam com perfis distintos de indivíduos. A abordagem cognitiva mais comum é a relevância situacional, que leva em conta a relação individual do usuário com a informação que foi recuperada. Diferentemente de outras abordagens, a relevância situacional não se baseia apenas na relação entre uma representação de consulta e um objeto de informação recuperado. Em vez disto, esta abordagem considera a utilidade ou o valor do objeto de informação em relação à tarefa de trabalho em questão. A relevância situacional envolve aspectos motivacionais e afetivos, considera a característica de todos os tipos de relevância subjetiva, descrevendo a relação entre as intenções, objetivos e motivações do usuário, e os objetos de informação (Borlund, 2003). Seção 2. Conceitos básicos 35 Embora a relevância situacional seja o conceito mais comumente considerado no estudo das relevâncias cognitivas, é importante mencionar outras abordagens complementares, que contribuem para a compreensão da subjetividade do usuário na avaliação de informações recuperadas. Na literatura, encontram-se os conceitos de “relevância psicológica” (Harter, 1992), “relevância ostensiva” (Campbell; Van Rijsbergen, 1996) e “relevância da tarefa” (Mizzaro, 1998; Reid, 1999). A relevância psicológica, proposta por Harter (1992), está alinhada com as ideias básicas e fundamentais do ponto de vista cognitivo: a mudança das estruturas de conhecimento do receptor pelo ato de processamento de informações. A relevância psicológica descreve um estado de efeito que existe quando o usuário recupera informações, que sugerem novas conexões cognitivas, analogias frutíferas, metáforas esclarecedoras, aumento ou diminuição na força de uma crença. Assim, a relevância psicológica é vista como o efeito de uma mudança nas estruturas de conhecimento. Em complemento, Campbell e Van Rijsbergen (1996) propuseram o conceito de relevância ostensiva, que se refere ao grau em que as evidências do objeto de informação recuperado são representativas da necessidade atual de informação do usuário. Esse conceito leva em conta a ideia de que a necessidade de informação é dinâmica, refletida na ponderação de probabilidade no “modelo ostensivo” de RI (Campbell; Van Rijsbergen, 1996). Este modelo define a relevância como uma relação entre a consulta e o documento, em que um documento é considerado relevante se for útil para atender a necessidade de informação do usuário. A relevância, segundo o modelo ostensivo, é uma característica do documento em relação à consulta, e não uma propriedade inerente do documento em si. Este modelo reconhece a subjetividade do usuário na avaliação da relevância e na escolha dos documentos, destacando a importância da interpretação da consulta pelo sistema, levando em consideração o contexto em que a consulta foi formulada e as necessidades do usuário (Campbell; Van Rijsbergen, 1996). Assim, o modelo ostensivo de recuperação da informação é importante para a compreensão da subjetividade do usuário na avaliação da relevância e na escolha dos documentos mais adequados para sua necessidade de informação. Em uma outra conceituação, Mizzaro (1998) propôs um modelo de relevância definida como a relação entre um recurso de informação e a representação do problema do usuário, avaliada de acordo com tópico, tarefa e/ou contexto em um determinado momento. Ainda para Mizzaro (1998), o tipo final de relevância é a das informações recebidas para a necessidade real de informação do usuário em um determinado momento. Isto direciona a avaliação para o contexto de uso efetivo da informação, em detrimento do conceito de pertinência sugerido por Foskett (1972). Seção 2. Conceitos básicos 36 Reid (1999) complementou esta abordagem, chamando este tipo de relevância de “relevância da tarefa”, embora sua definição seja idêntica à relevância situacional. Tanto Mizzaro (1998) quanto Reid (1999) estão interessados em capturar a utilidade percebida pelo usuário, os objetos de informação recuperados com referência à tarefa e necessidade real de informação. Os autores Schamber, Eisenberg e Nilan (1990, p. 774, tradução nossa), de forma sumarizada, destacaram que a relevância da informação pode ser classificada em três categorias: 1. Relevância é um conceito cognitivo multidimensional cujo significado depende, em grande parte, das percepções de informação dos usuários e de suas próprias situações de necessidade de informação; 2. Relevância é um conceito dinâmico, que depende dos julgamentos dos usuários sobre a qualidade da relação entre a informação e a necessidade de informação em um determinado momento; 3. Relevância é um conceito complexo, mas sistemático e mensurável se abordado conceitualmente e operacionalmente a partir da perspectiva do usuário. Ao considerar as abordagens mencionadas sobre o que pode ser considerado relevante para um usuário de SRI, é perceptível a presença de possíveis desafios para avaliar a informação recuperada, devido à subjetividade envolvida na avaliação, que inclui aspectos emocionais, cognitivos e dinâmicos da relação entre o usuário e o sistema. Assim, a avaliação de relevância algorítmica não é adequada para fornecer resultados satisfatórios neste contexto, tornando-se uma ferramenta inadequada para avaliar sistema de informação digitais. De forma resumida, quatro pontos são percebidos como desafiadores para uma plena avaliação da relevância em sistemas de recuperação da informação: (1) a avaliação da relevância, (2) a avaliação de satisfação, (3) a atualização de conhecimento de um usuário e (4) a incerteza nas buscas por informação. A avaliação da relevância de uma informação recuperada, por parte de um usuário, depende de certo conhecimento anterior sobre a temática ou a problemática de busca. Sem isso o usuário pode ter dificuldade em encontrar valor ou relevância na informação recuperada. Sobre isto, Hjørland (2010, p. 231) aponta que determinar quais itens são relevantes em relação a um determinado objetivo/tarefa requer conhecimento do assunto e depende de diferentes teorias/visões. Os usuários de sistemas de informação, portanto, não são automaticamente competentes para julgar a relevância Hjørland (2010, p. 231, tradução nossa)7. 7 To determine which items are relevant in relation to a given goal/task requires subject knowledge and is dependent on different theories/views. Users of information systems are therefore not automatically competent to judge relevance (Hjørland, 2010, p. 231). Seção 2. Conceitos básicos 37 Isso significa que a importância tanto da seleção quanto da produção de informações por um usuário depende do conhecimento prévio que ele tem sobre a informação em questão. No entanto, em contextos de produção de ambientes digitais com grande volume de dados, a análise de relevância se torna menos importante. Isto ocorre porque toda a produção de conteúdo em formato digital é, geralmente, armazenada pois a dinâmica das ferramentas digitais permite que usuários comuns produzam dados e informações em grandes volumes. Durante a avaliação de satisfação do processo de recuperação de informação, é importante notar que nem sempre está relacionada à relevância da informação recuperada. Outros aspectos do processo, como desempenho do sistema de informação, apresentação da informação etc., podem influenciar na satisfação geral do usuário. Além disso, pode ser difícil, para o usuário, distinguir entre conceitos, como satisfação e relevância, e ainda, avaliar a qualidade da informação recuperada. Por fim, é importante ressaltar que a avaliação da relevância da informação recuperada nem sempre é o único fator que influencia na escolha do usuário, sobre quais registros utilizar. Os autores Coeira e Vickland (2008) identificaram que, dependendo do processo de recuperação da informação, a avaliação da relevância pelos usuários não é um preditor forte do impacto das informações na tomada de decisão. Coeira e Vickland (2008) observam que a relação entre a relevância percebida e o impacto na tomada de decisão é complexa e deve ser investigada mais a fundo. Eles sugerem que outros fatores, como a credibilidade da fonte, a experiência do usuário e a confiança na tecnologia, também podem desempenhar um papel importante na tomada de decisões, conforme apresentado por Hjørland (2010) e Kuhlthau (1991). Schamber, Eisenberg e Nilan (1990) reforçam essa ideia: [. . . ] quando a satisfação é operacionalizada como uma medida na avaliação do desempenho de sistemas de informação, pode na verdade ser uma medida composta que contém vários tipos de julgamentos, incluindo julgamentos de relevância. A relevância e outros julgamentos (às vezes, o termo relevância nem é utilizado) podem ser usados para avaliar aspectos amplamente variados de um sistema (Schamber; Eisenberg; Nilan, 1990, p. 760, tradução nossa)8. Também, a atualização do conhecimento de um usuário, tendo em vista a dinamicidade informacional, pode alterar sua posição de relevância sobre uma mesma busca. Usuários com conhecimentos atualizados podem não mais ver relevância em informações às quais já possuem conhecimento. Hjørland (2010) afirmou que: [. . . ] o conhecimento está sempre atualizado, o próprio conhecimento muda dinamicamente e, portanto, a natureza dinâmica das “necessidades de informação” e da “relevância” é, em grande parte, causada por essa 8 when satisfaction is operationalized as a measure in evaluating the performance of information systems, it may actually be a composite measure that contains several kinds of judgments, including judgments of relevance. Relevance and other judgments (sometimes the term relevance is not used at all) may be used to evaluate widely varied aspects of a system (Schamber; Eisenberg; Nilan, 1990, p. 760) Seção 2. Conceitos básicos 38 mudança em nosso conhecimento coletivo. Na literatura da Ciência da Informação, a natureza dinâmica da “relevância” está, no entanto, frequentemente ligada ao usuário, e não ao conhecimento em si (Hjørland, 2010, p. 222, tradução nossa)9. Os aspectos afetivos, como confusão e incerteza nas buscas, podem também afetar o julgamento sobre a relevância de uma informação recuperada (Kuhlthau, 1991). Em muitos casos, como visto, devido ao estado anômalo de conhecimento do usuário (Coeira; Vickland, 2008), a avaliação da qualidade da informação recuperada, em termos de sua relevância, só pode ser feita após a apropriação e uso da informação. Além disso, barreiras linguísticas, cognitivas e simbólicas podem fazer com que uma informação seja descartada, devido à incapacidade do usuário de avaliar sua relevância. Isso se torna ainda mais desafiador, uma vez que sistemas de informação digitais, geralmente não são projetados para considerar os problemas dos usuários (Barlow, 2013). A fim de mitigar esses problemas, métodos de avaliação de relevância e pertinência da informação foram propostos em pesquisas como a de Araújo Júnior (2005), Manning, Raghavan e Schütze (2008). Esses métodos visam à avaliação da resposta do usuário frente a uma informação recuperada, fornecendo feedback para o sistema, com objetivo de calibrá-lo na relação de busca e recuperação da informação. Dentro desta discussão sobre necessidade de informação e relevância é pertinente discutir também os sistemas de informação e recuperação de informação. 2.5 Sistemas de Informação e a Recuperação de Informação Para Cesarino (1978, p. 224), um sistema de informação é uma organização ou unidade social que procura atingir um objetivo específico, servindo de fonte intermediária entre o produtor e o consumidor da informação. Cohen (1995, p. 14) complementa tal afirmação, pontuando que um sistema de informação é um “conjunto de canais formais e informais de comunicação da informação dentro de uma organização ou de uma comunidade”. Nota-se que nesse contexto um sistema de informação é aquele que atua como ferramenta comunicacional para uma comunidade, com um objetivo específico, de produtor para usuário. Segundo Araújo, sistemas de informação: [. . . ] são aqueles que, de maneira genérica, objetivam a realização de processos de comunicação. Alguns autores contextualizam sistemas de informação mais amplamente para incluir sistemas de comunicação de massa, redes de comunicação de dados e mensagens etc., independentemente 9 knowledge is always updated, knowledge itself changes dynamically, and therefore the dynamic nature of “information needs” and “relevance” is to a very large degree caused by this change in our collective knowledge. In the literature of information science, the dynamic nature of “relevance” is, however, often connected to the user, rather than to knowledge itself (Hjørland, 2010, p. 222) Seção 2. Conceitos básicos 39 da forma, natureza ou conteúdo desses dados e mensagens (Araújo, 1995, p. 1). Tais sistemas pressupõem a existência de um arcabouço informacional que se adapta às mudanças da sociedade para as quais são pensados, sendo chamados de “estoques de informação” (Smit; Barreto, 2002). Os SIs são projetados para lidar com a movimentação de tais estoques, que armazenam registros feitos pelos usuários para uso presente ou futuro. De um modo geral, os estoques informacionais são recursos que armazenam informações e dados em diferentes formatos. Eles são importantes para a preservação, acesso e compartilhamento do conhecimento, contribuindo para o funcionamento dos sistemas de informação. Sobre isso, Smit e Barreto (2002) apontam que a: [. . . ] produção da informação documentária é operacionalizada por meio de práticas bem definidas e se apoia em um processo de transformação orientado por uma racionalidade técnica específica; representa atividades relacionadas à reunião, seleção, codificação, redução, classificação e armazenamento de informação. Todas essas atividades estão orientadas para a organização de estoques de informação, de uso imediato ou futuro. Esse repositório de informação representa um estoque potencial de conhecimento e é imprescindível que exista, para que se realize a transferência de informação (Smit; Barreto, 2002, p. 4). Embora as informações armazenadas em bancos de dados, bibliotecas, arquivos ou museus, tenham a capacidade de gerar conhecimento, isto só ocorre por meio de uma ação de comunicação mutuamente acordada entre a fonte (os estoques) e o receptor (Smit; Barreto, 2002). Desta forma, os estoques de informação dependem de processos que visam à disponibilização da informação produzida e armazenada para os indivíduos, através de um fluxo que conecta o estoque e o indivíduo. Sobre os fluxos informacionais destes estoques, os autores destacam que: [. . . ] dois critérios permeiam o fluxo da informação entre os estoques, ou espaços de informação, e os usuários: o critério da tecnologia da informação, que almeja possibilitar o maior e melhor acesso à informação disponível, e o critério da Ciência da Informação, que intervém para qualificar este acesso em termos das competências que o receptor da informação deve ter para assimilar a informação, ou seja, para elaborar a informação para seu uso, seu desenvolvimento pessoal e dos seus espaços de convivência. Não é suficiente que a mensagem esteja disponível, ela deve também poder ser apropriada pelo receptor (Smit; Barreto, 2002, p. 15–16). As regras de seleção do que será armazenado em um estoque informacional devem levar em conta as especificidades dos usuários desse estoque, cabendo à instituição responsável pelo estoque determinar o que armazenar e como apresentar tais informações, através de sistema próprio de informação. É importante indicar que a “[...] produção dos Seção 2. Conceitos básicos 40 estoques de informação não possui um compromisso direto e final com a produção do conhecimento” (Barreto, 1994, p. 4). A informação é criada dentro de um contexto de produção, selecionada e armazenada a partir de um critério com vista em um usuário específico, sendo apresentada para este indivíduo frente à sua demanda (Smit; Barreto, 2002). O indivíduo, em posse de uma informação, analisa sua relevância e, ao se apropriar dela operacionaliza sua ação inicial para qual empreendeu a abordagem ao estoque. Sistemas de informação podem ser classificados de acordo com sua função, área de aplicação ou modelo de processamento de informações. Alguns tipos de sistemas de informação são: sistemas de processamento de transações, sistemas de informação gerencial, sistemas de suporte de decisão, sistemas de informação executiva, sistemas de recuperação de informações, sistemas de informação geográfica, sistemas de automação de escritório, sistemas de comércio eletrônico, sistemas de informação em saúde, entre outros (Bio, 1996). Cada um destes sistemas tem sua própria finalidade sendo usados para atender a diferentes necessidades das organizações e usuários. Sistemas de informação podem ser classificados como digitais ou físicos. Enquanto os sistemas físicos utilizam formatos de armazenamento tangíveis, como livros e revistas, os sistemas digitais utilizam arquivos eletrônicos, como bancos de dados e imagens digitais. A acessibilidade da informação, ou seja, a capacidade de um usuário de compreender forma e conteúdo da informação que lhe é recuperada, é outra diferença importante, pois os sistemas tradicionais só podem ser acessados em locais físicos, enquanto os digitais podem ser acessados remotamente de qualquer lugar do mundo com conexão à rede de dados (geralmente internet). Sobre SRIs digitais, Vickery e Vickery (2004) apresentaram a seguinte definição: [. . . ] a essência da recuperação eletrônica é que uma coleção de mensagens é armazenada em algum meio legível por computador [...] e é acessada por um software executado em um computador ao qual o armazenamento está vinculado. Um sistema pode ser pessoal [...], institucional [...], ou público (Vickery; Vickery, 2004, p. 117, tradução nossa) 10. Os sistemas digitais possuem uma capacidade de armazenamento muito maior em comparação com os sistemas físicos, permitindo o armazenamento de um número virtualmente infinito de documentos, limitado à sua capacidade física e de escalonamento do banco de dados. Outro aspecto relevante diz respeito à forma de consultar esses recursos informacionais, uma vez que os sistemas digitais possibilitam buscas mais precisas e eficientes, graças a recursos como índices e palavras-chave, enquanto nos sistemas físicos a busca pode ser mais demorada e trabalhosa. Por fim, a interatividade é um aspecto que 10 [. . . ] the essence of electronic retrieval is that a collection of messages is stored in some computer-readable medium [. . . ] and is accessed by software run on a computer to which the store is linked. A system may be personal [. . . ], or institutional [. . . ] or public (Vickery; Vickery, 2004, p. 117) Seção 2. Conceitos básicos 41 diferencia significativamente os sistemas digitais, uma vez que permitem que os usuários interajam com os documentos de várias maneiras, enquanto nos sistemas tradicionais essa interatividade é limitada. Ambientes informacionais digitais têm se destacado, em termos tecnológicos, como os locais onde as problemáticas mais evidentes em sistemas de informação digitais são encontradas, e podem ser considerados como uma base sólida para a análise desses ambientes. Portanto, será dada prioridade a este tipo de sistema de recuperação de informações, e as descrições fornecidas serão específicas para este modelo de funcionamento do sistema de informação. Um sistema de recuperação de informação digital é um tipo específico de sistema de informação com uma finalidade bem definida. Enquanto os sistemas de informação, em geral, visam armazenar, processar e disseminar informações de forma geral e estruturada, para que os usuários possam acessá-las e utilizá-las eficientemente, os sistemas de recuperação da informação digital têm como objetivo recuperar informações específicas dentro de um conjunto de dados ou documentos, usando técnicas de busca e recuperação da informação. Araújo Júnior (2005, p. 69) descreve a busca e a recuperação da informação [. . . ] como o processo de localizar documentos e itens de informação que tenham sido objeto de armazenamento, com a finalidade de permitir o acesso dos usuários aos itens de informação, objetos de uma solicitação (Araújo Júnior, 2005, p. 69). De forma direta, sistemas de recuperação da informação digital podem ser definidos como: [. . . ] um sistema de operações interligadas para identificar, dentre um grande conjunto de informações (uma base de dados, por exemplo), aquelas que são de fato úteis, ou seja, que estão de acordo com a demanda expressa pelo usuário (Araújo Júnior, 2005, p. 77). Como visto, em consonância com o apresentado sobre SIs, as preocupações com as necessidades dos usuários são mantidas, bem como, as preocupações relativas ao processamento das informações estocadas. Ao projetar e desenvolver um sistema de recuperação de informação digital é importante levar em consideração as necessidades e especificidades dos usuários potenciais. A função principal dos sistemas de recuperação da informação digital é satisfazer a necessidade de informação do usuário, levando-o ao documento correto, ou informação que atenderá sua necessidade específica de informação (Araújo Júnior, 2005). É possível, assim, descrever que os sistemas de recuperação de informação digital têm a função de representar o conteúdo dos documentos presentes no seu estoque informacional digital e disponibilizá-los para o usuário, de forma que possibilite a seleção Seção 2. Conceitos básicos 42 rápida dos itens que atendam total ou parcialmente às suas necessidades de informação, expressas através de uma expressão de busca (Ferneda, 2003). Araújo Júnior (2005, p. 82), na Figura 2, apresenta algumas funções possíveis para sistemas de recuperação de informações, digitais ou não, considerando as necessidades informacionais de usuários. Figura 2 – Funções de um sistema de recuperação de informações Marketing Administração Comercial Serviço a usuários Administração da Informação Desenvolvimento Operação Transferência da Informação Análise Projeto Implementação Teste do Sistema Manutenção Análise e negociação da pergunta Entrada de dados Processamento Armazenamento Controle da produção Segurança Planejamento e gerenciamento Estratégia de busca e recuperação da informação Disseminação Planejamento e controle Normalização Organização da Informação Avaliação Qualitativa Técnico-operacional Funções de um Sistema de Recuperação de Informações Fonte: Araújo Júnior (2005, p. 82) Seção 2. Conceitos básicos 43 Ingwersen (1996) apresenta um modelo de RI em ambientes computacionais, considerando o espaço cognitivo do usuário da informação, conforme apresentado na Figura 3. Figura 3 – Modelo de SRI proposto por Ingwersen (1996) Modelos Pergunta Modelos Modelos Modelos ModelosSolicitação Funções : Comunicação interativa das estruturas cognitivas : Transformação cognitiva e influência AMBIENTE DO SISTEMA DE RECUPERAÇÃO DA INFORMAÇÃO - Linguagem de busca/técnicas de recuperação da informação - Estrutura da base de dados - Regras de indexação/lógica computacional - Estratégias/objetivos - Tarefas & preferências - Problema/objetivo - Incerteza - Necessidade de informação - Comportamento da Informação Meio ambiente organizacional/Social - Domínios Usuário ESPAÇO COGNITIVO - Trabalho tarefa/Interesse - Estado cognitivo corrente OBJETOS DE INFORMAÇÃO - Texto/representações do conhecimento - Textos, figuras.../Elementos semânticos Fonte: Ingwersen (1996, tradução nossa) Para Ingwersen (1996), a busca de informação em um sistema de RI é focada na busca ativa, na qual o usuário aborda o sistema de recuperação de informação. No entanto, Ingwersen identifica uma série de outros elementos que devem ser considerados. Primeiro, o autor destaca que cada área do modelo (que é um modelo de comportamento de busca de informação) inclui várias entidades, como o usuário da informação, o autor do documento, o intermediário, a interface e o sistema de RI. Cada uma dessas entidades tem uma função específica na interação do usuário com o sistema de RI, e cada função é baseada em modelos cognitivos explícitos ou implícitos do domínio da busca de informação. Desta forma, todos os elementos de um SRI devem considerar as especificidades de necessidade informacional de seus usuários, bem como, suas condições ambientais e sociais. Seção 2. Conceitos básicos 44 Ingwersen (1996) enfatizou a importância de incluir o sistema de recuperação de informações como parte do modelo abrangente de comportamento de busca de informações, entendendo a recorrência deste processo e a importância de sua relação com a realidade e o ambiente do usuário. Isto é importante, pois seu modelo considera que existem transformações cognitivas que ocorrem entre o cotidiano dos usuários e a pesquisa. Desta forma, o autor aponta para a necessidade de comunicação efetiva entre todas as entidades envolvidas no sistema de RI, em especial, aquelas que consideram a realidade do usuário. Embora Saracevic (1996) tenha sugerido que o modelo de Ingwersen (1996) tivesse problemas para avaliação de uso, em especial, no que tange a análise de atualização a longo prazo, o modelo de Ingwersen (1996) ainda é considerado uma contribuição importante para a compreensão do comportamento de busca de informação em sistemas de recuperação da informação. Wilson (2006) argumentou que, no entanto, uma possível fraqueza remanescente do modelo é que não analisa explicitamente o comportamento de informação além da recuperação de informação. Isto significa que o modelo de Ingwersen (1996) é “incompleto” para o estudo da informação dentro deste SRI, pois não considera como os usuários chegam ao ponto de fazer a pesquisa, nem como suas estruturas cognitivas são afetadas pelos processos de decidir como e quando se mover em direção à pesquisa de informações. Desta forma, de maneira geral este modelo não se preocupa com o contexto do usuário. Estas questões podem ser discutidas em termos do ambiente social ou organizacional, mas não são explicitamente abordadas no modelo de Ingwersen (1996), de acordo com Wilson (2006). O modelo proposto por Ingwersen (1999) na Figura 4 é uma versão atualizada do modelo anteriormente proposto pelo mesmo autor em 1996. Esse modelo leva em consideração dois aspectos cruciais: as tarefas de trabalho e a percepção cognitiva do usuário. Como parte do contexto situacional do usuário, ou seja, a combinação do ambiente físico em que ele se encontra, as tarefas ou atividades que está realizando, as restrições e recursos disponíveis, as características do sistema ou dispositivo sendo utilizado e as suas necessidades e expectativas, estão incluídas as tarefas de trabalho impostas pelo ambiente social-organizacional. Essas tarefas são percebidas pelo usuário por meio de seu estado cognitivo, como interesse, problema ou tarefa a ser realizada. A percepção, conforme destacado por Ingwersen (1999), pode ser considerada como um componente dominante da situação problemática, sendo a causa do surgimento da necessidade de informação. Em um sentido cognitivo, a percepção do usuário durante uma tarefa de trabalho tende a ser mais estável durante a sessão de recuperação da informação do que a necessidade de informação dinâmica correspondente, ou seja, aquela que se altera ao longo do processo de recuperação da informação. A percepção da tarefa de trabalho é, portanto, apropriada para ser utilizada, pois pode fornecer o contexto necessário para o sistema recuperar informações relevantes, ou seja, Seção 2. Conceitos básicos 45 Figura 4 – Modelo atualizado de SRI de Ingwersen (1999) Interpretação Interação Transformação Informação Cognitivo- Emocional Nível do Sistema Signo Nível Linguístico do Sistema Objeto percebido Estágios de processamento da informação Espaço Problema Estudo de Incerteza Estudo Cognitivo Corrente Destinatário do Modelo Universal Objeto gerado Diminuição da Liberdade cognitiva Gerador Modelo Universal Contexto A situação Fonte: Ingwersen (1999 apud Araújo Júnior, 2005, p. 88) informações úteis para aquele usuário ao realizar a tarefa de trabalho. Assim, estratégias de busca podem ser refinadas, melhorando o processo de recuperação da informação. Neste sentido, Ingwersen (1999) apresenta um modelo que se preocupa com sua atualização, no sentido de satisfazer as necessidades informacionais adaptadas aos usuários ao longo do tempo, dependendo de sua atualização informacional. De fato, esta é uma preocupação observada em SRIs, digitais ou não, em que a atualização cognitiva do usuário pode impactar no entendimento de relevância da informação recuperada. Choo (2003, p. 76), a partir da organização das ideias de Saracevic (1975), apresentou outro modelo de fluxo de trabalho para SRIs, cabível também para SRIDs: 1. O usuário tem um problema a resolver (características do usuário, declaração do problema); 2. O usuário procura resolver o problema formulando uma pergunta e iniciando uma interação com um sistema de informação (declaração da pergunta, características da pergunta); 3. Interação de pre-investigação com um pesquisador intermediário, humano ou computador (características do pesquisador, análise da pergunta); 4. Formulação de uma busca (estratégia de busca, características da busca); 5. Atividade de busca e interações (busca); Seção 2. Conceitos básicos 46 6. Entrega das respostas ao usuário (itens armazenados, formatos despachados); 7. Avaliação das respostas pelo usuário (relevância, utilidade). Sobre a qualidade deste modelo, Choo (2003) indicou que: A análise dos dados empíricos mostrou que “os modelos sugeridos foram aprovados, ou seja, os elementos sugeridos pelos modelos apresentaram uma significativa relação com os resultados armazenados”. Confirmou-se, por exemplo, que o contexto de uma pergunta é importante, inclusive os antecedentes que levam à formulação da pergunta e a intenção por trás do uso da informação a ser armazenada. Diferentes tipos de perguntas - classificadas de acordo com sua clareza, especificidade, complexidade, etc. - terão provavelmente diferentes níveis de desempenho no que diz respeito ao armazenamento da informação. Ciclos de busca tendem a melhorar os resultados, já que os resultados intermediários podem ser revistos e as estratégias de busca refinadas de acordo com eles (Choo, 2003, p. 76). Isso entra em consonância com o modelo apresentado por Ingwersen (1999) sobre a operação de SIs. Em um outro modelo de operação, conforme descrito por Ferneda (2012), o processo de recuperação de informações em um sistema de recuperação de informações digital ocorre quando o usuário interage com o sistema por meio de uma expressão de busca para obter acesso às informações desejadas. O sistema, por sua vez, utiliza uma função de busca como mediação para representar os documentos presentes no estoque informacional e, em caso de correspondência com a expressão de busca, apresenta-os como resultado para o usuário. Na Figura 5 é apresentado este processo. Figura 5 – Fluxo de um sistema de recuperação de informações digital Documentos (corpus) Representação dos documentos Usuário Expressão de busca Representação da Expressão de buscaFunção de busca Resultado da busca Modelo de Recuperação de Informação Fonte: Ferneda (2012, p. 14) Seção 2. Conceitos básicos 47 Em um SRI, é responsabilidade do usuário formular uma expressão de busca que descreva adequadamente sua necessidade de informação (Araújo Júnior, 2005). A busca de informação neste sistema pode ser realizada através de linguagem natural ou palavras-chave, com o objetivo de recuperar um conjunto de