Universidade Estadual Paulista “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciências de Marília SAMANTHA AUGUSTA DOS SANTOS DE JESUS ANÁLISE DO TESAURO UNESP SOB A PERSPECTIVA DA ABORDAGEM FACETADA MARÍLIA 2022 SAMANTHA AUGUSTA DOS SANTOS DE JESUS ANÁLISE DO TESAURO UNESP SOB A PERSPECTIVA DA ABORDAGEM FACETADA Dissertação apresentada ao Programa de Pós- Graduação em Ciência da Informação como parte das exigências para a obtenção do título de Mestre em Ciência da Informação pela Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Campus de Marília. Orientador: Prof. Dr. Walter Moreira Marília 2022 J58a Jesus, Samantha Augusta dos Santos de Análise do Tesauro UNESP sob a perspectiva da abordagem facetada / Samantha Augusta dos Santos de Jesus. -- Marília, 2022 132 p. : il., tabs. Dissertação (mestrado) - Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Marília Orientador: Walter Moreira 1. Tesauro UNESP. 2. tesauro facetado. 3. abordagem facetada. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Filosofia e Ciências, Marília. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. SAMANTHA AUGUSTA DOS SANTOS DE JESUS ANÁLISE DO TESAURO UNESP SOB A PERSPECTIVA DA ABORDAGEM FACETADA Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Informação como parte das exigências para a obtenção do título de Mestre em Ciência da Informação pela Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Campus de Marília. BANCA EXAMINADORA Orientador: __________________________________________________________ Prof. Dr. Walter Moreira, Faculdade de Filosofia e Ciências, Campus de Marília, Universidade Estadual Paulista 2º Avaliador: _________________________________________________________ Profa. Dra. Mariângela Spotti Lopes Fujita, Faculdade de Filosofia e Ciências, Campus de Marília, Universidade Estadual Paulista 3º Avaliador: _________________________________________________________ Profa. Dra. Benildes Coura Moreira dos Santos Maculan, Escola de Ciência da Informação, Universidade Federal de Minas Gerais Marília, 25 de abril de 2022. À Deus, meu pai celeste, que está sempre comigo. Ao meu amor, Eliezer, meu companheiro de todos os momentos, que me ensina e me instiga todos os dias. Obrigada por me amar e me permitir te amar. À minha família, que me ensinou a responsabilidade da vida e me apoiou em todo o processo acadêmico. Agradeço ao meu orientador, Walter, por ter contribuído significativamente para minha pesquisa, mesmo a distância esteve muito presente em todo o meu processo. Obrigada por ser esse pai orientador. Agradeço ao GEORC. Obrigada pelas contribuições, trocas e leituras. Agradeço aos docentes e ao Programa de Pós-Graduação de Ciência da Informação (PPGCI) da UNESP, que apresentaram sempre mestria e disposição para ajudar quando necessário. Agradeço à minha banca de qualificação e defesa, Mariângela e Benildes, que se dispuseram a contribuir significativamente com minha pesquisa. Meus sinceros agradecimentos. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES) - Código de Financiamento 001. O inacabado que há em mim Eu me experimento inacabado. Da obra, o rascunho. Do gesto, o que não termina. Sou como o rio em processo de vir a ser. A confluência de outras águas e o encontro com filhos de outras nascentes o tornam outro. O rio é a mistura de pequenos encontros. Eu sou feito de águas, muitas águas. Também recebo afluentes e com eles me transformo. O que sai de mim cada vez que amo? O que em mim acontece quando me deparo com a dor que não é minha, mas que pela força do olhar que me fita vem morar em mim? Eu me transformo em outros? Eu vivo para saber. O que do outro recebo leva tempo para ser decifrado. O que sei é que a vida me afeta com seu poder de vivência. Empurra-me para reações inusitadas, tão cheias de sentidos ocultos. Cultivo em mim o acúmulo de muitos mundos. Por vezes o cansaço me faz querer parar. Sensação de que já vivi mais do que meu coração suporta. Os encontros são muitos; as pessoas também. As chegadas e partidas se misturam e confundem o coração. É nesta hora em que me pego alimentando sonhos de cotidianos estreitos, previsíveis. Mas quando me enxergo na perspectiva de selar o passaporte e cancelar as saídas, eis que me aproximo de uma tristeza infértil. Melhor mesmo é continuar na esperança de confluências futuras. Viver para sorver os novos rios que virão. Eu sou inacabado. Preciso continuar. Se a mim for concedido o direito de pausas repositoras, então já anuncio que eu continuo na vida. A trama de minha criatividade depende deste contraste, deste inacabado que há em mim. Um dia sou multidão; no outro sou solidão. Não quero ser multidão todo dia. Num dia experimento o frescor da amizade; no outro a febre que me faz querer ser só. Eu sou assim. Sem culpas. (Padre Fábio de Melo) RESUMO O tesauro é um vocabulário controlado de uma área específica de domínio que auxilia na representação e na recuperação da informação. Uma dificuldade do tesauro tradicional é representar o conhecimento interdisciplinar, pois, os sistemas utilizados como instrumento de representação em unidades de informação são disciplinares. Os tesauros facetados são sistemas que representam o conhecimento interdisciplinar eficazmente e estabelecem relações por de categorias fundamentais, tal como propôs Ranganathan. O Tesauro UNESP foi desenvolvido com base em um sistema disciplinar, porém, os sistemas facetados permitem acomodar, praticamente, todos os assuntos e as áreas do conhecimento são interdisciplinares, o que torna ainda mais relevante questionar sobre a possibilidade de uma abordagem facetada nesse tesauro. Dessa forma, avaliou-se o Tesauro UNESP sob a perspectiva da teoria da classificação facetada. Verificou-se se esse tesauro condiz com sua norma de construção, identificando os critérios estabelecidos pela estrutura. Sistematizou-se um método de abordagem facetada e se aplicou no Tesauro UNESP. O método possibilitou uma estrutura lógica e simples, e a análise possibilitou verificar as inconsistências no tesauro. Como considerações finais, o tesauro possui uma estrutura disciplinar, porém, os tesauros atuais são facetados. Com a aplicação da abordagem facetada, o desempenho das buscas no Tesauro UNESP pode ser melhorado, sua estrutura hierárquica e sua ordenação podem se tornar simples e eficazes. Palavras-chave: Tesauro UNESP; tesauro facetado; abordagem facetada. ABSTRACT The thesaurus is a controlled vocabulary of a specific domain area that assists in the representation and retrieval of information. One difficulty of the traditional thesaurus is to represent interdisciplinary knowledge, since the systems used as a representation instrument in information units are disciplinary. Faceted thesauri are systems that represent interdisciplinary knowledge effectively and establish relationships through fundamental categories, as proposed by Ranganathan. The UNESP Thesaurus developed based on a disciplinary system; however, the faceted systems allow practically all subjects to be accommodated and the areas of knowledge are interdisciplinary, which makes it even more relevant to question the possibility of a faceted approach in this thesaurus. Thus, the UNESP Thesaurus evaluated from the perspective of faceted classification theory. It was verified if this thesaurus matches its construction norm, identifying the criteria established by the structure. A faceted approach method systematized and applied to the UNESP Thesaurus. The method allowed a logical and simple structure, and the analysis made it possible to verify the inconsistencies in the thesaurus. As final considerations, the thesaurus has a disciplinary structure, however, thesauri current it's faceted. With the application of the faceted approach, the performance of searches in the UNESP Thesaurus can be improved, its hierarchical structure and its ordering can become simple and effective. Keywords: UNESP Thesaurus; faceted thesaurus; faceted approach. Lista de Quadros Quadro 1 – Estratégia de busca: SCOPUS ............................................................... 13 Quadro 2 – As classes e subdivisões da CDD .......................................................... 53 Quadro 3 - Classificação da colon classification ....................................................... 54 Quadro 4 – Exemplo de combinação de facetas em auxiliares comuns ................... 60 Quadro 5 – Cânones de características .................................................................... 60 Quadro 6 – Cânones de matrizes de classes ............................................................ 61 Quadro 7 – Cânones de cadeias de classes ............................................................. 62 Quadro 8 – Cânones de terminologia ........................................................................ 62 Quadro 9 – Notas históricas no Tesauro UNESP ...................................................... 67 Quadro 10 - Modelo simplificado de análise de facetas de Spiteri ............................ 71 Quadro 11 – Modelo de análise da introdução do tesauro facetado ......................... 73 Quadro 12 - Modelo de análise de exibição do tesauro facetado .............................. 74 Quadro 13 – Termos ordenados alfabeticamente ..................................................... 78 Quadro 14 – Provável agrupamento dos termos ....................................................... 78 Quadro 15 – Classificação dos termos em facetas ................................................... 79 Quadro 16 – Princípios da abordagem facetada ....................................................... 80 Quadro 17 – Símbolos de um fluxograma ................................................................. 91 Quadro 18 – Exemplo de homógrafos ....................................................................... 97 Quadro 19 – Aplicação da abordagem facetada na classe ontologia ...................... 103 Quadro 20 – Classe Deus com as facetas .............................................................. 106 Quadro 21 - Classe finanças com as facetas .......................................................... 109 Quadro 22 - Classe linguística histórica com as facetas ......................................... 111 Quadro 23 – Classe astronomia elementar com facetas ......................................... 113 Quadro 24 - Classe engenharia militar com as facetas ........................................... 115 Quadro 25 – Classe plantas lenhosas com facetas ................................................ 116 Quadro 26 – Classe ficção americana com facetas ................................................ 118 Quadro 27 – Classe geografia histórica com as facetas ......................................... 119 Lista de Figuras Figura 1 – Estratégia de busca: LISTA ...................................................................... 13 Figura 2 – Os diferentes SOC ................................................................................... 29 Figura 3 – Conjunto provisório de tipos de SOC ....................................................... 32 Figura 4 – Thesaurofacet: parte de faceta “materiais” .............................................. 40 Figura 5 – Tesauro Brasileiro de Ciência da Informação .......................................... 55 Figura 6 – Estrutura Hierárquica AGROVOC ............................................................ 56 Figura 7 – Termo “climatologista” no AGROVOC ...................................................... 56 Figura 8 – Estrutura geral do AGROVOC ................................................................. 57 Figura 9 – Procedimentos Metodológicos ................................................................. 64 Figura 10 – Linha do tempo dos padrões de tesauro ................................................ 66 Figura 11 – Artigos avaliados por Spiteri ................................................................... 73 Figura 12 – Extrato do Tesauro UNESP ................................................................... 87 Figura 13 – Fluxograma para aplicação da abordagem facetada em tesauros ......... 93 Figura 14 – Notas de escopo do termo “organização da informação” ....................... 95 Figura 15 – Sugestão de busca ................................................................................. 96 Figura 16 – Sugestão de correção de busca ............................................................. 96 Figura 17 – Sugestões de busca por área do conhecimento .................................... 97 Figura 18 – Homógrafos da palavra manga .............................................................. 97 Figura 19 – Termo que representa mais de uma palavra .......................................... 98 Figura 20 – Relações de equivalência – termos não preferidos ................................ 99 Figura 21 – Relações hierárquicas .......................................................................... 100 Figura 22 – Classe ontologia no Tesauro UNESP .................................................. 102 Figura 23 – Classe Deus do Tesauro UNESP......................................................... 104 Figura 24 – Classe finanças do Tesauro UNESP .................................................... 108 Figura 25 – Classe linguística histórica no Tesauro UNESP ................................... 110 Figura 26 – Classe astronomia no Tesauro UNESP ............................................... 112 Figura 27 – Classe engenharia militar no Tesauro UNESP .................................... 114 Figura 28 – Classe plantas lenhosas do Tesauro UNESP ...................................... 116 Figura 29 – Classe ficção americana do Tesauro UNESP ...................................... 117 Figura 30 – Classe geografia histórica do Tesauro UNESP .................................... 118 SUMÁRIO 1 INTRODUÇÃO ............................................................................................. 11 1.1 Objetivos ..................................................................................................... 14 2 ORGANIZAÇÃO E REPRESENTAÇÃO DO CONHECIMENTO ................. 16 2.1 Organização do Conhecimento ................................................................. 16 2.2 Representação do Conhecimento ............................................................. 23 2.3 Sistemas de Organização do Conhecimento ........................................... 26 2.3.1. TESAURO .................................................................................................... 35 2.3.2 TESAUROS FACETADOS ........................................................................... 38 2.3.2 APORTES DA TERMINOLOGIA .................................................................. 42 2.3.3 APORTES DA TEORIA DA CLASSIFICAÇÃO ............................................. 46 3 SISTEMAS DE CLASSIFICAÇÃO: ENUMERATIVAS E FACETADAS ...... 50 3.1 Sistemas de Classificação ......................................................................... 52 3.2 Abordagem Facetada ................................................................................. 58 4 PROCEDIMENTOS METODOLÓGICOS ..................................................... 64 4.1 International Standard 25964-1.................................................................. 65 4.2 Proposta de La Barre para Avaliação da Abordagem Facetada ............. 68 4.3 Proposta de Spiteri para Avaliação da Abordagem Facetada em Tesauros ...................................................................................................... 70 4.4 Proposta de Broughton para Avaliação da Abordagem Facetada em Tesauros ...................................................................................................... 77 4.5 Proposta de Soergel para Avaliação da Abordagem Facetada em Tesauros ...................................................................................................... 79 4.6 Análise dos métodos .................................................................................. 80 4.7 História do Tesauro UNESP ....................................................................... 82 4.8 Descrição dos Procedimentos Metodológicos ........................................ 85 5 RESULTADOS ............................................................................................. 95 6 CONCLUSÃO............................................................................................. 120 REFERÊNCIAS .......................................................................................... 124 11 1 INTRODUÇÃO Nesta primeira seção introdutória, aborda-se o tesauro, suas funções e sua importância na recuperação da informação, principalmente no que diz respeito aos bancos de dados e às bases de dados on-line. O tesauro é um tipo de linguagem documentária (LD), que nasceu com o crescimento informacional científico e tecnológico, no contexto das décadas de 1950 e 1960, em face das dificuldades de armazenamento e recuperação da informação. As LD objetivam traduzir a linguagem natural dos assuntos dos documentos para uma linguagem inteligível pelo sistema. O tesauro é um vocabulário controlado, normalmente relativo a um campo do conhecimento específico e considerado uma lista sistemática de conceitos ordenados. Esses conceitos são materializados em forma de termos e almejam o controle terminológico, a representação do conhecimento e o auxílio na recuperação da informação. O tesauro pode ser utilizado sempre que houver a necessidade de descrever o assunto de um documento. Ele pode ser aplicado em diferentes contextos: banco de dados on-line, catálogos, ferramentas bibliográficas, entre outros. O tesauro auxilia em dois momentos diferentes e complementares: na indexação e na busca, sua função está voltada à representação e à recuperação da informação. A indexação, como processo de representação temática do documento, escolhe os termos que representam o conteúdo dos documentos, com o objetivo de alcançar uma recuperação da informação eficaz em catálogos. A busca, como processo de recuperação da informação, requisita informações por termos, com a finalidade de recuperar documentos no sistema, os quais tratem da informação necessária. O acesso aos computadores tem-se tornado quase universal. A busca por informação automatizada tem forçado a recorrência por ferramentas de busca e gerado, dessa maneira, uma maior preocupação com possíveis inconsistências nos sistemas, tanto no ato da requisição da informação — na utilização pelos usuários de diferentes termos daqueles utilizados no sistema — quanto nos processos de organização do conhecimento, ou seja, na indexação — na escolha realizada por 12 bibliotecários indexadores, dos termos que possam representar os assuntos dos documentos, de modo consistente. Os processos de organização do conhecimento envolvem a classificação, a catalogação, a análise temática, a análise descritiva, a indexação, a distribuição no acervo, o auxílio na compra, a permuta, o recebimento de doações, a seleção conforme o público e a manutenção da base de dados bibliográficos do acervo. Uma das funções essenciais do tesauro é permitir uma comunicação entre os documentos e as necessidades informacionais do usuário, tendo em vista que o sistema de busca é intermediado pelo tesauro, o qual funciona, nesse caso, como um código comutador. Com a pós-modernidade e o conhecimento complexo, emerge o conhecimento interdisciplinar, multidisciplinar e transdisciplinar; surge, inclusive, o problema de representar esse tipo de conhecimento, através de sistemas tradicionais disciplinares. A ciência da informação (CI) e a biblioteconomia têm apresentado alternativas para solucionar essa inadequação. Algumas possíveis alternativas são: o emprego de novas ferramentas, adaptações ou mudanças de ferramentas de indexação e recuperação da informação, como, por exemplo, o uso dos tesauros facetados. O tesauro facetado possui uma exibição alfabética e sistemática interdependentes entre si, construído com base nos princípios analíticos facetados. A análise facetada comporta uma análise linguística de conceitos em uma área do conhecimento; em outras palavras, analisa linguisticamente os termos e, consequentemente, os conceitos de um domínio. Cria-se, dessa maneira, uma estrutura lógica e consistente, que é convertida em uma estrutura do tesauro. Isto é, a análise linguística dos conceitos na abordagem das facetas provoca uma estrutura, a qual pode se transformar em um arranjo de um tesauro. Nesse sentido, tendo em vista o conhecimento inter, multi e transdisciplinar, a necessidade de discussão a respeito dos tesauros facetados se manifesta como uma forma de solucionar as dificuldades que surgiram, para organizar o conhecimento. A motivação e a justificativa deste estudo se explicam pelos seguintes motivos: a autora está inserida na instituição responsável pelo tesauro da Universidade Estadual Paulista (UNESP). Os termos do Tesauro UNESP se relacionam com as atividades de ensino, pesquisa e extensão, e podem ser aplicados na representação dos conteúdos mais significativos dos livros, das monografias, das teses, dos trabalhos de conclusão de curso, dos documentos, dos periódicos, entre outros, da 13 instituição de ensino, de modo a auxiliar na recuperação de informações relevantes à comunidade usuária — ou seja, possui justa importância com relação à comunidade acadêmica. Para reforçar a necessidade do estudo, Spiteri (1998) afirmou, há mais de 20 anos, que a pesquisa em abordagem facetada, na maioria das vezes, está em volta de discussões a respeito da classificação, enquanto pesquisas sobre outros sistemas, como os tesauros, são quase omissas. Ou seja, Spiteri reforça a lacuna e a necessidade da pesquisa sobre os tesauros facetados. Em uma breve investigação realizada nas bases de dados Library, Information Science and Technology Abstracts (LISTA) e na Scopus, no ano de 2021 (considerando-se os dados até o ano de 2020), com as estratégias de busca apresentadas na sequência, é possível observar que essa lacuna na literatura de tesauros facetados ainda persiste: Figura 1 – Estratégia de busca: LISTA Fonte: Elaborada pela autora (2021). Quadro 1 – Estratégia de busca: SCOPUS TITLE-ABS-KEY (thesaur* AND facet*) AND (LIMIT-TO (DOCTYPE,"ar") OR LIMIT-TO (DOCTYPE,"cp") OR LIMIT-TO (DOCTYPE,"ch") OR LIMIT-TO (DOCTYPE,"bk")) AND (LIMIT-TO (LANGUAGE,"English") OR LIMIT-TO (LANGUAGE,"Spanish") OR LIMIT-TO (LANGUAGE,"Portuguese")) AND (LIMIT-TO (EXACTKEYWORD,"Thesauri") OR LIMIT-TO (EXACTKEYWORD,"Thesaurus")) Fonte: Elaborado pela autora (2021). A busca em cada uma das bases de dados obteve o seguinte resultado, conforme a Tabela 1, em que se observa uma lacuna em pesquisas sobre o tema dos tesauros facetados: 14 Tabela 1 – Trabalhos sobre tesauro Base de Dados Resultado de Busca Trabalhos que tratam de Tesauros Facetados LISTA 25 1 SCOPUS 51 6 Fonte: Elaborada pela autora (2021). Há um percentual de 4% de trabalhos (1 de 25) que tratam sobre tesauros facetados, em relação ao resultado de busca na LISTA, e cerca de 12% (6 de 51), na Scopus. A partir dessa busca realizada na LISTA e na Scopus, depois de mais de 20 anos da observação realizada por Spiteri, essa lacuna é persistente. O tesauro se tornou um instrumento muito utilizado e eficaz na recuperação da informação. Para melhorar sua função de recuperação, as facetas podem contribuir por mostrar e fragmentar um assunto complexo em diversos aspectos de noções abstratas, por meio das categorias fundamentais. Dessa maneira, a problemática da pesquisa se baseia em trabalhar nessas lacunas da literatura e desenvolver um estudo na abordagem facetada, a partir dos seguintes questionamentos: como se dá a estruturação e a organização do Tesauro UNESP? Quais são os parâmetros adotados para essa estruturação e organização? A abordagem facetada pode contribuir para a estrutura, hierarquização e ordenação do Tesauro UNESP? Para dar suporte, direcionar e resolver a problemática da pesquisa, focalizam- se, na sequência, o objetivo geral e os objetivos específicos desta investigação. 1.1 Objetivos Nesse contexto dos tesauros facetados, a presente pesquisa tem como objetivo apresentar uma proposta de como tornar o Tesauro UNESP facetado, ou seja, mais especificamente: a. identificar e estabelecer definições do método facetado; b. observar, sob o entendimento da norma ISO 25964-1, a estruturação e os critérios estabelecidos pelo Tesauro UNESP, no que se refere à abordagem facetada; c. apresentar elementos para aplicação da abordagem facetada no Tesauro UNESP, sob a forma de uma proposta de facetação. 15 Nesta seção, aborda-se igualmente a importância do tesauro para a comunicação entre o usuário do sistema e os documentos, as dificuldades de representação do conhecimento interdisciplinar, através dos sistemas disciplinares, assim como o papel da abordagem facetada e o contexto em que ela se inseriu, na presente pesquisa. 16 2 ORGANIZAÇÃO E REPRESENTAÇÃO DO CONHECIMENTO Na presente seção, são expostas as características, funções, processos, objeto de estudo, áreas relacionadas, definições, premissas, abordagens, contexto histórico, objetivos e processos da organização e da representação do conhecimento (ORC). Esse conhecimento, na área da ORC, tem como objetivo contextualizar a abordagem facetada, a qual está inserida nesse contexto. Esta seção se subdivide nas seguintes subseções: organização do conhecimento, representação do conhecimento e sistemas de organização do conhecimento. Refinando um pouco mais, a terceira subseção enfoca a história, definições, objetivos, características, processo de desenvolvimento e exemplos a respeito dos tesauros, dos aportes da terminologia e dos aportes da teoria da classificação. 2.1 Organização do Conhecimento Esta subseção apresenta definições, objetivos, objeto de estudo, funções, abordagens, abrangência e histórico da organização do conhecimento. A organização é uma atividade característica e, de certo modo, inerente ao ser humano. O ser humano organiza as coisas, para compreender o mundo e desenvolver uma comunicação efetiva. Para Carlan e Medeiros (2011, p. 55), o conhecimento está em “eterno” crescimento, transformando-se e acumulando-se. Quando se adquire conhecimento relaciona-se com algo já existente, e sobre o qual somos capazes de raciocinar e chegar a conclusões. A criação de conhecimento sobre os objetos que nos cercam constitui uma prerrogativa essencial da racionalidade humana. Desenvolve-se, por instinto, num processo cognitivo que leva a identificar características do objeto percebido e comparar com características identificadas em outros objetos já conhecidos. A partir desse conhecimento, inicia-se um processo classificatório do objeto. Organiza-se o conhecimento, a fim de se obter uma melhor compreensão e uma recuperação eficaz. Complementando, organizar é estruturar o conhecimento por assunto, para uma determinada finalidade. Ou seja, organiza-se, porque há um objetivo imanente de encontrar posteriormente o conhecimento armazenado. 17 A organização do conhecimento (OC) busca oferecer base teórica em tudo o que se relaciona com o tratamento da informação, mais especificamente, propiciar a base para o tratamento temático da informação (BARITÉ, 2001b). O objeto de estudo da OC é o conhecimento socializado e, enquanto disciplina, o desenvolvimento de técnicas e o fornecimento de metodologias de uso e recuperação da linguagem natural (BARITÉ, 2001b). De acordo com Alvares (2012, p. 27), organizar o conhecimento é “um fenômeno social, pois a manifestação do pensamento pelo agrupamento, pela separação, pela hierarquização e pela centralização, princípios fundamentais da organização, é realizada intuitivamente o tempo todo”. Organizar é uma ação cotidiana dos seres humanos e faz parte da natureza fundamental, tanto que esses seres ordenam o pensamento sem perceber. Para a CI, só há validade nos princípios da teoria da OC, quando compartilhados, socializados e, consequentemente, gerados novos conhecimentos. Ou seja, há uma relação explícita entre o estudo da organização social do conhecimento e da OC, no que se refere às teorias, ideologias e paradigmas (ALVARES, 2012). A OC é estudada em diversas áreas, tais como a antropologia, a computação, a filosofia, a psicologia e a sociologia, dentre outras. Na CI, suas principais atividades estão voltadas à organização, à representação e à recuperação da informação. Como campo do conhecimento, a OC envolve a pesquisa, o ensino e a prática, associada à biblioteconomia e à CI. A OC “está preocupada com a natureza e a qualidade de tais processos de organização do conhecimento (POC), bem como os sistemas de organização do conhecimento (SOC) usados para organizar e representar documentos, trabalhos e conceitos” (HJØRLAND, 2008, p. 86, tradução nossa). De modo mais consistente, a OC se preocupa com o design, com os princípios e com as metodologias para construção de sistemas de organização do conhecimento. As suas principais funções, no contexto da biblioteconomia e da CI, se relacionam a: • facilitar pesquisas em catálogos e bibliografias (função da recuperação da informação); • fornecer informações sobre documentos importantes para a decisão dos usuários no empréstimo de documentos (por exemplo, na forma de resumos e notas), além de fornecer informações sobre 18 como obter um determinado documento (função da informação do documento); • organizar as prateleiras e as outras categorias de ordenação linear (função da ordenação). (BROUGHTON; HANSSON; HJØRLAND; LÓPEZ-HUERTAS, 2005, p. 134, tradução nossa). Essas funções só serão alcançadas, se as informações forem descritas adequadamente, conforme a necessidade informacional dos seus usuários. Arboit (2018a, p. 130, tradução nossa) afirma que a OC pode ser definida como uma ciência dedicada ao estabelecimento de estruturas e arranjos sistemáticos de unidades do conhecimento, de acordo com as suas particularidades, características e aplicações de conceitos e classes de conceitos ordenados, para representar o conteúdo do seu objeto ou o assunto de referência abrangendo todos os seus tipos. Ou seja, a OC se preocupa em responder como as unidades de conhecimento se relacionam e se organizam, em um contexto. O objeto de estudo da OC é o próprio conhecimento, que se diferencia sob duas perspectivas: o conhecimento subjetivo e o conhecimento social. O conhecimento subjetivo é o conhecimento que está no cognitivo de um indivíduo; outras pessoas não podem ter acesso a ele, pois não está representado, não possui registro e não há uma organização. O conhecimento social é aquele que está registrado, em que houve um esforço para interpretar, para traduzir e para representar o conhecimento do indivíduo cognoscente, a fim de que outros possam ter acesso a ele, através de instrumentos de organização do conhecimento, os SOC (CORREIA; ZANDONADE, 2018). Adiante, Barité (2001a, p. 42-53, tradução nossa) arrola as seguintes premissas básicas para um domínio da OC: 1) o conhecimento é um produto, uma necessidade e um dínamo social; [...] 2) o conhecimento se realiza a partir da informação e, ao se socializar, se transforma em informação; [...] 3) a estrutura do conhecimento e da comunicação forma um sistema aberto; [...] 4) o conhecimento deve ser organizado para o seu melhor uso individual e social; [...] 5) existem “n” formas possíveis de organizar o conhecimento; [...] 6) toda organização do conhecimento é artificial, provisória e determinística; [...] 7) o conhecimento é sempre registrado em documentos, como um conjunto organizado de dados disponíveis e que admite usos indiscriminados; [...] 19 8) o conhecimento é expresso em conceitos e organizado por sistemas de conceitos; [...] 9) os sistemas de conceitos são organizados para fins científicos, funcionais ou documentais; e [...] 10) as leis que governam a organização dos sistemas conceituais são uniformes e previsíveis e se aplicam igualmente a qualquer disciplina. (BARITÉ, 2001a, p. 42-53, tradução nossa). Ou seja, de forma sintética, o conhecimento é social, no entanto, construído individualmente e socialmente. Existem diversas maneiras de o conhecimento ser expresso e organizado, podendo ser representado por conceitos e sistemas de conceitos; ademais, os sistemas de conceitos podem ser construídos para diversos fins e aplicáveis a qualquer disciplina. A OC diz respeito à descrição, à indexação e à classificação. Essas atividades são desenvolvidas em bibliotecas, arquivos, bases de dados bibliográficos, dentre outras instituições de memória. A OC se preocupa com a natureza e com o processo de OC e dos SOC, utilizados para organizar e representar documentos, obras e conceitos. No sentido estrito, as atividades biblioteconômicas são centrais para a OC e, no sentido amplo, são responsáveis pela organização social das universidades e dos institutos de pesquisa e ensino, estruturação de disciplinas e profissões, produção e disseminação do conhecimento, dentre outras coisas (HJØRLAND, 2008). A OC se divide, desse modo, em duas abordagens: a organização social do conhecimento e a organização intelectual ou cognitiva do conhecimento, tendo em vista que a primeira é responsável pela descoberta das estruturas das ciências únicas e a segunda é atinente à biblioteconomia e à CI (HJØRLAND, 2008). É importante ressaltar que o sentido estrito depende do sentido amplo, pois não é possível considerar apenas um conhecimento isoladamente, sem levar em conta os demais (HJØRLAND, 2008). Ou seja, é necessário compreender o conhecimento que está no entorno do conhecimento específico, como, por exemplo, entender dos SOC antes de entender dos tesauros, e dos tesauros, antes de entender dos tesauros facetados – e assim por diante. A OC é dividida em diferentes áreas, tais como: a classificação e a catalogação – que organizam hierarquicamente e descrevem os materiais; os mapas – os quais representam um modelo mental e resumem os conteúdos dos documentos; a indexação, o cabeçalho de assunto e o tesauro – que são ferramentas usadas para 20 oferecer um ponto de acesso e representar o assunto dos documentos; as taxonomias – as quais representam um vocabulário específico e o organizam em um tópico específico; e as folksonomias – com que os usuários finais podem descrever itens de informação (REHMAN; ALAJMI, 2017). Para Smiraglia (2012), assim como para a CI, a OC depende de ferramentas de outras disciplinas, isto é, pode ser considerada uma área interdisciplinar, porque mescla ferramentas de diferentes domínios, podendo ainda ser tomada como pan- disciplinar (SMIRAGLIA, 2012, p. 10, tradução nossa), porque perpassa todas as disciplinas. Segundo Smiraglia (2012), algumas dessas disciplinas são: • a epistemologia, que investiga a natureza e a origem do conhecimento, e tem como abordagem, segundo Hjørland (1998): ➢ o empirismo; ➢ o racionalismo; ➢ o historicismo; ➢ o pragmatismo; • a semiótica, a qual possui a linguagem como meio principal para se comunicar entre os seres humanos; • a ordem, segundo Foucault, é um dos componentes da organização do conhecimento, que impõe às coisas um aspecto de identidade aos fenômenos; • as coisas, conforme a fenomenologia husserliana, são descritas por conceitos, e a percepção apenas está sujeita à interpretação individual; • além disso, Wittgenstein possui a visão dos signos proposicionais. Seu trabalho, na OC, está ligado à abordagem da natureza da linguagem e das proposições que encontramos em uma abordagem útil para o significado de um conceito. De acordo com García-Marco (1993), as abordagens da OC se constituem como uma disciplina de aplicação científica, que objetiva melhorar a circulação da informação, a seleção, o armazenamento, a recuperação e a difusão da informação, tendo como meta produzir um novo conhecimento e facilitar o acesso. García-Marco (1993) assim divide os paradigmas na organização e representação do conhecimento: 21 • o conservacionista, que possui um modelo de gestão de uma coleção de fundo; • o fisicalista, o qual dispõe de um modelo clássico de comunicação; • o linguístico, que conta com um sistema linguístico; • o lógico-matemático, o qual possui modelos formais; • e o cognitivo, que reúne modelos interativo-processuais. Para Barité (2001b), o objeto de estudo da OC como disciplina é desenvolver técnicas para a construção, a gestão, o uso e a evolução das classificações científicas, das taxonomias, das nomenclaturas e das linguagens documentárias. As abordagens que se desenvolveram na OC foram as seguintes: as práticas e intuitivas, as baseadas no consenso científico e educacional, as analítico-facetadas, as cognitivas e as baseadas nos usuários (HJØRLAND, 2016). As abordagens práticas e intuitivas, entre outras abordagens desenvolvidas pela OC, utilizam o mesmo sistema de classificação em várias bibliotecas, facilitando a centralização da classificação e da indexação, tais como a Classificação Decimal de Dewey (CDD, ou em inglês Dewey Decimal Classification – DDC) e a classificação de periódicos nos bancos de dados de citações (HJØRLAND, 2016). As abordagens baseadas no consenso científico e educacional tiveram como protagonista Henry Bliss, criador da Bliss Bibliographic Classification (BBC), para quem uma classificação deveria ser concebida por padrões, e não por aquilo que o criador do sistema entendia como certo (HJØRLAND, 2016). Outra abordagem desenvolvida pela OC são as analítico-facetadas, sendo a abordagem mais distinta na biblioteconomia e na CI. Foi criada por Ranganathan, ampliada pelo British Classification Research Group (CRG) e pode ser denominada teoria da classificação moderna. É um sistema diferente dos enumerativos e possui uma abordagem mais explícita e pura da OC, porém, revela base empírica em sua metodologia e uma ordem abstrata do conhecimento (HJØRLAND, 2016). As abordagens cognitivas e as que são baseadas nos usuários possuem hipóteses sem suporte, visto que não há evidências de que sistemas amigáveis devam ter base em informações coletadas de usuários ou sobre usuários, entretanto, existem os seus apoiadores. As abordagens analíticas ou epistemológicas de domínio acreditam que um objeto, um domínio ou um documento pode ser classificado por diversas perspectivas (HJØRLAND, 2016). 22 As abordagens que se desenvolveram fora da área da OC foram as seguintes: as bibliométricas, as de recuperação da informação, as ontológicas e as abordagens de gênero (HJØRLAND, 2016). A abordagem bibliométrica, como área interdisciplinar da organização do conhecimento, possui relação com a biblioteconomia e a CI, tendo como subcampos a altmetria, a informetria, a cienciometria e a webometria. As abordagens da recuperação da informação se relacionam com a ciência da computação (CC), tendo como objetivo auxiliar os usuários da informação a encontrar os seus documentos; as abordagens ontológicas possuem especificações formais e harmonizam as definições de conceitos, para representar o conhecimento específico. E as abordagens de gênero social e cultural reconhecem a importância social dos mecanismos de pesquisa e dos sistemas de estruturação do conhecimento (HJØRLAND, 2016). A OC, segundo Rehman e Alajmi (2017), envolve a descrição do documento e os seus respectivos conteúdos e recursos, sendo que essa descrição visa a tornar esses documentos mais acessíveis. A OC abrange todos os tipos de esquemas para organizar a informação e o conhecimento: esquemas de classificação, cabeçalhos de assuntos, arquivos de autoridade, sistemas e ferramentas de catalogação, metadados, mineração de dados, mapas de informações, mapas de conhecimento, taxonomia e ontologias. Teóricos que se destacam na contribuição na história da OC são Cutter, Henry Bliss e Sayers, com o estabelecimento do campo da OC como campo acadêmico (HJØRLAND, 2016) A criação das revistas International Classification (1974) e International Society for Knowledge Organization (ISKO), em 1989, foram eventos muito importantes para o desenvolvimento da OC como campo de estudo, liderado por Ingetraut Dahlberg (HJØRLAND, 2016). A história da organização do conhecimento, segundo Hjørland (2016), se divide em seis aspectos: 1) a história dos sistemas de classificação de bibliotecas, que cobre os sistemas de classificação antigos e os atuais, sabendo-se que a CDD se tornou a mais usada mundialmente; 2) a história das classificações das ciências, a qual baseou e ainda baseia as classificações das bibliotecas; 23 3) a história das taxonomias científicas (classificações nas ciências), por exemplo, o sistema botânico da classificação de Lineu, bem como a tabela periódica dos elementos químicos; 4) a história da teoria da classificação e da teoria do conceito, considerando-se que não houve obra principal dessas teorias, contudo, houve contribuições importantes das obras de Aristóteles, Darwin, Wittgenstein, Rosch, Kuhn, dentre outros; 5) a história dos sistemas e processos de organização do conhecimento; 6) e a história da OC como disciplina, que está relacionada ao desenvolvimento da biblioteconomia e da CI, principalmente como disciplina. De acordo com Vignoli, Souto e Cervantes (2013), a OC consiste na construção dos modelos do mundo, que são as representações da realidade. O seu objeto de estudo constitui o conhecimento, o mundo das ideias e os conceitos, relacionando-se com certas disciplinas, como a linguística, a psicologia, a filosofia, a inteligência artificial e a CI. Um dos principais objetivos da OC é fornecer acesso ao conhecimento, por meio da informação estruturada. A informação só é valiosa, quando estruturada, porque a organização possibilita a compreensão da informação e do contexto em que ela está inserida. No entanto, só é possível realizar-se essa estruturação através dos elementos que estruturam o conhecimento armazenado nesses objetos, tal como a representação do conhecimento (RC). 2.2 Representação do Conhecimento Nesta seção, são abordadas brevemente questões de RC, o seu processo cognitivo, suas funções e sua definição. A representação está presente na humanidade desde sempre, na formação social e na cultura, tendo acompanhado toda a evolução e diversos contextos de transformação da sociedade (ALBUQUERQUE; GAUDÊNCIO; SANTOS, 2019). Na filosofia, para Descartes, a representação era uma atividade racional. Conforme Locke, era resultado de uma experiência, e suas ideias sobre os objetos eram comunicadas pela linguagem e pelo signo (ARBOIT, 2018b). A representação, na CI, além de ser uma atividade pragmática, também é um campo de estudo teórico e aplicado, que objetiva atender aos problemas da 24 informação, na cultura pós-moderna, e tornar registros informacionais acessíveis (ALBUQUERQUE; GAUDÊNCIO; SANTOS, 2019). Ainda no âmbito da CI, a RC possibilita “a elaboração de linguagens documentárias verbais e notacionais, visando à recuperação de informação e à organização dos conteúdos informacionais de documentos” (CAMPOS, 2004, p. 24). A representação possui como carga a complexidade (ALBUQUERQUE; GAUDÊNCIO; SANTOS, 2019), é um conceito da filosofia clássica utilizado na semiótica, a qual afirma que a linguagem tem como função estar no lugar de outra coisa e de representar uma realidade diferente (GREIMAS; COURTÉS, 1979). Arboit (2018b, p. 161-162) argumenta que toda representação da realidade é limitada porque é somente uma expressão elaborada conforme o alcance do olhar do sujeito que representa. O olhar é sempre desenvolvido em determinado contexto coletivo e espaço temporal e dentro desses contextos é que a consciência individual é moldada. Por isso, toda representação é produzida a partir de uma visão constantemente construída pelo sujeito com base na sua interpretação acerca dos signos que lhe foram previamente apresentados e assimilados no decorrer da sua vida em sociedade. A representação pressupõe o indivíduo e o social. Envolve o indivíduo, porque a representação é construída a partir do olhar que uma determinada pessoa tem sobre um objeto. Esse olhar que o indivíduo tem sobre esse objeto é construído com base no contexto em que ele está inserido, sendo moldada e baseada pelo coletivo social. A RC pode ser compreendida, doravante, como um processo cognitivo que registra o pensamento em um suporte documental, o qual inclui determinados estágios, como a percepção, a identificação, a interpretação, a reflexão e a codificação. Esses estágios dizem respeito a conhecer o novo ou aprofundar um conhecimento já conhecido, através dos sentidos, da emoção e da linguagem. Quando alguém é exposto aos processos do conhecimento, ele se integra ao campo da ontologia (ALVARENGA, 2003). O processo do conhecimento envolve assimilações das representações no cognitivo e, assim, a sua comunicação ou o seu armazenamento. Além disso, a informação possui fins racionais específicos, e as máquinas podem ser empregadas 25 para a “interpretação” e o seu processamento (CAPURRO, 19911 apud ALVARENGA, 2003). As atividades de RC estão “inseridas em ambientes mediadores de discurso onde o profissional [da informação] se norteia por um conjunto de diálogos que trava com autores e leitores” (ARBOIT, 2018b, p. 162), levando, dessa maneira, à não neutralidade das atividades, à necessidade da interpretação e representação ética e democrática do profissional, bem como à necessidade do esforço para “privilegiar todas as vozes ideológicas envolvidas no processo” (ALVARENGA, 2003, p. 164). A RC, segundo Campos (2004), é um mecanismo utilizado para compreensão do mundo, sendo um substituto do que representa, um meio de expressão, uma linguagem que permite expressar coisas sobre o mundo. A representação possui os seguintes aspectos: há uma identidade projetada ao referente e deve haver fidelidade da representação para com o objeto, além de permitir que “processos de formalização sobre os objetos e suas relações, em contextos predefinidos, possam ser facilmente representados” (CAMPOS, 2004, p. 24). Binwal e Lalhmachhuana (2001) afirmam que a RC provoca a sistematização do conhecimento, tendo em vista que o conhecimento necessita de uma organização que auxilie no acesso e no processamento fácil e rápido. Davis, Shrobe e Szolovitz (1993), por sua vez, assinalam que as funções da representação são muito úteis para identificar e caracterizar a diversidade de papéis. Primeiro, cada papel requer diferente representação; segundo, as funções fornecem estrutura para caracterizar a diversidade da representação; terceiro, precedentes divergências podem auxiliar para desemaranhadas representações; quarto, a visão da representação traz para a pesquisa uma perspectiva ampla e, inclusive, ajuda na sua prática. Alvares (2012, p. 33) compreende a RC como “uma tentativa de se apropriar dos elementos informacionais existentes nas estruturas e processos mentais que compõe o conhecimento individual, para que o saber possa ser socializado”, isto é, é transformar o conhecimento abstrato de um indivíduo em um saber explícito – uma informação que pode ser lida, falada, ouvida, sentida etc. – e que posteriormente pode ser compartilhada. 1 CAPURRO, R. What is information science for? a philosophical reflection. In: VAKKARI, P.; CRONIN, B. Conceptions of library and information science: historical, empirical and theoretical perspectives. London: Taylor Graham, 1992. 26 Para representar o conhecimento, é necessário recorrer a diversos instrumentos, conhecidos como modelos de representação; é possível citar os mapas conceituais, os mapas mentais, os mapas de processos cognitivos e os mapas funcionais do cérebro. Na CC, mais especificamente no estudo da inteligência artificial (AI, do inglês artificial intelligence), empregam-se técnicas, instrumentos e métodos que simulam os processos que ocorrem, pelo menos se supõe, na mente humana, como representações que utilizam a lógica formal, os modelos matemáticos, as redes neurais e os sistemas inteligentes, os quais possibilitam fazer inferências, assim como a mente humana; esses instrumentos podem ser chamados de SOC. 2.3 Sistemas de Organização do Conhecimento Nesta subseção da seção 2, apresentam-se os SOC, os quais são instrumentos de representação e organização do conhecimento. Na presente seção, ressaltam-se a sua importância, o seu objeto de estudo, o uso do termo, os seus objetivos, as suas definições e os seus conceitos, os diferentes tipos de SOC, as divisões e sistematizações dos SOC. SOC é um termo geral que se refere a diferentes propósitos, em contextos diversos. Os SOC possuem diferentes estruturas, funções específicas e são empregados em diversos contextos; entretanto, possuem em comum alguns propósitos: apoiar a OC e facilitar a gestão e a recuperação (MAZZOCCHI, 2018). Segundo Hodge (2000), o termo SOC abrange “todos os tipos de esquemas [utilizados] para organizar a informação e promover a gestão do conhecimento” (HODGE, 2000, p. 3, tradução nossa). Os SOC classificam materiais de níveis gerais e materiais de níveis mais detalhados. Incluem esquemas tradicionais (esquemas adotados em bibliotecas, como os tesauros) e esquemas menos tradicionais (usados na web, como as ontologias). De acordo com Hodge (2000) e Hjørland (2015), o termo SOC é genérico e atualmente muito utilizado, de um lado, para designar outros termos, como sistemas de classificação, tesauros e ontologias, entre outros; por outro lado, para designar todos os tipos de esquemas de OC, incluindo os esquemas de categorização, a classificação, os vocabulários controlados etc. O uso do termo SOC, no Brasil, ocorre de diferentes formas, desde o termo do original em inglês (knowledge organization system), até a adoção da sua forma 27 traduzida (sistemas de organização do conhecimento) (LARA, 2015), sendo esta última a adotada nesta Dissertação. Um sistema, segundo Dantas (1992, p. 192), “é um conjunto de elementos governados pelas relações que estabelecem, todos, entre si”; ou seja, a formação de um sistema se dá pelo estabelecimento das relações, tendo em vista que mudanças de elementos afetam outros elementos dentro de um sistema. Um sistema é complexo, pois possui elementos constituintes diferentes e ordenados, e obedece às regras. Ademais, todo sistema é um sistema de informação, porque a informação permite a organização do sistema e, dessa maneira, é um meio. Os SOC são esquemas e instrumentos que “organizam, gerenciam e recuperam a informação e a base dos modernos SOC são termos e indicações de relacionamentos entre eles” (ROBREDO; BRÄSCHER, 2010, p. 151). Para Rehman e Alajmi (2017), algumas das características mais importantes dos SOC são a eliminação da ambiguidade, o controle de sinônimos e dos termos equivalentes, além do estabelecimento de relações semânticas explícitas e de relações associativas, além de apresentar as relações e as propriedades dos conceitos em modelos do conhecimento. Apesar de haver diversos SOC, cada um com suas características específicas, Hodge (2000) afirma que eles possuem algumas características em comum: todos os sistemas, de alguma forma, impõem uma visão particular do mundo, em sua coleção e em seus itens; uma entidade pode ser caracterizada de diversas formas, conforme o SOC utilizado; o conceito expresso pelo SOC deve estar em concordância com o objeto real, além de permitir que o usuário consiga realizar a conexão do conceito buscado com o representado no sistema pelo SOC utilizado. Os SOC são instrumentos e mecanismos para organizar o conhecimento, com a finalidade de representar o conteúdo de um documento, em função da organização e da gestão do conhecimento (CARLAN, 2010; HODGE, 2000), sendo que essa estrutura de ordenação pode ser simples ou até complexa (CARLAN, 2010). Os SOC abarcam muitos métodos que facilitam o acesso e o tratamento do conhecimento. São pontes entre o usuário e o documento, uma vez que existem diversas ferramentas para desempenhar essa função, as quais auxiliam na recuperação final de documentos relevantes de uma coleção (SUNDSTRÖM; MORAES, 2018). 28 A despeito de existirem inúmeras maneiras de organizar o conhecimento, a padronização pode facilitar o processo dessa organização. Para Sundström e Moraes (2018), as particularidades e visões de mundo tornam impossível a padronização desses processos, pois o SOC implica uma tomada de posição, impõe um ponto de vista, e uma mesma entidade pode ser categorizada de diversas formas – dependendo do SOC empregado. Porém, é necessário tomar nota de que há uma diversidade de SOC e não há um sistema com o qual todos os bibliotecários e todos os usuários concordem, tendo em vista que eles são ferramentas semânticas estruturadas e formalizadas (SUNDSTRÖM; MORAES, 2018). Mazzocchi (2018, p. 54, tradução nossa) complementa que, apesar dessa diversidade, todos possuem em comum o fato de terem sido “projetados para apoiar a organização do conhecimento e da informação, de modo a tornar o gerenciamento e a recuperação mais fáceis”. Utilizando-se da teoria da classificação, da teoria do conceito e da terminologia, os SOC norteiam uma organização através das diferenças e semelhanças de características, que se reporta à classificação proposta por Aristóteles, em que tudo pode ser dividido em partes e segue a lógica gênero-espécie da classificação hierárquica para representar o conhecimento (LIMA; MACULAN, 2017). Os SOC são objetos de interesse particular da CI, tendo como papel importante a padronização terminológica na OC, em que se restringem conceitos em uma área, delimitando-os em definições, determinam-se termos para os representar e se estabelecem relações entre eles. Esse processo é realizado de forma consensual e compartilhada (ROBREDO; BRÄSCHER, 2010), ou seja, o papel dos SOC é socializado. Moreira (2018, p. 102) enfatiza que os SOC referem-se a estruturas terminológicas que enumeram conceitos, que são expressos por termos selecionados, bem como suas diversas relações. Os SOC são utilizados para organizar e representar o conhecimento com vistas à sua recuperação e uso e suas funções variam conforme o grau de complexidade e a finalidade de sua aplicação. Isto é, a organização de um domínio envolve a representação de seus conceitos e suas relações entre si, de acordo com uma área de domínio, em vista da grande importância desses dois elementos na estrutura de um SOC. De fato, os conceitos são a base e as relações os mantêm reunidos num domínio no estabelecimento da representação. Encontram-se vários tipos de relações semânticas 29 (equivalência, hierárquica, associativa etc.), e as formas de representação variam conforme o sistema que será construído (LIMA; MACULAN, 2017). Zeng (2008) estrutura, em uma figura, as diferentes funções de cada um dos SOC, hierarquizando as estruturas de dimensões, de acordo com suas respectivas funções (Figura 2). Figura 2 – Os diferentes SOC Fonte: Zeng (2008, p. 161). Na Figura 2, observa-se que, quanto mais complexo o SOC, maior é o número de suas funções. Os glossários e dicionários, por exemplo, são SOC mais simples; suas funções são baseadas na eliminação da ambiguidade. Por sua vez, as ontologias e as redes semânticas são mais complexas; suas funções incluem a eliminação da ambiguidade e se acrescentam, em suas funções, o controle dos sinônimos, o estabelecimento das relações hierárquicas e das associativas, e a presença das propriedades. Para Mazzocchi (2017, p. 368, tradução nossa), os SOC, tais como os tesauros, os vocabulários controlados, dentre outros, são “projetados para permitir uma recuperação da informação (RI) com êxito”, em razão de as relações dos SOC poderem ser de um instrumento para orientar os indexadores e os pesquisadores na seleção de termos mais adequados para expressar conceitos. Os SOC “são 30 ferramentas projetadas para melhorar a recuperação da informação. Eles são baseados na linguagem natural, que se transforma em linguagem normalizada, onde os termos são basicamente monossêmicos e as relações entre eles são explicitadas” (MAZZOCCHI, 2017, p. 369, tradução nossa). Cada tipo de SOC tem diferentes estruturas e funções específicas, no entanto, possuem em comum o seu objetivo – fornecer organização do conhecimento e da informação, de modo a tornar o gerenciamento mais utilizável e a recuperação mais acessível, tanto por humanos quanto por máquinas (MAZZOCCHI, 2018). Numa leitura ampla, a noção dos SOC pode se referir às enciclopédias, às bibliotecas, às bases de dados bibliográficas, enquanto, no sentido geral, aos sistemas conceituais, aos assuntos, às teorias, às disciplinas, aos modelos de atividades, aos sistemas de processos em diferentes domínios, dentre outros (MAZZOCCHI, 2018). Outro aspecto a que os SOC se relacionam são os padrões mentais de um indivíduo, que se utilizam dos processos de categorização e de classificação, para lidar com a multiplicidade no mundo. Esses padrões mentais são codificados e se transformam em maneiras de instaurar relações enviesadas culturalmente. Os SOC é uma representação parcial da realidade, ou seja, um SOC não é neutro ou imparcial, pois impõe, representa, dissemina, influencia uma opinião sobre determinado assunto. Escolher como representar o conhecimento é tomar uma posição (MAZZOCCHI, 2018). Os SOC podem ser divididos em texto não estruturado, em termos e/ou listas de conceitos, em conceito e estruturas de relações e como conceito e estruturas de relações e esquemas (MAZZOCCHI, 2018). Existem diversos tipos de SOC, o que dificulta comparar os mesmos em um único escopo, além de possuir diferentes formatos e exibições. Ademais, o conhecimento desses sistemas e de suas características são necessários para a tomada de decisão responsável para qualquer sistema e, assim, possibilitar que desenvolvedores tomem decisões fundamentadas no projeto (SOUZA; TUDHOPE; ALMEIDA, 2012). Essas distintas tipologias “buscam agrupar objetos explorando seus graus de profundidade semântica, níveis de estruturação, dimensões e propósitos, muitas vezes recorrendo a recursos de visualização” (LARA, 2015, p. 90), além de auxiliar na identificação do escopo. Esses instrumentos têm por objetivo tratar do conteúdo dos 31 documentos, visando ao armazenamento e à recuperação, para prover um gerenciamento do conhecimento e da informação (LARA, 2015). Hodge (2000, p. 11, tradução nossa) acrescenta que o SOC serve de ponte entre a necessidade de informação do usuário e o material da coleção. Com ele, o usuário deverá conseguir identificar um objeto de interesse, sem o conhecimento prévio de sua existência. Seja por navegação ou pesquisa direta, seja por temas em uma página da Web ou em um site de busca, o SOC guia o usuário por um processo de descoberta. Hodge esquematizou os tipos de SOC em categorias (listas de termos, classificações e categorias, e listas de relacionamentos) (FUJITA; SANTOS; ALVES, 2018) e compreende o SOC como uma “nova denominação genérica” (HODGE, 2000, p. 30) aos instrumentos de representação de assunto. A principal função do SOC é a organização e a sua principal finalidade é a recuperação e o gerenciamento de uma coleção, servindo ainda como ponte entre “a necessidade de informação do usuário e o material da coleção” (HODGE, 2000, p. 3, tradução nossa), tendo em vista que uma biblioteca, quer digital, quer física, se utiliza de um ou mais SOC. Carlan e Medeiros (2011) acrescentam que os SOC podem ser considerados como instrumentos de tradução, porque têm a função de traduzir conteúdos de documentos para uma estrutura sistêmica que representa esse conteúdo, almejando organizar a informação e, assim, auxiliar na recuperação da informação. Os autores ainda afirmam que os SOC “são ferramentas semânticas com vocabulários estruturados e formalizados, usadas para o tratamento e a recuperação da informação” (p. 46), além de possuir elementos cuja função é delimitar áreas do conhecimento; observe-se que o termo é um desses elementos (CARLAN; MEDEIROS, 2011). Os sistemas podem ser divididos em quatro períodos, em relação à sua perspectiva histórica: a era da pré-coordenação, em que os sistemas eram estruturas estáticas, tais como as listas de cabeçalho de assunto e as classificações; a era da pós-coordenação, na qual os sistemas se tornam dinâmicos, tais como os vocabulários controlados e os tesauros; a era da internet, quando os sistemas orientam o usuário na escolha do termo e se estabelecem por meio da URL, tais como os formatos hierárquicos; e, por último, porém não menos importante, a era da web 32 semântica, na qual os sistemas se utilizam de agentes inteligentes, tais como as ontologias (VICKERY, 2010) Souza, Tudhope e Almeida (2012, p. 181) sistematizaram um conjunto provisório de tipos de SOC, conforme se vê, adiante, na Figura 3: Figura 3 – Conjunto provisório de tipos de SOC Fonte: Souza; Tudhope; Almeida (2012, p. 181). De modo sistematizado, os SOC podem ser assim divididos, conforme a Figura 3: a. textos não estruturados; b. listas de termos e/ou conceitos; c. estruturas de conceitos e relações; d. conceitos, estruturas de relações e layout. Adiante, abordam-se alguns SOC, tais como as taxonomias, os tesauros, as ontologias e os sistemas de classificação bibliográficos. A taxonomia veio da biologia, por Carolus Linnaeus, conhecida como Taxonomia de Lineu. Essa taxonomia classificou hierarquicamente o reino dos seres viventes em filos, classes, ordens, famílias, gênero e espécies, subdividindo-os respectivamente. 33 No entanto, na CI, as taxonomias são ferramentas de recuperação da informação, tendo em vista que sua estrutura evidencia o aspecto classificatório de um domínio (NOVO, 2010). A taxonomia tem como função organizar a informação e representar o conhecimento, através das relações hierárquicas e partitivas dos conceitos extraídos dos domínios do conhecimento, com o objetivo de aprimorar a recuperação da informação, conforme as necessidades inerentes aos ambientes específicos (NOVO, 2010). Embora estejam em formato hierárquico, as taxonomias podem ser apresentadas – como se tem visto atualmente – como mapas conceituais, árvores hiperbólicas, dentre outras formas visuais (NOVO, 2010). O tesauro é um instrumento de controle de vocabulário, tendo como finalidade a organização e a recuperação da informação. Sua base se constitui com termos de uma área do domínio relacionado, através de relações hierárquicas, sinonímicas (VOGEL; KOBASHI, 2019) e de relações associativas. A função principal do tesauro diz respeito ao controle terminológico. De modo sintético, tem como principal função a tradução de uma linguagem natural para uma linguagem de sistema, ou seja, uma linguagem documentária (VOGEL; KOBASHI, 2019). A estrutura do tesauro é de uma linguagem dinâmica, em que os termos se relacionam semanticamente, a fim de que cubra toda a área de domínio proposta (VOGEL; KOBASHI, 2019). Gusmão (1989) acrescenta que o tesauro é uma lista estruturada, a qual possui termos que estão agrupados através de relações verticais e horizontais. A primeira relação concerne às relações hierárquicas (termo geral/termo específico) e a segunda se refere às relações associativas (termo associado). As ontologias, na CI e na CC, consistem em um instrumento de representação do conhecimento, que descreve os conceitos e estabelece as relações, em uma área de domínio (LIMA; MACULAN, 2017). Lima e Maculan (2017, p. 66) definem a ontologia como "uma lista de conceitos ou entidades dentro de um domínio específico, os quais podem ser estruturados de forma hierárquica, por meio de relações semânticas explicitadas formalmente, em meio informatizado". A ontologia pode ser conceituada ainda como “uma coleção armazenada eletronicamente, que compreende um tesauro combinado com um 34 conjunto de regras de inferência” (PIETERSE; KOURIE, 2014, p. 223, tradução nossa). A ontologia é composta por conjuntos representacionais, por classes (ou conjuntos), por atributos (ou propriedades) e por relações (ou relações entre membros de classe). A ontologia está no nível semântico, diferentemente de uma modelagem de banco de dados, que está apenas no nível físico e lógico. Ela permite que sejam representadas por linguagens que possibilitem a abstração de estruturas de dados e estratégias de implementação, além de ensejar a interoperabilidade com diferentes sistemas (GRUBER, 2009). Um sistema de classificação bibliográfica é um esquema que abrange qualquer área de domínio, que estabelece todos os seus conceitos e suas respectivas relações (PIEDADE, 1977). Esse sistema é apresentado como um conjunto de classes ordenadas sistematicamente. O sistema de classificação bibliográfica inclui disciplinas e fenômenos: As disciplinas são áreas do conhecimento que estudam fenômenos relacionados. Além disso, dentro de uma disciplina, há subdisciplinas que são especializações dessas disciplinas principais. Já os fenômenos, segundo Piedade (1977, p. 30), constituem “tudo que é percebido pelos sentidos ou pela consciência, tudo que se observa”, tendo em vista que esses fenômenos são fatos, que podem ser de natureza moral, social ou física. Mais especificamente, os fenômenos são os temas debatidos nas disciplinas e nas subdisciplinas. Alguns sistemas de classificação mais conhecidos são: a CDD, criada por Melvil Dewey e publicada anonimamente pela primeira vez, em 1876; a classificação decimal universal (CDU), criada por Paul Otlet e Henri La Fontaine, publicada pela primeira vez, em 1905; a classificação de Cutter, criada por Charles Ammi Cutter e publicada pela primeira vez, em 1876; a classificação da biblioteca do Congresso, criada pela biblioteca do Congresso dos Estados Unidos da América (EUA), em 1800, e instalada em 1801, em Washington; a classificação de Brown, criada por James Duff Brown, bibliotecário inglês, publicada pela primeira vez, em 1906; a classificação de Bliss, criada por Henry Evelyn Bliss, em 1910, como esboço de um sistema de classificação bibliográfico; e a classificação de Ranganathan – conhecida como colon classification ou, mesmo, classificação dos dois pontos – criada por Shiyali Ramamrita Ranganathan e publicada pela primeira vez, em 1933. 35 Na próxima subseção, será aprofundada a discussão a respeito dos tesauros, já que se trata de um tipo de SOC, como apresentado anteriormente. O destaque se dará, por ser esse instrumento o foco da presente pesquisa. 2.3.1 TESAURO Nesta seção, trata-se do que vem a ser o tesauro, seu contexto histórico, a origem do termo, sua necessidade, suas definições, seus objetivos, suas funções e sua estruturação. O tesauro é um SOC. O termo teve origem latina e grega – thesaurus, que significa tesouro ou tesouro de palavras, e veio se contrapor às listas de cabeçalho de assunto (CAMPOS; GOMES, 2006). O termo tesauro foi utilizado pela primeira vez e se popularizou a partir da publicação de Roget’s Thesaurus, o qual contempla, na primeira seção, o tesauro do Capitão Gancho. No entanto, esse tesauro da história não tem nada a ver com o tesauro em discussão, apenas foi usado para designar esse sistema de palavras- chave (BROUGHTON, 2006a; CAMPOS; GOMES, 2006). Na década de 1960, o conceito de tesauro na CI era de uma lista alfabética de palavras que se relacionavam. Na década de 1970, o programa UNISIST definiu o tesauro, na CI, em função de dois aspectos: pela sua estrutura – os termos são relacionados semanticamente e cobrem um determinado domínio especializado; e pela sua função – o tesauro realiza o controle terminológico e traduz da linguagem natural para uma linguagem de sistema (CAMPOS; GOMES, 2006). O tesauro é uma ferramenta que passou a ser disseminada em meados do século XX, com os avanços científicos e tecnológicos (BROUGHTON, 2006a). Os tesauros que surgiram na década de 1960 incorporaram os princípios estruturais e a exibição das referências cruzadas. Os tesauros traziam a exibição alfabética e a exibição sistemática, que se tornou tão importante quanto a alfabética. O tesauro moderno traz a exibição alfabética e a sistemática e teve origem no trabalho de Aitchison e no desenvolvimento do Thesaurofacet, sabendo-se que o tesauro facetado, hoje, é amplamente usado (BROUGHTON, 2006a). O aprimoramento do tesauro se deu pela necessidade de atender: a) a novos campos e subcampos do conhecimento; e b) à ciência que tem surgido, considerando- 36 se a necessidade de ferramentas mais robustas, específicas e flexíveis para a organização da informação (FUJITA; CRUZ; PATRÍCIO, 2017). O tesauro pode ser definido como uma linguagem documentária, que possui termos relacionados entre, si dentro de um domínio, para fins da recuperação da informação. O vocabulário do tesauro se vale de palavras da linguagem natural traduzida e tratada para uma linguagem documentária; ora, uma linguagem documentária se desfaz das polissemias, das ambiguidades, das sinonímias, e das homonímias (CAMPOS; GOMES, 2006; CINTRA; TÁLAMO; LARA; KOBASHI, 1994). De acordo com Clarke (2019), o tesauro é um vocabulário com um controle e uma estrutura de termos que representam conceitos, tendo em vista que as relações devem estar claramente explícitas nessa estrutura – de sorte que seja possível visualizar os termos preferidos e os não preferidos. A autora complementa que essa organização possui uma ordem, e as relações podem ser identificadas por meio dos indicadores de relações-padrão. O tesauro é uma lista de conceitos organizados de modo que os conceitos fiquem próximos dos outros conceitos semelhantes, uma vez que o tesauro permite que o usuário encontre termos que ele não conhece, mas de cujo significado tem conhecimento. São, por natureza, buscadores de sinônimos e antônimos (BROUGHTON, 2006a). No campo da CI, o tesauro, segundo Dodebei (2002, p. 66), “é um instrumento capaz de transportar conceitos e suas relações mútuas, tal como expressos na linguagem dos documentos, em uma linguagem regular, com controle de sinônimos e estruturas sintáticas simplificadas”. Craven (2008, não paginado, tradução nossa) acrescenta: [...] o tesauro é uma ferramenta para o controle de vocabulário. Orienta os indexadores e os pesquisadores sobre quais termos usar, a fim de ajudar a melhorar a qualidade da recuperação. Geralmente um tesauro é projetado para indexar e pesquisar em uma área específica de estudo. O tesauro é utilizado por especialistas e, por meio dele, é possível delimitar significados, sinônimos e relações de termos de uma área específica, para a recuperação mais precisa de uma busca. Para Gomes e Campos (2004, não paginado), o tesauro é um “vocabulário de indexação controlada organizada formalmente explicitando ‘a priori’ relacionamentos entre os conceitos”, ou seja, é um conjunto de vocábulos organizados de uma área de 37 domínio, a qual teve o estabelecimento das relações entre esses vocábulos. Clarke (2019) complementa, assinalando que a função primordial é dar suporte à recuperação da informação, com orientações na escolha dos termos, tanto para indexação quanto para a pesquisa; ou seja, o tesauro tem como função primordial orientar os indexadores e os pesquisadores a escolher o mesmo conceito. O tesauro foi desenvolvido pela necessidade do gerenciamento de uma gama de documentos especializados. O tesauro pretende orientar o indexador e o pesquisador a escolher o mesmo termo para o mesmo conceito. [...] um tesauro deve primeiro listar todos os conceitos que podem ser úteis para fins de recuperação em um determinado domínio. Os conceitos são representados por termos, e, para cada conceito, uma das representações possíveis é selecionada como o termo preferido [...]. Em segundo lugar, um tesauro deve apresentar os termos preferidos, de maneira que as pessoas identifiquem facilmente o que precisam. Isso é conseguido por meio do estabelecimento das relações entre os termos - e/ou entre os conceitos - e usando as relações para apresentar os termos em uma exibição estruturada. (INTERNATIONAL STANDARD, 2011, p. 15, tradução nossa). A estrutura do tesauro ajuda na navegação pelo vocabulário e na seleção de termos mais adequados para descrever documentos. Ademais, o tesauro pode ser usado sempre que for necessário descrever o conteúdo do assunto dos documentos (BROUGHTON, 2006a). Em relação aos termos preferidos e não preferidos, Fujita, Cruz e Patrício (2017) explicam que esses termos ajudam os usuários a compreender o sistema utilizado, eficazmente, através das possibilidades de recuperação, diante de suas necessidades. Além dos termos de um tesauro, algo muito importante nessa estrutura são as relações estabelecidas. Essas relações podem ser hierárquicas, associativas e de equivalência. Elas são essenciais para o funcionamento da ferramenta, pois auxiliam o usuário a encontrar um termo mais adequado para representar uma ideia ou um conceito e, assim, a partir do termo encontrado, possibilitar a identificação de outros do mesmo assunto. Para a constituição de um tesauro que atenda a todos os objetivos apontados anteriormente (INTERNATIONAL STANDARD, 2011), é necessário o seu planejamento. O estabelecimento do tesauro depende da construção do sistema, com base nos seus objetivos, que se dá por meio dos procedimentos apresentados: o 38 primeiro passo se caracteriza em definir a área de abrangência, delimitando os termos a serem utilizados. Depois, realiza-se a seleção das fontes de informações a serem usadas na coleta de termos, dando-se preferência às fontes primárias, que reúnem informações mais fidedignas na comunicação exteriorizada nos documentos. Após a escolha das fontes de consultas, é feita a seleção dos termos do domínio que foram atribuídos por especialistas da área abrangida, significados que são determinados pelo contexto que é apresentado na literatura. Tendo-se escolhido os termos, é necessário organizá-los pelo seu caráter (geral, específicos da área), atribuir significados a cada conceito e, por fim, hierarquizar os termos. No processo da hierarquização, é importante apontar hipóteses, de modo a verificar se a linguagem documentária proposta é plausível. Algumas condições, segundo Vargas e Van Der Laan (2011, p. 28), são cruciais em relação ao tesauro, tais como: a) deve ser uma linguagem especializada; b) deve permitir a introdução ou supressão de termos para manter sua atualidade; c) deve servir de conversor da linguagem natural dos documentos, ambígua e livre, para uma linguagem concreta, normalizada e apta a controlar a informação contida nos documentos; d) deve servir de ligação entre os documentos e os usuários, sendo que o profissional da informação é o elo fundamental neste contexto. Ou seja, há algumas exigências que são relevantes para se constituir um tesauro, levando-se em conta que os componentes fundamentais basilares são: o conceito e, juntamente, o sistema nocional e as relações entre os conceitos e os termos (VARGAS; VAN DER LAAN, 2011). Adiante, serão apontados alguns exemplos para a compreensão dos tesauros, mais especificamente, tesauros facetados – que é o foco da presente pesquisa. 2.3.2 EXEMPLOS DE TESAUROS FACETADOS 2.3.2.1 THESAUROFACET EM ARQUITETURA Esse tesauro é uma linguagem artificial que visa ao controle terminológico em sistemas de informação, sendo composto por uma classificação facetada e um tesauro, ou seja, um tesauro facetado. Deve-se frisar que, na classificação facetada, 39 a terminologia é de ordem hierárquica e se baseia na identificação de facetas e subfacetas (SERRANO, 1979). O Thesaurofacet em arquitetura é uma ferramenta de controle terminológico que é útil em sistemas tradicionais ou atuais de recuperação da informação. É uma ferramenta flexível e de fácil manuseio, na classificação, na indexação e na recuperação da informação. Por ser uma ferramenta de fácil emprego, o Thesaurofacet pode ser aplicado no tratamento de qualquer tipo de material especializado. As facetas do tesauro divididas pelas áreas encontradas na arquitetura, foram: a. todo, referente à área do edifício; b. tipos, atinentes aos tipos de edifícios; c. partes, relativas às partes do edifício; d. materiais, referentes aos materiais; e. propriedades, concernentes aos estilos arquitetônicos; f. processos, correspondentes ao desenho arquitetônico; g. equipamentos, referentes ao planejamento arquitetônico; h. agentes, relativos aos agentes; i. formas de publicação, atinentes às formas de publicação; j. área geográfica, correspondente à área geográfica; k. atributos comuns, referentes aos atributos comuns; l. ciência e tecnologia, voltadas à área da ciência e da tecnologia. A divisão das facetas de arquitetura foi desenvolvida da seguinte maneira: o todo se referiu ao produto final da obra; os tipos indicam as espécies do todo; as partes, divisões do topo; os materiais, a substância usada no desenvolvimento da obra; as propriedades são descritores das características do conceito; o processo, descritores da dinâmica do trabalho arquitetônico; o equipamento, instrumentos empregados no exercício do trabalho; os agentes, intervenção na criação e na utilização de uma obra arquitetônica; as formas de publicação são formas de representar a publicação; a área geográfica é onde ocorre o desenvolvimento da obra; os atributos comuns concernem a conceitos que qualificam o descritor; e a ciência e a tecnologia são materiais interdisciplinares relacionados à arquitetura. Observe-se um exemplo adiante (Figura 4): 40 Figura 4 – Thesaurofacet: parte de faceta “materiais” Fonte: Serrano (1979, p. 58). 2.3.2.2 MOTIF MoTIF é um projeto colaborativo realizado pelo Digital Repository of Ireland (DRI) e pela National Library of Ireland (NLI). O principal objetivo do projeto é produzir e desenvolver diretrizes para a construção de tesauros para profissionais da informação (bibliotecários, arquivistas, museólogos, dentre outros profissionais da área), compreendendo que essas diretrizes serão como uma introdução geral aos tesauros, a qual procura fornecer orientações para a construção de tesauros, por meio da análise de facetas. Essas diretrizes são ilustradas pelo tesauro do folclore irlandês. O MoTIF é um tesauro com exibição alfabética e hierárquica. Na exibição hierárquica, de interesse da abordagem facetada, possui catorze facetas: abstract entities and concepts (entidades e conceitos abstratos), activities (atividades), agents (agentes), atributes and properties (atributos e propriedades), events (eventos), genre (gênero), materials (materiais), objects (objetos), parts and components (partes e componentes), place/space/environment (lugar/espaço/ambiente), processes and phenomena (processos e fenômenos), products (produtos), time (tempo) e wood (madeira). 41 Cada faceta é subdividida em subfacetas. Essas subfacetas incluem algumas descrições, dentre os diversos termos existentes e suas características, como o termo preferido, conceitos específicos, conceitos relacionados, termos de entrada, conceito geral, notas de escopo, URI e download do conceito, em diversos formatos (RDF/XML2, TURTLE3 e JSON-LD4). 2.3.2.3 UNBIS THESAURUS O UNBIS Thesaurus é um vocabulário controlado, ou seja, um tesauro que possui uma base de dados multilíngue. É usado para descrever documentos das Nações Unidas (ONU) e outros materiais da coleção da biblioteca. O desenvolvimento e o crescimento do tesauro se dá, na medida em que novos assuntos são introduzidos na agenda da ONU, conforme a linguagem dos documentos se modifica. Os termos do tesauro são usados na biblioteca digital da ONU, em fundos, programas, comissões para descrição de materiais bibliográficos e conteúdo da web. O UNBIS Thesaurus está disponível on-line em seis idiomas oficiais da ONU e para download nos formatos csv e ttl. O tesauro se divide em dezoito facetas: political and legal questions (questões políticas e jurídicas), economic development and development finance (desenvolvimento econômico e financiamento do desenvolvimento), natural resources and the environment (recursos naturais e meio ambiente), agriculture, forestry and fishing (agricultura, silvicultura e pesca), industry (indústria), transport and communications (transporte e comunicações), international trade (comércio internacional), population (população), human settlements (assentamentos humanos), health (saúde), education (educação), employment (emprego), humanitarian aid and relief (ajuda humanitária e socorro), social conditions and equity (condições sociais e equidade), culture (cultura), science and technology (ciência e tecnologia), 2 RDF/SML “é uma sintaxe definida pela W3C para expressar [...] um grafo RDF como um documento XML” (WIKIPÉDIA, 2021b). 3 “Um documento Turtle é uma representação textual de um gráfico RDF”. Pode descrever a relação entre duas coisas (WORLD WIDE WEB CONSORTIUM, 2014) 4 “JSON-LD é um formato de Linked Data leve [...]. Ele é baseado no formato JSON – já bem sucedido – e fornece uma maneira de ajudar os dados JSON a interoperar em escala da web.” (JSON-LD, [201- ?]). 42 geographical descriptors (descritores geográficos), organizational questions (questões organizacionais). Cada uma das facetas descreve as seguintes características: termo preferido, usado para, hierarquia, termos amplos, termos relacionados, URI, outros formatos (para download) e diversas línguas (árabe, chinês, inglês, francês, russo e espanhol). 2.3.2 APORTES DA TERMINOLOGIA Nesta seção, objetiva-se discutir alguns aspectos da terminologia aplicados aos tesauros. Nesta parte, são expostos elementos a respeito da unidade lexical, do termo, dos conceitos, das relações estabelecidas e das abordagens da terminologia (suas teorias). Na presente pesquisa, foi adotado o termo “terminologia”, em letra minúscula, quando se refere à área do conhecimento e quando se refere ao conjunto de termos de uma área de domínio. Segundo o acordo ortográfico da língua portuguesa, “a letra minúscula inicial é usada: [...] nos nomes que designam domínios do saber, cursos e disciplinas (opcionalmente, também com maiúscula)” (SENADO FEDERAL, 2014, p. 29-30). Pode-se utilizar das duas maneiras o termo “terminologia” (maiúscula e minúscula), porém, na presente pesquisa, foi escolhido o uso no formato em letras minúsculas. A terminologia, como disciplina, baseada na teoria comunicativa da terminologia (TCT), tem como objeto de estudo o termo. O termo é uma unidade lexical que possui um conteúdo específico dentro de um campo específico, podendo, igualmente, ser chamado de unidade terminológica. Assim, o conjunto de termos especializados é um conjunto terminológico ou, ainda, uma terminologia (BARROS, 2004). A terminologia pode ser dividida sob três perspectivas: “1) a de quem com ela trabalha; 2) a de quem a usa para expressar-se; [e] 3) a de quem a dirige”, tendo em vista que essas perspectivas se dividem em três diferentes dimensões: “1) dimensão metalingüística (sic); 2) dimensão comunicativa; 3) dimensão político-identitária”. Essas dimensões e perspectivas direcionam às três principais funções da terminologia como disciplina científica: “1) função conceptual (sic) ou cognitiva; 2) função comunicacional; 3) função simbólica ou identitária.” (BARROS, 2004, p. 45). 43 A primeira função da terminologia está direcionada à análise e à descrição das terminologias; a segunda, à comunicação do conhecimento científico e tecnológico, e a última, porém, não menos importante, diz respeito à identidade nacional, regional ou de grupo (BARROS, 2004). A respeito das finalidades e métodos dos estudos terminológicos, eles se dividem em três tendências: a “1) terminologia orientada para o sistema lingüístico (sic) [...]; 2) terminologia orientada para a tradução [...]; 3) terminologia orientada para o planejamento”. E as perspectivas do objeto da terminologia se dividem em três abordagens: “a) abordagem lingüística (sic); b) abordagem filosófica; c) abordagem orientada para os domínios” (BARROS, 2004, p. 46-48). A primeira abordagem considera que a terminologia é uma especialidade da linguística; a segunda abordagem trabalha com os estudos dos conceitos, com a classificação das categorias filosóficas – elaborando, dessa maneira, teorias de classificação; e a última abordagem, a teoria geral da terminologia de Wüster, que é a principal linha de pensamento, retrata os conceitos e as suas relações com os outros conceitos da mesma área (BARROS, 2004). As abordagens e teorias da terminologia com maior destaque são: a teoria geral da terminologia (TGT) e a teoria comunicativa da terminologia TCT. A primeira abordagem tem como foco o estudo do conceito e “apresenta como proposta a compilação de conceitos e termos para a normalização, com objetivo de assegurar a univocidade da comunicação profissional” (KAMIKAWACHI, 2009, p. 16). O principal teórico da TGT é Eugene Wüster, e essa teoria tem como principal objetivo resolver somente uma comunicação: a comunicação padronizada. No entanto, com o passar do tempo, várias reflexões surgiram, e uma delas é a da insuficiência da TGT. Com isso, surgem novas perspectivas teóricas, como a socioterminologia, a terminologia de base textual, a teoria comunicativa da terminologia e a teoria sociocognitiva da terminologia. A TCT tem como princípio a linguagem especializada e o termo que integra um âmbito específico, sendo que o termo é considerado um signo linguístico que funciona em uma comunicação especializada. A TCT foi apresentada por Cabré a sua equipe do Instituto Universitário de Linguística Aplicada (IULA) na Universidade Pompeu Fabra (UPF) em Barcelona, ressaltando-se que “a TCT articula-se baseada na valorização dos aspectos comunicativos das linguagens especializadas em detrimento dos propósitos normalizadores” (KAMIKAWACHI, 2009, p. 18). 44 A terminologia, pertencente à classe dos substantivos, é tão antiga quanto a linguagem humana, sendo que o homem nomeia as coisas desde os tempos remotos. A terminologia foi reconhecida como um campo de estudo que se dedica aos termos de uma área específica, bem como pode ser considerada um conjunto de termos de uma área de domínio (BARROS, 2004). A terminologia “trata de um sistema linguístico no qual os componentes principais são os termos” (CURRÁS, 1995, p. 77). Nessa perspectiva, pode-se dizer que o tesauro é um tipo de linguagem terminológica. Essa linguagem é estruturada e composta por um vocabulário especializado, além de possuir termos relacionados de maneira lógica, a fim de permitir uma melhor localização da sua própria linguagem, para uso posterior. A unidade lexical é um signo composto por uma expressão e por um conteúdo, e que pertence às classes gramaticais, como os substantivos, o verbo, o adjetivo ou o advérbio, que são as grandes classes gramaticais (BARROS, 2004). O léxico está incluído em um conjunto chamado língua ou sistema, sabendo-se que o estudo desse sistema requer a observação do seu vínculo com a diversidade do emprego do discurso e a designação das palavras. O léxico possui um papel fundamental e central, na estrutura e no funcionamento da língua, além de ter diversas aplicações (ÁLVAREZ CATALA; BARITÉ, 2017). A palavra é uma unidade lexical e o termo, igualmente. No entanto, apenas quando o termo é definido e aplicado em um domínio que pode ser considerado uma unidade lexical, pois as unidades lexicais só podem ser termos, quando estão dentro de uma especialidade (BARROS, 2004). Esses componentes principais do sistema linguístico são os elementos principais do conhecimento, os quais auxiliam no armazenamento do próprio conhecimento, tendo em vista que esse conhecimento armazenado é a base para os sistemas de classificação de assunto para um conteúdo temático que oferece uma informação útil e necessária, assim como oferece os termos. Esses termos são uma linguagem especializada, que é estruturada de acordo com regras estabelecidas para se tornar um tesauro (CURRÁS, 1995). Os conceitos e as relações entre os conceitos são contribuintes para a terminologia do tesauro. Na terminologia, os conceitos se relacionam com o sistema, ou seja, se definem a partir das suas relações, levando-se em conta que é difícil apreender um conceito isoladamente. Os princípios da terminologia permitem que o 45 tesauro realize o estabelecimento da relação entre os termos mais adequados (GOMES; CAMPOS, 2004). Os sistemas de conceitos, ou melhor, o campo conceitual e o estudo das relações conceituais são atividades fundamentais para a terminologia, porque o objeto de estudo da terminologia, segundo a TGT, são os conceitos (formados por termos) (BARROS, 2004). Os conceitos fazem parte de uma área especializada, não são isolados, se relacionam com outros conceitos, constituindo uma estrutura conceitual. Essa estrutura representa um conjunto de conceitos organizados que descrevem uma área do conhecimento especializada (ALMEIDA, 2000). O campo conceitual liga e agrupa conjuntos de conceitos entre si, tendo em torno um conceito-chave. No campo conceitual, o estudo pode se dar por meio do ponto de vista das relações existentes de um termo e os outros designativos. Por exemplo, ao estudar o termo mãe, no campo conceitual, a relação seria de parentesco, o qual se relaciona com filho(a), pai, sogra etc. (BARROS, 2004). Para o desenvolvimento da estrutura conceitual, é necessário conhecer o campo de atuação, através da assessoria de especialistas para identificar e reconhecer conceitos, agrupá-los de acordo com os campos e estabelecer as relações entre eles (ALMEIDA, 2000). Há várias formas pelas quais se pode realizar o controle da terminologia, em um tesauro. As fases desse controle se subdividem em três. Na primeira fase, ocorre o controle da forma do termo, ou seja, trata-se de escolher a ortografia, a gramática, a flexão de número dos substantivos (plural ou singular), dentre outros aspectos. A próxima fase envolve a compilação e a escolha dos sinônimos para expressar um conceito. Depois, decide-se se serão admitidos ou não certos termos ou palavras, nesse controle terminológico. Na última fase, o significado do termo é delimitado, com a adição de notas de escopo e a definições de frases (AITCHISON; GILCHRIST; BAWDEN, 2000). Dessa forma, tendo em vista as abordagens da terminologia, uma abordagem muito importante para os SOC – a classificação – será apresentada com respeito aos seus aportes teóricos, às suas características, às suas definições e às suas contribuições. 46 2.3.3 APORTES DA TEORIA DA CLASSIFICAÇÃO A seção objetiva tratar das contribuições da teoria da classificação para os tesauros, sendo apresentada a sua importância, as suas características e as suas definições. Classificar e categorizar são atividades cognitivas, de sorte que essa distribuição e organização de dados é a maneira mais natural de organizar as informações (IYER, 1995). Ou seja, classificar é algo fundamental e intrínseco à mente humana. Classifica- se para se compreender as coisas, e se categoriza para distinguir o que é semelhante e o que é distinto. Esses processos da classificação se refletem nos esquemas de classificação bibliográfica, pois os mesmos devem descrever, estruturar todo tipo de assunto (complexo, simples ou composto) e disponibilizar os documentos de modo útil aos seus usuários. A classificação é a base da OC, tanto como atividade prática quanto disciplina da biblioteconomia e da CI. É um processo que reúne certas atividades, como definir as classes, determinar as relações entre as classes, atribuir os elementos a uma classe em um sistema de classificação — tendo em vista os elementos que se enquadram em um determinado conceito (HJØRLAND, 2012). A classificação e a organização são naturais e inerentes às atividades do cotidiano do ser humano. Não há uma consciência da atividade de classificação, enfatizando-se, dessa forma, sua natureza fundamental (BATLEY, 2005). Segundo Langridge (1973, p. 15, tradução nossa) “[s]em classificação não poderia haver nada da ação e organização do pensamento humano que se conhece. A classificação transforma impressões sensoriais isoladas e incoerentes em objetos reconhecíveis e padrões recorrentes.” Ou seja, a classificação auxilia na organização, na exteriorização e na compreensão do pensamento e, assim, possibilita transformar esse pensamento em conhecimento socializado. Construir esquemas de classificação é algo complexo, porque tais esquemas variam em relação à sua forma e ao seu escopo. Os níveis para a construção de um esquema se dividem em nível conceitual, nível terminológico e notacional; para cada um desses níveis, existem princípios orientadores (IYER, 1995). Segundo Batley (2005), a classificação dá sentido e impõe ordem. Esse sentido e essa ordem podem ser aplicados na classificação do conhecimento. A classificação 47 é usada para identificar conhecimentos semelhantes e verificar a proximidade e a distância entre os assuntos das áreas. De modo pragmático, a classificação reflete o escopo por meio do qual foi desenvolvida, tendo em vista que ela relaciona diferentes ciências, teorias e atividades, de maneira diferente (HJØRLAND, 2012). Para Broughton (2004), a classificação está em toda parte, é natural a mente humana classificar e essencial para dar sentido a um mundo que possui inúmeras criaturas e objetos únicos. Na classificação, as áreas são divididas por grupos e se subdividem para especificar os conjuntos de grupos, tendo em vista que essa divisão ocorre conforme a especificidade do esquema, e “a escolha das características pelas quais dividir o conhecimento e a ordem em que usá-las é o processo central da classificação. As características e a sequência determinam a estrutura de um esquema” (IYER, 1995, p. 30, tradução nossa). A escolha dessas características de divisão ocorre por meio dos seguintes passos: a) o estabelecimento dos limites entre as classes deve ser claro e objetivo, pois as características devem refletir as diferenças; b) as categorias, uma vez escolhidas, devem ser permanentes; c) as características de divisão do conhecimento devem ser verificáveis e disponíveis a todos os observadores; d) essas características devem ser relevantes para o propósito da classificação (IYER, 1995). A ordem dessas características não é exata, por isso, não há regras absolutas, mas, “em muitos casos, mais de uma ordem pode ser igualmente apropriada” (IYER, 1995, p. 31, tradução nossa), além de que uma característica não é suficiente para a divisão do conhecimento em um esquema: subcategorias sucessivas são necessárias. Em relação à sequência das classes, elas são realizadas de acordo com um “princípio subjacente, como posição, tempo ou sequência do processo, tamanho ou grau de complexidade” (IYER, 1995, p. 32, tradução nossa). Langridge (1973) afirma que existem inúmeras formas de classificar, seja o conhecimento, sejam as coisas. Uma pessoa, por exemplo, pode ser classificada por características físicas (cor, altura, peso, idade etc.), por características políticas (liberal, conservador), por características sociais, educacionais, religiosas, filosóficas, dentre outras. Langridge (1973) acrescenta que o estudo da classificação está diretamente relacionado ao estudo do significado e da definição, tendo em vista que existem inúmeras contribuições: psicológicas, linguísticas e filosóficas. Considera-se que a 48 abordagem psicológica está preocupada com o processo de classificação que transcorre na mente humana; a linguística estuda os significados, as definições e as classificações que foram inseridas nos diversos idiomas; a filosófica estuda a natureza dessas atividades. Em relação ao nível terminológico, nos esquemas de classificação, as principais preocupações são a organização conceitual e a notação, ao invés da seleção dos termos. Há inúmeras abordagens de classificação, e não se pode dizer que uma ou outra está certa, porque cada uma possui sua forma e propósito de abordagem particular. Porém, é necessário considerar que uma classificação pode implicar mais de uma abordagem e servir para mais de um propósito, ou seja, a classificação é relativa (LANGRIDGE, 1973). Langridge (1973) acrescenta que a organização do conhecimento é a maneira mais ampla de expressar a função da biblioteca, provida pela classificação; ademais, indica que a classificação tem como função de prover “a capacidade não apenas de apontar itens de informação específicos e precisamente definidos, mas também de demonstrar a gama completa de assuntos disponíveis na biblioteca e suas relações entr