Atenção!


O atendimento às questões referentes ao Repositório Institucional será interrompido entre os dias 20 de dezembro de 2025 a 4 de janeiro de 2026.

Pedimos a sua compreensão e aproveitamos para desejar boas festas!

Logo do repositório

Avaliação de sistemas para indexação automática de documentos textuais

Carregando...
Imagem de Miniatura

Orientador

Fujita, Mariângela Spotti Lopes

Coorientador

Leiva, Isidoro Gil

Pós-graduação

Ciência da Informação - FFC

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A crescente produção de informações em formato digital demanda soluções escaláveis para a organização e recuperação do conhecimento, tornando a indexação automática de documentos um campo de estudo de alta relevância. Este trabalho tem como objetivo principal realizar uma avaliação comparativa de dois sistemas de indexação automática de código aberto, SISA e Annif, analisando seus desempenhos e características em diferentes contextos temáticos. A metodologia adotou uma abordagem quantitativa, empregando três corpora de documentos distintos nas áreas de Agricultura, Educação e Medicina, juntamente com seus respectivos vocabulários controlados (NAL Thesaurus, ERIC e DeCS). O desempenho das ferramentas foi mensurado por meio das métricas de precisão, revocação e F-measure, comparando os resultados gerados automaticamente com um padrão-ouro de indexação manual. Adicionalmente, foi realizada uma análise técnica das características operacionais e de usabilidade de cada sistema. Os resultados indicam que o desempenho dos sistemas varia significativamente de acordo com o domínio e a estrutura dos documentos. O SISA demonstrou superioridade no corpus de Medicina, composto por textos completos em formato XML-JATS, aproveitando-se de suas regras heurísticas baseadas na estrutura documental. Por outro lado, o Annif, com seus diversos algoritmos de aprendizado de máquina, apresentou desempenho mais expressivo nos corpora de Agricultura e Educação, que consistem em metadados menos estruturados, destacando sua flexibilidade e capacidade de adaptação. Conclui-se que a escolha entre SISA e Annif depende das necessidades específicas do contexto de aplicação, incluindo o tipo de documento, a infraestrutura tecnológica disponível e o nível de conhecimento técnico dos usuários, sendo o SISA mais acessível a usuários iniciantes e o Annif mais poderoso e flexível para ambientes que exigem maior automação e integração.

Resumo (inglês)

The growing production of information in digital format demands scalable solutions for the organization and retrieval of knowledge, making the automatic indexing of documents a highly relevant field of study. This dissertation aims to conduct a comparative evaluation of two open-source automatic indexing systems, SISA and Annif, analyzing their performance and characteristics in different thematic contexts. The methodology adopted a quantitative approach, using three distinct document corpora in the fields of Agriculture, Education, and Medicine, along with their respective controlled vocabularies (NAL Thesaurus, ERIC, and DeCS). The performance of the tools was measured using precision, recall, and F-measure metrics, comparing the automatically generated results with a gold standard of manual indexing. Additionally, a technical analysis of the operational and usability features of each system was performed. The results indicate that the performance of the systems varies significantly according to the domain and structure of the documents. SISA showed superiority in the Medicine corpus, which consists of full-text documents in XML-JATS format, leveraging its heuristic rules based on document structure. On the other hand, Annif, with its various machine learning algorithms, showed more expressive performance in the Agriculture and Education corpora, which consist of less structured metadata, highlighting its flexibility and adaptability. It is concluded that the choice between SISA and Annif depends on the specific needs of the application context, including the type of document, the available technological infrastructure, and the technical knowledge of the users, with SISA being more accessible to novice users and Annif being more powerful and flexible for environments requiring greater automation and integration.

Descrição

Palavras-chave

Indexação, Indexação automática, Sistemas de recuperação da informação, Cabeçalhos de assunto, SISA , Annif, Indexing, Automatic indexing, Information storage and retrieval systems, Subject headings

Idioma

Português

Citação

CARVALHO, Marco Antônio Gusmão. Avaliação de sistemas para indexação automática de documentos textuais. 2025. 94 p. Dissertação (Mestrado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Marília, 2025.

Itens relacionados

Financiadores

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação