Logo do repositório

Avaliação de sistemas para indexação automática de documentos textuais

dc.contributor.advisorFujita, Mariângela Spotti Lopes [UNESP]
dc.contributor.authorCarvalho, Marco Antônio Gusmão [UNESP]
dc.contributor.coadvisorLeiva, Isidoro Gil
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-11-18T13:37:10Z
dc.date.issued2025-08-22
dc.description.abstractA crescente produção de informações em formato digital demanda soluções escaláveis para a organização e recuperação do conhecimento, tornando a indexação automática de documentos um campo de estudo de alta relevância. Este trabalho tem como objetivo principal realizar uma avaliação comparativa de dois sistemas de indexação automática de código aberto, SISA e Annif, analisando seus desempenhos e características em diferentes contextos temáticos. A metodologia adotou uma abordagem quantitativa, empregando três corpora de documentos distintos nas áreas de Agricultura, Educação e Medicina, juntamente com seus respectivos vocabulários controlados (NAL Thesaurus, ERIC e DeCS). O desempenho das ferramentas foi mensurado por meio das métricas de precisão, revocação e F-measure, comparando os resultados gerados automaticamente com um padrão-ouro de indexação manual. Adicionalmente, foi realizada uma análise técnica das características operacionais e de usabilidade de cada sistema. Os resultados indicam que o desempenho dos sistemas varia significativamente de acordo com o domínio e a estrutura dos documentos. O SISA demonstrou superioridade no corpus de Medicina, composto por textos completos em formato XML-JATS, aproveitando-se de suas regras heurísticas baseadas na estrutura documental. Por outro lado, o Annif, com seus diversos algoritmos de aprendizado de máquina, apresentou desempenho mais expressivo nos corpora de Agricultura e Educação, que consistem em metadados menos estruturados, destacando sua flexibilidade e capacidade de adaptação. Conclui-se que a escolha entre SISA e Annif depende das necessidades específicas do contexto de aplicação, incluindo o tipo de documento, a infraestrutura tecnológica disponível e o nível de conhecimento técnico dos usuários, sendo o SISA mais acessível a usuários iniciantes e o Annif mais poderoso e flexível para ambientes que exigem maior automação e integração.pt
dc.description.abstractThe growing production of information in digital format demands scalable solutions for the organization and retrieval of knowledge, making the automatic indexing of documents a highly relevant field of study. This dissertation aims to conduct a comparative evaluation of two open-source automatic indexing systems, SISA and Annif, analyzing their performance and characteristics in different thematic contexts. The methodology adopted a quantitative approach, using three distinct document corpora in the fields of Agriculture, Education, and Medicine, along with their respective controlled vocabularies (NAL Thesaurus, ERIC, and DeCS). The performance of the tools was measured using precision, recall, and F-measure metrics, comparing the automatically generated results with a gold standard of manual indexing. Additionally, a technical analysis of the operational and usability features of each system was performed. The results indicate that the performance of the systems varies significantly according to the domain and structure of the documents. SISA showed superiority in the Medicine corpus, which consists of full-text documents in XML-JATS format, leveraging its heuristic rules based on document structure. On the other hand, Annif, with its various machine learning algorithms, showed more expressive performance in the Agriculture and Education corpora, which consist of less structured metadata, highlighting its flexibility and adaptability. It is concluded that the choice between SISA and Annif depends on the specific needs of the application context, including the type of document, the available technological infrastructure, and the technical knowledge of the users, with SISA being more accessible to novice users and Annif being more powerful and flexible for environments requiring greater automation and integration.en
dc.identifier.capes33004110043P4
dc.identifier.capes33004110043P4
dc.identifier.citationCARVALHO, Marco Antônio Gusmão. Avaliação de sistemas para indexação automática de documentos textuais. 2025. 94 p. Dissertação (Mestrado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Marília, 2025.pt
dc.identifier.lattes0165689655624913
dc.identifier.orcid0009-0006-2903-5401
dc.identifier.urihttps://hdl.handle.net/11449/315294
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectIndexaçãopt
dc.subjectIndexação automáticapt
dc.subjectSistemas de recuperação da informaçãopt
dc.subjectCabeçalhos de assuntopt
dc.subjectSISA pt
dc.subjectAnnifpt
dc.subjectIndexingen
dc.subjectAutomatic indexingen
dc.subjectInformation storage and retrieval systemsen
dc.subjectSubject headingsen
dc.titleAvaliação de sistemas para indexação automática de documentos textuaispt
dc.title.alternativeEvaluation of systems for automatic indexing of textual documents.en
dc.typeDissertação de mestradopt
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Filosofia e Ciências, Maríliapt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Informação - FFCpt
unesp.knowledgeAreaInformação, tecnologia e conhecimentopt
unesp.researchAreaProdução e organização da informaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
carvalho_mag_me_mar.pdf
Tamanho:
2.07 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição: