Publicação:
Contextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domínio

dc.contributor.advisorFerneda, Edberto [UNESP]
dc.contributor.authorPansani Junior, Eder Antonio
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2021-07-27T19:34:18Z
dc.date.available2021-07-27T19:34:18Z
dc.date.issued2021-05-27
dc.description.abstractUm sistema de recuperação de informação é formado por três elementos básicos: as representações dos documentos, a expressão de busca do usuário e alguma forma de comparação entre esses dois elementos. Por um lado, o acervo é constituído em um momento anterior às buscas, e cada documento pode ser representado utilizando técnicas automatizadas. Por outro lado, a necessidade de informação do usuário só é percebida após a sua enunciação por meio de expressão de busca. A elaboração de uma expressão de busca, que represente de forma precisa a necessidade de informação de um usuário pode ser uma tarefa complexa. Nesse sentido, as ontologias no papel de instrumentos de controle de vocabulário podem ser utilizadas no aprimoramento desta tarefa. As ontologias possibilitam, entre outras funções, a contextualização da busca, utilizando sua estrutura terminológica para procurar pelos termos/conceitos que compõem à consulta pode-se determinar o contexto da busca. A partir desse contexto, selecionado pelo usuário e representado por uma ontologia, pode-se expandir a consulta utilizando termos/conceitos relacionados. Desta forma, esta pesquisa tem como objetivo geral a proposição de um método interativo de contextualização da necessidade de informação e expansão de consultas em sistemas de recuperação de informação utilizando a estrutura terminológica das ontologias de domínio. Como objetivos específicos, a tese se propõe a: a) discutir o processo de Recuperação de Informação, evidenciando a relação entre a expressão de busca e os resultados recuperados; b) discutir os conceitos e características das ontologias, explorando sua utilidade nos processos de recuperação de informação, expansão e contextualização das consultas; c) desenvolver um método de contextualização da busca, por meio dos termos que compõem a consulta e expansão da consulta a partir da identificação de conceitos relacionados (genéricos, específicos e equivalentes) à um conceito inicial, utilizando para ambos ontologias de domínio. d) implementar um protótipo de um sistema de recuperação de informação Web para demonstrar a utilização do método proposto em um ambiente controlado; e) analisar os resultados obtidos em relação à relevância com a expressão de busca. Esta pesquisa é classificada como qualitativa de natureza aplicada, e foi dividida em duas etapas. Na primeira foi elaborada uma pesquisa bibliográfica de caráter exploratório, que proporcionou o embasamento teórico para fundamentar o estudo e levantar os principais problemas relacionados à tarefa de recuperar informações. Na sequência, a pesquisa aplicada consistiu na proposição do método em resposta à problemática identificada. Dentre os principais resultados está a proposição do método de contextualização e expansão de consultas e o desenvolvimento de um software denominado ContextOnSearch, um mecanismo de busca Web com uma interface baseada em uma caixa de texto livre que implementa o método proposto. Para a realização dos testes foi criada uma coleção composta por 481 documentos oriundos do Jornal de Pediatria e publicados entre os anos 2016 e 2020. Foi utilizada ainda uma ontologia da área biomédica denominada Pediatric Terminology. Os resultados indicam um aumento da revocação sem perdas significativas na precisão e uma melhoria na classificação pela relevância dos resultados. Conclui-se que o uso de ferramentas de apoio ao usuário em mecanismos de busca pode facilitar a formulação de expressões de busca e possibilitar melhorias na comunicação entre usuários e sistemas, alcançado resultados mais relevantes e contribuindo com o processo de recuperação de informação.pt
dc.description.abstractAn information retrieval system is made up of three basic elements: the documents representations, a user's search expression and some form of comparison between these two elements. On one hand, the collection is composed a moment before the searches, and each document can be represented using automated techniques. On the other hand, the user's need for information is only noticed after its enunciation through a query. The elaboration of a search expression that accurately represents a user's information needs can be a complex task. In this sense, ontologies in the role of vocabulary control instruments can be used to improve this task. Ontologies allow, the contextualization of the search, among other functions, using its terminological structure to search for the terms/concepts that make up the query, it is possible to determine the context of the search. From this context, which was selected by the user and represented by an ontology, the query can be expanded using related terms/concepts. Thus, this research aims to propose an interactive method of contextualizing the information needs and query expansion in information retrieval systems using the terminological structure of domain ontologies. As specific objectives, the thesis proposes to: a) discuss the Information Retrieval process, highlighting the relationship between search expression and retrieved results; b) discuss the concepts and characteristics of ontologies, exploring their usefulness in the processes of information retrieval, expansion and query contextualization; c) develop a method of search contextualization, through the terms that make up the query and from that the query expansion from the identification of related concepts (generic, specific and equivalent) to an initial concept, using domain ontologies for both. d) implement a prototype of a Web information retrieval system to demonstrate the use of the proposed method in a controlled environment; e) analyze the results obtained in relation to relevance of the query. This research is classified as qualitative of an applied nature, and it was divided into two stages. In the first one, an exploratory bibliographical research was carried out, which provided the theoretical basis to support the study and raise the main problems related to the task of retrieving information. Afterwards, the applied research consisted of the proposal of the method in response to the identified problem. Among the main results is the proposition of the method of contextualization and query expansion and the development of a software called ContextOnSearch, a Web search engine with an interface based on a free text box that implements the proposed method. A collection of 481 documents from the Jornal de Pediatria and published between 2016 and 2020 was created to carry out the tests. An ontology from the biomedical area called Pediatric Terminology was also used. The results indicate an increase in recall without significant losses in precision and an improvement in ranking by the relevance of the results. It is concluded that the use of user support tools in search engines can facilitate the formulation of search expressions and enable improvements in communication between users and systems, achieving more relevant results and contributing to the information retrieval process.en
dc.description.sponsorshipNão recebi financiamento
dc.identifier.capes33004110043P4
dc.identifier.urihttp://hdl.handle.net/11449/213691
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectRecuperação da informaçãopt
dc.subjectOntologias de domíniopt
dc.subjectContextualização da expressão de buscapt
dc.subjectExpansão de consultaspt
dc.subjectContextOnSearchen
dc.subjectInformation retrievalen
dc.subjectDomain ontologiesen
dc.subjectSearch expression contextualizationen
dc.subjectQuery expansionen
dc.titleContextualização e expansão de consultas em sistemas de recuperação de informação: um método baseado em ontologias de domíniopt
dc.title.alternativeContextualization and expansion of queries in information retrieval systems: a method based on domain ontologiesen
dc.typeTese de doutorado
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Maríliapt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Informação - FFCpt
unesp.knowledgeAreaInformação, tecnologia e conhecimentopt
unesp.researchAreaInformação e tecnologiapt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
pansanijunior_ea_dr_mar.pdf
Tamanho:
3.68 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
3.03 KB
Formato:
Item-specific license agreed upon to submission
Descrição: