Logo do repositório

Knowledge enhanced dense retrieval in oil and gas domain

Carregando...
Imagem de Miniatura

Orientador

Papa, João Paulo

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A recuperação de informação em domínios técnicos especializados enfrenta desafios significativos devido à escassez de dados rotulados, à presença de vocabulário altamente específico e à limitação de modelos semânticos generalistas em capturar relações operacionais complexas. No contexto da indústria de Óleo e Gás, relatórios técnicos como os Boletins Diários de Perfuração apresentam estrutura implícita, terminologia abreviada e forte dependência de conhecimento de domínio, tornando abordagens tradicionais de busca lexical ou modelos densos pré-treinados insuficientes em cenários de baixo supervisionamento. Este trabalho investiga se a incorporação explícita de conhecimento estrutural, derivado de uma ontologia de domínio, pode melhorar o desempenho de sistemas de recuperação de informação neural em ambientes industriais. Para isso, propõe-se um método de adaptação de modelos bi-encoder baseado em Structure-Aware Negative Sampling, no qual um Grafo de Informação Heterogêneo é construído a partir de uma ontologia de domínio e utilizado para minerar exemplos negativos semanticamente próximos, porém estruturalmente distintos. Além disso, são exploradas estratégias de geração sintética de consultas para mitigar a escassez de dados rotulados. A abordagem proposta é avaliada em um conjunto de dados reais de perfuração offshore, utilizando tanto um padrão-ouro com anotações manuais quanto um padrão-prata em larga escala, gerado por classificação automática. Os resultados experimentais demonstram que o modelo adaptado supera baselines lexicais fortes, como BM25, e modelos densos generalistas, alcançando ganhos consistentes em métricas de ranking, especialmente em consultas difíceis caracterizadas por alto descompasso vocabular. Análises geométricas do espaço latente indicam que a supervisão estrutural promove um equilíbrio mais adequado entre alinhamento e uniformidade das representações. Por fim, o modelo apresenta elevada eficiência computacional, sendo significativamente mais rápido e energeticamente eficiente do que alternativas baseadas em modelos de larga escala. Os resultados indicam que a integração de conhecimento estrutural constitui um sinal de supervisão eficaz para recuperação de informação em domínios técnicos, oferecendo uma alternativa escalável e sustentável à simples ampliação do tamanho dos modelos.

Resumo (inglês)

Information retrieval in specialized technical domains poses significant challenges due to limited labeled data, highly domain-specific vocabulary, and the inability of general-purpose semantic models to capture complex operational relationships. In the Oil and Gas industry, technical documents such as Daily Drilling Reports exhibit implicit structure, abbreviated terminology, and strong dependence on domain knowledge, making traditional lexical retrieval methods and off-the-shelf dense models insufficient in low-supervision settings. This dissertation investigates whether the explicit incorporation of structural domain knowledge, derived from a domain ontology, can improve neural information retrieval performance in industrial environments. To this end, we propose a bi-encoder adaptation strategy based on Structure-Aware Negative Sampling, in which a Heterogeneous Information Network constructed from a domain ontology is used to mine semantically similar yet structurally distinct hard negatives. In addition, synthetic query generation strategies are employed to mitigate the scarcity of labeled training data. The proposed approach is evaluated on a real-world offshore drilling dataset using both a manually annotated Gold Standard and a large-scale Silver Standard generated via automated classification. Experimental results show that the adapted model consistently outperforms strong lexical baselines such as BM25 and general-purpose dense retrievers, achieving notable gains in ranking metrics, particularly for hard queries characterized by severe vocabulary mismatch. Latent space analysis further reveals that structural supervision promotes a more effective balance between alignment and uniformity in the learned representations. Moreover, the proposed model demonstrates high computational efficiency, offering substantial reductions in indexing time, inference latency, and energy consumption compared to large-scale language models. These findings suggest that integrating structural domain knowledge provides an effective and scalable supervision signal for information retrieval in technical domains, offering a practical alternative to increasing model size in resource-constrained industrial settings.

Descrição

Palavras-chave

Information retrieval, Natural language processing, Knowledge graphs, Deep learning, Recuperação da informação, Processamento de linguagem Natural, Grafos de conhecimento, Aprendizado profundo

Idioma

Inglês

Citação

CORREIA, João Vitor Mariano. Knowledge enhanced dense retrieval in oil and gas domain. 2026. Master´s Thesis (Master in Computer Science) – School of Sciences, São Paulo State University (Unesp), Bauru, 2026.

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Ciências
FC
Campus: Bauru


Departamentos

Cursos de graduação

Programas de pós-graduação