Qualidade de dados Linked Data para seleção de fontes e criação de links: estudo teórico, terminológico e processual
Carregando...
Data
Autores
Orientador
Santarem Segundo, José Eduardo 

Coorientador
Pós-graduação
Ciência da Informação - FFC
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Tese de doutorado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Os dados têm se destacado como insumo para o desenvolvimento e melhoria de produtos, processos e serviços em distintos setores da sociedade, levando a busca por formas de garantir a sua recuperação, reuso e qualidade. Nesse contexto, uma das possibilidades é o Linked Data, conjunto de princípios elaborado para a publicação estruturada e conectada de dados na Web. A adoção do Linked Data não garante a qualidade desses dados, que estão sujeitos a diferentes níveis de curadoria, problemas estruturais, relacionados à veracidade e precisão de seu conteúdo. Um dos desafios para a adoção do Linked Data é o processo de seleção de dados, levando a questão norteadora da pesquisa: como selecionar dados Linked Data para criação de links com fontes externas? A presente tese parte da hipótese de que as características dos dados Linked Data influenciam na terminologia e no processo de avaliação de qualidade de dados, e de que esse processo pode ser mais bem compreendido por meio de um estudo teórico exaustivo, da análise terminológica e do estudo do processo de avaliação de qualidade de dados Linked Data. O objetivo foi fomentar maior clareza teórica e terminológica e maior compreensão a respeito da seleção de dados Linked Data, por meio de sua relação com o processo de avaliação de qualidade, abordando definições, ferramentas e produtos relacionados, mapeando os agentes, etapas e atividades da seleção de dados Linked Data para criação de links com fontes externas. Como resultados, propõe-se a elaboração dos seguintes produtos: glossário da qualidade de dados Linked Data, fluxo do processo de seleção de dados Linked Data, checklist e modelo de protocolo para auxiliar na seleção de fontes. Para a composição desses produtos foi adotada uma abordagem multimetodológica, dividida nos seguintes aspectos: 1) Criação de corpus teórico exaustivo – pautado em análise exploratória, Revisão Sistemática da Literatura e estudo documental; 2) Elaboração do glossário – pautado em estudo terminológico com aplicação do método da Grade e elaboração de Árvore de Domínio; 3) Elaboração do fluxo, modelo de protocolo e checklist e para seleção de dados Linked Data para interligação – pautado em Design Science Research. Os resultados foram divididos em estudo teórico, terminológico e processual. Nos resultados do estudo teórico foram discutidos os principais aspectos da qualidade de dados e sua relação com a Ciência da Informação. Levantou-se ainda o estado da arte da qualidade de dados Linked Data, identificando e analisando os instrumentos e ferramentas disponíveis para auxiliar nesse processo. Na etapa de estudo terminológico foi estabelecida a árvore de domínio da qualidade de dados Linked Data, bem como os termos que compõe o glossário. Na etapa de estudo processual foram discutidos os processos, etapas, atividades e instrumentos que perpassam a seleção de dados Linked Data para interligação. Com base nas três etapas foi composto o fluxo para seleção de dados Linked Data, dividido em duas abordagens: pautada em análise exploratória e pautada em explicitação de necessidade informacional previamente estabelecida. Foram apresentados ainda protocolos para auxiliar na condução de ambas as abordagens e uma checklist composta por critérios de exclusão que auxiliam na seleção de dados. Conclui-se que a seleção de dados para interligação é um processo complexo e amplamente contextual, que depende de uma etapa de planejamento prévio, do estabelecimento de um modelo de qualidade, da abordagem a ser adotada e dos objetivos a serem alcançados e que pode ser facilitado pela adoção de diferentes ferramentas.
Resumo (inglês)
Data has emerged as an input for the development and improvement of products, processes, and services in different sectors of society, leading to search for ways to ensure its recovery, reuse, and quality. In this context, one possibility is Linked Data, a set of principles developed for the structured and connected publication of data on the web. Adopting Linked Data does not guarantee the quality of this data, which is subject to varying levels of curation, structural issues, and issues related to the veracity and accuracy of its content. One of the challenges in adopting Linked Data is the data selection process, leading to the guiding question of this research: how to select Linked Data for creating links to external sources? This thesis is based on the hypothesis that the characteristics of Linked Data influence the terminology and the data quality assessment process. This process can be better understood through exhaustive theoretical study, terminological analysis, and the study of the Linked Data quality assessment process. The objective was to conduct a theoretical, terminological, and procedural study of Linked Data quality, addressing definitions, processes, instruments, and products, aiming to foster greater terminological clarity and a deeper understanding of Linked Data selection, based on the quality assessment process. As a result, we propose the development of two products: a Linked Data quality glossary and a Linked Data selection process flowchart. A multi-methodological approach was adopted, divided into the following aspects: 1) Creation of an exhaustive theoretical corpus—based on exploratory analysis, a systematic literature review, and documentary study; 2) Development of the glossary—based on a terminological study applying the Grid method and developing a Domain Tree; 3) Development of the Linked Data selection flowchart—based on Design Science Research. The results were divided into theoretical, terminological, and procedural study results. The theoretical study stage discussed the main aspects of data quality and its relationship to Information Science. The state-of-the-art in Linked Data quality was also assessed, identifying and analyzing the instruments and tools available to assist in this process. During the terminology study stage, a Linked Data quality domain tree was established, based on which the terms that comprise the glossary were established. The definitions that comprise the glossary were also constructed and presented. During the procedural study stage, the processes, steps, activities, and instruments involved in Linked Data selection for creating links with external sources were discussed. Based on these three steps, a Linked Data selection flow was developed, divided into two approaches: one based on exploratory analysis and the other based on the explanation of previously established information needs. Protocols to assist in conducting both approaches were also presented, as well as a checklist consisting solely of exclusion criteria to aid in data selection. It is concluded that the selection of data for interconnection is a complex and largely contextual process, which depends on a prior planning stage, the establishment of a quality model, the approach to be adopted and the objectives to be achieved and which can be facilitated by the adoption of different tools
Descrição
Palavras-chave
qualidade de dados, Dados ligados, processo de avaliação de qualidade, revisão sistemática da literatura, design science research, Data quality, Linked data, Quality assessment process, Systematic literature review, Design science research
Idioma
Português
Citação
JESUS, Ananda Fernanda de. Qualidade de dados Linked Data para seleção de fontes e criação de links: estudo teórico, terminológico e processual. 2025. 277 f. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (UNESP), Marília, 2025.

