Recuperação de informação textual baseada em cluster conceitual

dc.contributor.advisorFerneda, Edberto [UNESP]
dc.contributor.authorJanaite Neto, Jorge
dc.date.accessioned2023-12-11T17:20:37Z
dc.date.available2023-12-11T17:20:37Z
dc.date.issued2023-09-28
dc.description.abstractA atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.pt
dc.description.abstractThe current abundance of document production makes it necessary to develop new classification schemes that can organize a large volume of material produced incessantly. Since a significant part of this textual material is produced and stored digitally, this greatly favors the use of automatic indexing systems. Information retrieval is a linguistic process while automatic indexing operated by computers is a statistical process, making it necessary to bring these areas of knowledge closer together. Traditionally, texts are considered as a set of words with a topical relevance proportional to the frequency of occurrence within each document and the frequency between the documents that make up the document corpus, this representation is called bag-of-words. The main shortcoming of these classic representations based on the bag-of-words model is the treatment given to ambiguous words: they are discarded or ignored; this greatly reduces the quality of indexing and consequently the quality of retrieval. The problem of terminological ambiguity is a linguistic problem: some words that are orthographically identical have different meanings. If we overcome the terminological issue and operates at a conceptual level, the problem of ambiguity would be solved: the concepts are unambiguous. The purpose of this dissertation is to investigate and propose the use of concept-based clustering to improve the effectiveness of the automatic indexing and information retrieval process by improving representation of the texts that make up the document corpus, representing them by conceptual groupings. At the end, an experiment is carried out to illustrate the practical application of the proposed algorithm, as well as to demonstrate the promising results achieved and lay the groundwork for a future full implementation of it.en
dc.description.sponsorshipNão recebi financiamento
dc.identifier.capes33004110043P4
dc.identifier.citationJANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023.
dc.identifier.lattes7222142954587349
dc.identifier.orcid0000-0002-2269-5371
dc.identifier.urihttps://hdl.handle.net/11449/251830
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.relationhttps://hdl.handle.net/11449/154340
dc.rights.accessRightsAcesso aberto
dc.subjectAlgoritmos de computadorpt
dc.subjectRecuperação da informaçãopt
dc.subjectIndexação automáticapt
dc.subjectAnálise por agrupamentopt
dc.subjectEstruturas conceituais (Teoria da informação)pt
dc.subjectComputer algorithmsen
dc.subjectInformation retrievalen
dc.subjectAutomatic indexingen
dc.subjectCluster analysisen
dc.subjectConceptual structures (Information theory)en
dc.subjectInformation organizationen
dc.titleRecuperação de informação textual baseada em cluster conceitualpt
dc.title.alternativeTextual information retrieval based on conceptual clusteren
dc.typeTese de doutorado
dcterms.impactEsta tese traz uma proposta que possui o potencial de causar impactos positivos à sociedade. Conforme estabelecido pela Assembleia Geral das Nações Unidas (AGNU) no ano de 2015, os Objetivos de Desenvolvimento Sustentável (ODS) oferecem “um plano compartilhado para a paz e a prosperidade das pessoas e do planeta, agora e no futuro”; este plano é composto por 17 metas que compõem um plano maior para Desenvolvimento Sustentável, chamado Agenda 2030. O impacto potencial para a sociedade que esta tese apresenta está fortemente relacionado a três objetivos: ODS 04 (Educação de Qualidade), ODS 10 (Redução das Desigualdades) e ODS 16 (Paz, Justiça e Instituições Eficazes). ODS 04: Educação de Qualidade – “Garantir uma educação de qualidade, inclusiva e equitativa, e promover oportunidades de aprendizagem ao longo da vida para todos”. Recuperar informação está intimamente ligado à aprendizagem. A proposta de empregar clusters para a representação dos conceitos contidos nos documentos, além de promover uma indexação automática mais assertiva, também oferece a possibilidade de novas interfaces de busca. Isso contribui significativamente para ampliar as oportunidades de aprendizagem ao longo da vida das pessoas. ODS-10: Redução das Desigualdades – “Reduzir a desigualdade de rendimentos dentro e entre os países”. Existe um certo consenso de que há indícios de uma forte relação entre nível de escolaridade e renda aqui no Brasil. Este trabalho científico traz uma proposta que tem o potencial de oferecer maneiras mais intuitivas e mais assertivas para a recuperação de informação, tornando menos elitizado o acesso aos materiais, incentivando o indivíduo a explorar os textos, independentemente de quão familiarizado ele esteja com tais; com isso incentivando os estudos e trazendo como consequência, a longo prazo, uma redução desta desigualdade de rendimentos. ODS 16: Paz, Justiça e Instituições fortalecidas – “Promover sociedades pacíficas e inclusivas para o desenvolvimento sustentável, proporcionar acesso à justiça para todos e construir instituições eficazes, responsáveis e inclusivas a todos os níveis”. Neste aspecto, esta tese ao propor melhoria na forma de manipular os conceitos e com isso auxiliar no processo de indexação automática e recuperação, favorece a criação de novas ferramentas para promover o acesso à justiça, tais como ferramentas de busca por situações semelhantes para garantir a uniformidade das decisões aplicadas. Esta pesquisa também busca contribuir com a Ciência da Informação e com a linha de pesquisa Informação e Tecnologia, do Programa de Pós-Graduação em Ciência da Informação (PPGCI) da Unesp de Marília, ao propor novas maneiras de representar a informação.pt
dcterms.impactThis thesis presents a proposal that has the potential to have a positive impact on society. As established by the United Nations General Assembly (UNGA) in 2015, the Sustainable Development Goals (SDGs) offer “a shared blueprint for peace and prosperity for people and the planet, now and into the future”; this plan is made up of 17 goals that make up a larger plan for Sustainable Development, called 2030 Agenda. The potential impact on society that this thesis presents is strongly related to three goals: SDG 04 (Quality Education), SDG 10 (Reducing Inequalities) and SDG 16 (Peace, Justice and Effective Institutions). SDG 04: Quality Education “Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all”. Retrieving information is closely linked to learning. The proposal to use clusters to represent the concepts contained in documents not only promotes more assertive automatic indexing, but also offers the possibility of new search interfaces. This contributes significantly to expanding people’s lifelong learning opportunities. SDG-10: Reducing Inequalities – “Reduce income inequality within and among countries”. There is a certain consensus that there is evidence of a strong relationship between educational attainment and income here in Brazil. This scientific work puts forward a proposal that has the potential to offer more intuitive and more assertive ways of retrieving information, making access to materials less elitist, encouraging individuals to explore texts, regardless of how familiar they are with them; thereby encouraging study and bringing about, in the long term, a reduction in this income inequality. SDG 16: Peace, Justice and Strengthened Institutions – “Promote peaceful and inclusive societies for sustainable development, provide access to justice for all and build effective, accountable and inclusive institutions at all levels”. In this respect, this thesis, by proposing an improvement in the way concepts are manipulated and thereby assisting in the automatic indexing and retrieval process, favors the creation of new tools to promote access to justice, such as search tools for similar situations to ensure uniformity in the decisions applied. This research also aims to contribute to Information Science and the Information and Technology research line of the Postgraduate Program in Information Science (PPGCI) at Unesp Marília, by proposing new ways of representing information.en
unesp.campusUniversidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Marília
unesp.embargoOnline
unesp.examinationboard.typeBanca pública
unesp.graduateProgramCiência da Informação - FFC
unesp.knowledgeAreaInformação, tecnologia e conhecimento
unesp.researchAreaInformação e tecnologia

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
janaiteneto_j_dr_mar.pdf
Tamanho:
1.67 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.95 KB
Formato:
Item-specific license agreed upon to submission
Descrição: