Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação

Carregando...
Imagem de Miniatura

Data

2023-03-30

Orientador

Oliveira, Ely Francina Tannuri de
Sant'Ana, Ricardo César Gonçalves

Coorientador

Pós-graduação

Ciência da Informação - FFC

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Esta tese teve como finalidade elaborar uma metodologia para operacionalização da abordagem terminológica da análise de domínio. Estudos terminológicos investigam padrões das linguagens dos discursos, e suas análises baseiam-se em unidades de significação nos textos, sem esquecer do contexto sociocultural. Nessa mesma linha, a análise de domínio busca descobrir estruturas de conhecimento, padrões de linguagem e comportamento de cooperação nos domínios. A mineração de texto serve para automatizar a extração de regularidades, padrões ou tendências nos documentos em linguagem natural. Portanto, a análise de domínio propõe os objetos a serem investigados e a mineração de texto fornece os meios para as descobertas. Por isso, para desenvolver a metodologia, fez-se uso das técnicas de dedução de frequência de termos e análise por categorias temáticas, advindas do campo da linguística e automatizadas pela mineração de texto. Desenvolveu-se um fluxograma canônico, que nesta tese concebeu-se no software Knime. O software é composto por módulos para pré-processamento, transformação e mineração de textos para descoberta de conhecimento. A metodologia foi aplicada em 287 resumos de estudos apresentados pelo GT7 nos ENANCIBs de 2012 a 2018. A automatização proporcionou melhorias nas questões de limitação humana quanto a leitura, exploração e registro de grandes volumes de dados. Por meio da técnica de dedução de frequência de termos, foram encontradas especificidades desconhecidas na linguagem dos resumos, relacionadas à quantidade de termos que compõem as sentenças e termos mais recorrentes. Por meio do algoritmo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation – LDA), identificou-se cinco tópicos, cada um constituído por dez palavras, que representam os principais temas do corpus. O algoritmo possibilitou ainda identificar clusters de resumos com interlocução temática. Desse modo, encontraram-se adjacências nas comunicações do grupo de autores, que mesmo sem se conhecerem, desenvolveram textos convergentes, formando uma comunidade com discursos correlatos. O algoritmo snowball foi empregue para realização do stemming, que agrupa palavras de mesmo radical, pois considera-se que tais termos possuem significado semelhante e proximidade gramatical. A radicalização reduziu o conjunto inicial de termos de 5.820 para 3.657, simplificando e limitando a quantidade, o que pode auxiliar processos de indexação, buscas, recuperação da informação e custo computacional. Os resultados foram promissores, pois conseguiu-se automatizar análises de texto e de conteúdo. Conclui-se que a metodologia pode contribuir com a comunidade científica para realização de pesquisas em linguagem natural, de busca e recuperação da informação, e para descoberta de padrões e articulações temáticas dos textos. Pode corroborar também para expansão de estudos da literatura científica fora das bases bibliográficas mais conhecidas. As temáticas da área de linguística, assim como análise de domínio e mineração de texto, possuem evidente consonância conceitual, demonstrando a pertinência da pesquisa. A metodologia proporcionou a operacionalização da abordagem terminológica de forma automatizada e em consonância a análise de domínio, pois, os algoritmos utilizados consideram indicadores em relação ao conjunto total dos textos, revelando perspectivas informacionais coletivas e não individuais.

Resumo (inglês)

This study aimed to develop a methodology for operationalizing the terminological approach to domain analysis. Terminological studies investigate language patterns of discourses, and their analyzes are based on units of meaning in texts, without forgetting the sociocultural context. Along the same lines, domain analysis seeks to discover knowledge structures, language patterns and cooperation behavior in domains. Text mining serves to automate the extraction of regularities, patterns or trends in natural language documents. Therefore, domain analysis proposes the objects to be investigated and text mining provides the means for discoveries. Therefore, in order to develop the methodology, we used the techniques of deducing the frequency of terms and analysis by thematic categories, coming from the field of linguistics and automated by text mining. A canonical flowchart was developed, which in this thesis was conceived in the Knime software. The software consists of modules for pre-processing, transforming and mining texts for knowledge discovery. The methodology was applied to 287 abstracts of studies presented by GT7 at the ENANCIBs from 2012 to 2018. Automation provided improvements in human limitation issues regarding the reading, exploration and recording of large volumes of data. Through the technique of deducing the frequency of terms, unknown specificities were found in the language of the abstracts, related to the number of terms that make up the most recurrent sentences and terms. Using the Latent Dirichlet Allocation (LDA) algorithm, five topics were identified, each consisting of ten words, representing the main themes of the corpus. The algorithm also made it possible to identify clusters of abstracts with thematic interlocution. In this way, adjacencies were found in the communications of the group of authors, who, even without knowing each other, developed converging texts, forming a community with related discourses. The snowball algorithm was used to carry out stemming, which groups words with the same root, since it is considered that such terms have similar meaning and grammatical proximity. Radicalization reduced the initial set of terms from 5.820 to 3.657, simplifying and limiting the quantity, which can help indexing processes, searches, information retrieval and computational cost. The results were promising, as it was possible to automate text and content analysis. It is concluded that the methodology can contribute to the scientific community to carry out research in natural language, to search and retrieve information, and to discover patterns and thematic articulations of the texts. It can also corroborate the expansion of studies in the scientific literature outside the most well-known bibliographic bases. The themes in the area of linguistics, as well as domain analysis and text mining, have an evident conceptual consonance, demonstrating the pertinence of the research. The methodology provided the operationalization of the terminological approach in an automated way and in line with the domain analysis, since the algorithms used consider indicators in relation to the total set of texts, revealing collective and not individual informational perspectives.

Descrição

Idioma

Português

Como citar

REIS, Elismar Vicente dos. Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação. Universidade Estadual Paulista (Unesp), 2023.

Itens relacionados