Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação

dc.contributor.advisorOliveira, Ely Francina Tannuri de [UNESP]
dc.contributor.advisorSant'Ana, Ricardo César Gonçalves [UNESP]
dc.contributor.authorReis, Elismar Vicente dos
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2023-06-21T13:44:35Z
dc.date.available2023-06-21T13:44:35Z
dc.date.issued2023-03-30
dc.description.abstractEsta tese teve como finalidade elaborar uma metodologia para operacionalização da abordagem terminológica da análise de domínio. Estudos terminológicos investigam padrões das linguagens dos discursos, e suas análises baseiam-se em unidades de significação nos textos, sem esquecer do contexto sociocultural. Nessa mesma linha, a análise de domínio busca descobrir estruturas de conhecimento, padrões de linguagem e comportamento de cooperação nos domínios. A mineração de texto serve para automatizar a extração de regularidades, padrões ou tendências nos documentos em linguagem natural. Portanto, a análise de domínio propõe os objetos a serem investigados e a mineração de texto fornece os meios para as descobertas. Por isso, para desenvolver a metodologia, fez-se uso das técnicas de dedução de frequência de termos e análise por categorias temáticas, advindas do campo da linguística e automatizadas pela mineração de texto. Desenvolveu-se um fluxograma canônico, que nesta tese concebeu-se no software Knime. O software é composto por módulos para pré-processamento, transformação e mineração de textos para descoberta de conhecimento. A metodologia foi aplicada em 287 resumos de estudos apresentados pelo GT7 nos ENANCIBs de 2012 a 2018. A automatização proporcionou melhorias nas questões de limitação humana quanto a leitura, exploração e registro de grandes volumes de dados. Por meio da técnica de dedução de frequência de termos, foram encontradas especificidades desconhecidas na linguagem dos resumos, relacionadas à quantidade de termos que compõem as sentenças e termos mais recorrentes. Por meio do algoritmo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation – LDA), identificou-se cinco tópicos, cada um constituído por dez palavras, que representam os principais temas do corpus. O algoritmo possibilitou ainda identificar clusters de resumos com interlocução temática. Desse modo, encontraram-se adjacências nas comunicações do grupo de autores, que mesmo sem se conhecerem, desenvolveram textos convergentes, formando uma comunidade com discursos correlatos. O algoritmo snowball foi empregue para realização do stemming, que agrupa palavras de mesmo radical, pois considera-se que tais termos possuem significado semelhante e proximidade gramatical. A radicalização reduziu o conjunto inicial de termos de 5.820 para 3.657, simplificando e limitando a quantidade, o que pode auxiliar processos de indexação, buscas, recuperação da informação e custo computacional. Os resultados foram promissores, pois conseguiu-se automatizar análises de texto e de conteúdo. Conclui-se que a metodologia pode contribuir com a comunidade científica para realização de pesquisas em linguagem natural, de busca e recuperação da informação, e para descoberta de padrões e articulações temáticas dos textos. Pode corroborar também para expansão de estudos da literatura científica fora das bases bibliográficas mais conhecidas. As temáticas da área de linguística, assim como análise de domínio e mineração de texto, possuem evidente consonância conceitual, demonstrando a pertinência da pesquisa. A metodologia proporcionou a operacionalização da abordagem terminológica de forma automatizada e em consonância a análise de domínio, pois, os algoritmos utilizados consideram indicadores em relação ao conjunto total dos textos, revelando perspectivas informacionais coletivas e não individuais.pt
dc.description.abstractThis study aimed to develop a methodology for operationalizing the terminological approach to domain analysis. Terminological studies investigate language patterns of discourses, and their analyzes are based on units of meaning in texts, without forgetting the sociocultural context. Along the same lines, domain analysis seeks to discover knowledge structures, language patterns and cooperation behavior in domains. Text mining serves to automate the extraction of regularities, patterns or trends in natural language documents. Therefore, domain analysis proposes the objects to be investigated and text mining provides the means for discoveries. Therefore, in order to develop the methodology, we used the techniques of deducing the frequency of terms and analysis by thematic categories, coming from the field of linguistics and automated by text mining. A canonical flowchart was developed, which in this thesis was conceived in the Knime software. The software consists of modules for pre-processing, transforming and mining texts for knowledge discovery. The methodology was applied to 287 abstracts of studies presented by GT7 at the ENANCIBs from 2012 to 2018. Automation provided improvements in human limitation issues regarding the reading, exploration and recording of large volumes of data. Through the technique of deducing the frequency of terms, unknown specificities were found in the language of the abstracts, related to the number of terms that make up the most recurrent sentences and terms. Using the Latent Dirichlet Allocation (LDA) algorithm, five topics were identified, each consisting of ten words, representing the main themes of the corpus. The algorithm also made it possible to identify clusters of abstracts with thematic interlocution. In this way, adjacencies were found in the communications of the group of authors, who, even without knowing each other, developed converging texts, forming a community with related discourses. The snowball algorithm was used to carry out stemming, which groups words with the same root, since it is considered that such terms have similar meaning and grammatical proximity. Radicalization reduced the initial set of terms from 5.820 to 3.657, simplifying and limiting the quantity, which can help indexing processes, searches, information retrieval and computational cost. The results were promising, as it was possible to automate text and content analysis. It is concluded that the methodology can contribute to the scientific community to carry out research in natural language, to search and retrieve information, and to discover patterns and thematic articulations of the texts. It can also corroborate the expansion of studies in the scientific literature outside the most well-known bibliographic bases. The themes in the area of linguistics, as well as domain analysis and text mining, have an evident conceptual consonance, demonstrating the pertinence of the research. The methodology provided the operationalization of the terminological approach in an automated way and in line with the domain analysis, since the algorithms used consider indicators in relation to the total set of texts, revealing collective and not individual informational perspectives.en
dc.description.sponsorshipNão recebi financiamento
dc.identifier.capes33004110043P4
dc.identifier.citationREIS, Elismar Vicente dos. Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação. Universidade Estadual Paulista (Unesp), 2023.
dc.identifier.urihttp://hdl.handle.net/11449/244152
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectMetodologiapt
dc.subjectTerminologiapt
dc.subjectAnálise de domíniopt
dc.subjectMineração de textopt
dc.subjectLiteratura científicapt
dc.subjectMethodologyen
dc.subjectTerminologyen
dc.subjectDomain analysisen
dc.subjectText miningen
dc.subjectScientific literatureen
dc.subjectAnálisis de dominioes
dc.subjectExtracción de textoses
dc.titleProposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informaçãopt
dc.title.alternativeMethodology proposal for a terminological approach to domain analysis based on text mining: an application in information scienceen
dc.title.alternativePropuesta metodológica para una aproximación terminológica al análisis de dominio basada en minería de textos: una aplicación en ciencias de la informaciónes
dc.typeTese de doutorado
dcterms.impactEsta tese pode contribuir aos Objetivos do Desenvolvimento Sustentável (ODS) no Item 9, que versa sobre “construir infraestruturas resilientes, promover a industrialização inclusiva e sustentável e fomentar a inovação”. O conteúdo do subitem 9.5 refere-se a “fortalecer a pesquisa científica, melhorar as capacidades tecnológicas de setores industriais em todos os países, particularmente os países em desenvolvimento, inclusive, até 2030, incentivando a inovação e aumentando substancialmente o número de trabalhadores de pesquisa e desenvolvimento por milhão de pessoas e os gastos público e privado em pesquisa e desenvolvimento”. Embora o projeto decorrente não abarque a totalidade desse subitem, apresenta real potencialidade de ajudar em alguns pontos, pois trata-se de metodologia destinada a inovar pesquisas científicas no campo da Ciência da Informação, mas que pode servir também a outras áreas, possibilitando o aumento do número de pesquisas com o emprego da estrutura metodológica desenvolvida. Outrossim, com relação ao item 17, que tem como objetivo “reforçar os meios de implementação e revitalizar a parceria global para o desenvolvimento sustentável”, serve-se ao tema tecnologia no subitem 17.8, o qual trata da questão de “operacionalizar plenamente o Banco de Tecnologia e o mecanismo de capacitação em ciência, tecnologia e inovação para os países menos desenvolvidos até 2017, e aumentar o uso de tecnologias de capacitação, em particular das tecnologias de informação e comunicação”. Ainda no campo da tecnologia, mas com o viés voltado para pesquisas da literatura científica, a tese pode ainda contribuir com o item 12, que tem como mote “garantir padrões de consumo e de produção sustentáveis”, pois, a proposta metodológica viabiliza a investigação automatizada para descoberta de padrões e elementos ocultos nos textos, revelando informações desconhecidas e diferentes perspectivas. Ao investigar publicações específicas de determinada área, a possibilidade de novos conhecimentos pode cooperar com o item 12.a, que busca “apoiar países em desenvolvimento a fortalecer suas capacidades científicas e tecnológicas para mudar para padrões mais sustentáveis de produção e consumo”.pt
dcterms.impactThis doctoral dissertation contributes to the to the Sustainable Development Goals (SDGs) in Goal 9, which deals with “build resilient infrastructures, promote inclusive and sustainable industrialization and foster innovation”. The content of target 9.5 refers to “enhance scientific research, upgrade the technological capabilities of industrial sectors in all countries, in particular developing countries, including, by 2030, encouraging innovation and substantially increasing the number of research and development workers and per 1 million people and public and private research and development spending”. Although the resulting project does not cover the entirety of this target, it can potentially help in some points, as the methodology is aimed at innovating scientific research in the field of Information Science. In addition, it can also serve other areas, enabling the increase in the number of investigations with the use of the developed methodological structure. Furthermore, regarding Goal 17, which aims to “strengthen the means of implementation and revitalize the global partnership for sustainable development”, the technology theme is served in target 17.8, which deals with the issue of “fully operationalize the technology bank and science, technology and innovation capacity-building mechanist for least developed countries by 2017 and enhance the use of enabling technology, in particular information and communication technology”. Still in the field of technology, but with a bias towards research in the scientific literature, the dissertation could also have a valuable contribution to goal 12, whose motto is “ensure sustainable consumption and production patterns”, as the methodological proposal enables the automated investigation to discover patterns and hidden elements in texts, revealing unknown information and different perspectives. When investigating specific publications in a given area, the possibility of building new knowledge can cooperate with item 12.a, which seeks to “support developing countries to strengthen their scientific and technological capacity to move towards more sustainable patterns of production and consumption”.en
unesp.campusUniversidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Maríliapt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Informação - FFCpt
unesp.knowledgeAreaInformação, tecnologia e conhecimentopt
unesp.researchAreaProdução e organização da informaçãopt

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
reis_ev_dr_mar.pdf
Tamanho:
7.9 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
3.04 KB
Formato:
Item-specific license agreed upon to submission
Descrição: