Análise de uso de algoritmos de machine learning para desambiguação de entidades

Castro, William Pires de

Análise de uso de algoritmos de machine learning para desambiguação de entidades

dc.contributor.advisor	Santarém Segundo, José Eduardo [UNESP]
dc.contributor.author	Castro, William Pires de
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2023-05-05T12:36:12Z
dc.date.available	2023-05-05T12:36:12Z
dc.date.issued	2023-03-15
dc.description.abstract	O ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.	pt
dc.description.abstract	Many journals, digital repositories and events have a manual data input of papers, with no previous indexes that carry information from the authors, where ambiguous information can be inserted into the bases, such as divergences in the abbreviations of names, writing errors and allowed attributions of works for authors with homonymous names, making the database management process unfeasible. The Information Disambiguation area has been studying ways to handle similar scenarios, relying on machine learning techniques to disambiguate scientific information. According to the scenario described, the question is: how does the literature treat the disambiguation of entities, such as author names, using machine learning? This research aims to analyze how the Information Science community approaches the disambiguation/ambiguation of entity names, seeking to understand the definition of concepts around the area, identifying the main forms of implementation and gaps in the evaluated disambiguation methods. As for the approach of the articles, two main subdivisions were identified, being disambiguation by grouping (non-supervised learning) and by classification (supervised learning), extending to the use of algorithms for analysis of the process results, visualizing the efficiency of the chosen method. The most important difference between the methods is their filters, the most popular being the citation network and the co-authorship network. Regarding the challenges, it is observed that most of the texts evaluated suggest the addition of other forms of disambiguation to adjust the accuracy, whether by well-trained artificial intelligences, or human validation of the results. It is concluded that the author’s name disambiguation area tends to clustering processes, but without a defined consensus on how to proceed from this point, where filters become the main way of distinguishing one search from another, may lead to many new researches on the subject.	en
dc.description.sponsorship	Não recebi financiamento
dc.identifier.capes	33004110043P4
dc.identifier.citation	CASTRO, William Pires de. Análise de uso de algoritmos de machine learning para desambiguação de entidades. Universidade Estadual Paulista (Unesp), 2023.
dc.identifier.uri	http://hdl.handle.net/11449/243268
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto
dc.subject	Desambiguação da informação	pt
dc.subject	Ambiguação da informação	pt
dc.subject	Entidades nomeadas	pt
dc.subject	Aprendizado de máquina	pt
dc.subject	Information disambiguation	en
dc.subject	Information ambiguation	en
dc.subject	Named entity	en
dc.subject	Machine learning	en
dc.title	Análise de uso de algoritmos de machine learning para desambiguação de entidades	pt
dc.title.alternative	Analysis of use of machine learning algorithms for disampiguation of entities	en
dc.type	Dissertação de mestrado
unesp.campus	Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Marília	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Informação - FFC	pt
unesp.knowledgeArea	Informação, tecnologia e conhecimento	pt
unesp.researchArea	Informação e tecnologia	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: castro_wp_me_mar.pdf
Tamanho:: 1.69 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.97 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Dissertações - Ciência da Informação - FFC