Análise de uso de algoritmos de machine learning para desambiguação de entidades

dc.contributor.advisorSantarém Segundo, José Eduardo [UNESP]
dc.contributor.authorCastro, William Pires de
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2023-05-05T12:36:12Z
dc.date.available2023-05-05T12:36:12Z
dc.date.issued2023-03-15
dc.description.abstractO ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.pt
dc.description.abstractMany journals, digital repositories and events have a manual data input of papers, with no previous indexes that carry information from the authors, where ambiguous information can be inserted into the bases, such as divergences in the abbreviations of names, writing errors and allowed attributions of works for authors with homonymous names, making the database management process unfeasible. The Information Disambiguation area has been studying ways to handle similar scenarios, relying on machine learning techniques to disambiguate scientific information. According to the scenario described, the question is: how does the literature treat the disambiguation of entities, such as author names, using machine learning? This research aims to analyze how the Information Science community approaches the disambiguation/ambiguation of entity names, seeking to understand the definition of concepts around the area, identifying the main forms of implementation and gaps in the evaluated disambiguation methods. As for the approach of the articles, two main subdivisions were identified, being disambiguation by grouping (non-supervised learning) and by classification (supervised learning), extending to the use of algorithms for analysis of the process results, visualizing the efficiency of the chosen method. The most important difference between the methods is their filters, the most popular being the citation network and the co-authorship network. Regarding the challenges, it is observed that most of the texts evaluated suggest the addition of other forms of disambiguation to adjust the accuracy, whether by well-trained artificial intelligences, or human validation of the results. It is concluded that the author’s name disambiguation area tends to clustering processes, but without a defined consensus on how to proceed from this point, where filters become the main way of distinguishing one search from another, may lead to many new researches on the subject.en
dc.description.sponsorshipNão recebi financiamento
dc.identifier.capes33004110043P4
dc.identifier.citationCASTRO, William Pires de. Análise de uso de algoritmos de machine learning para desambiguação de entidades. Universidade Estadual Paulista (Unesp), 2023.
dc.identifier.urihttp://hdl.handle.net/11449/243268
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectDesambiguação da informaçãopt
dc.subjectAmbiguação da informaçãopt
dc.subjectEntidades nomeadaspt
dc.subjectAprendizado de máquinapt
dc.subjectInformation disambiguationen
dc.subjectInformation ambiguationen
dc.subjectNamed entityen
dc.subjectMachine learningen
dc.titleAnálise de uso de algoritmos de machine learning para desambiguação de entidadespt
dc.title.alternativeAnalysis of use of machine learning algorithms for disampiguation of entitiesen
dc.typeDissertação de mestrado
unesp.campusUniversidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, Maríliapt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Informação - FFCpt
unesp.knowledgeAreaInformação, tecnologia e conhecimentopt
unesp.researchAreaInformação e tecnologiapt

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
castro_wp_me_mar.pdf
Tamanho:
1.69 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.97 KB
Formato:
Item-specific license agreed upon to submission
Descrição: