Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

dc.contributor.advisorGuilherme, Ivan Rizzo [UNESP]
dc.contributor.authorPrivatto, Pedro Ivo Monteiro
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2020-11-02T17:08:22Z
dc.date.available2020-11-02T17:08:22Z
dc.date.issued2020-09-29
dc.description.abstractNas diferentes áreas do conhecimento os dados textuais são importantes fontes de informação. Neste contexto, os métodos para Extração de Informação têm sido desenvolvidos para a identificação e estruturação de informações presentes em documentos textuais. Como subárea da Extração de Informação há o Reconhecimento de Entidades Nomeadas, que consiste em definir métodos para identificar Entidades Nomeadas, tais como Pessoa, Local, Data, entre outras, em textos. Recentemente esses métodos fazem uso de técnicas provenientes do Processamento de Linguagem Natural e de Aprendizado de Máquina. O objetivo do presente trabalho é propor uma metodologia para Reconhecimento de Entidades Nomeadas considerando os seguintes aspectos: identificação e implementação de métodos para representação de características gramaticais; identificação e implementação das novas abordagens que utilizam técnicas recentes de Aprendizado de Máquina, como BiLSTM, BiGRU e CRF; e avaliar, de maneira experimental, a integração de fontes externas de conhecimento, na forma de Gazetteers e Grafo de Conhecimento, vindos da Freebase e YAGO. O protocolo de avaliação experimental foi composto pela definição de quatro configurações de redes neurais, duas destas fazendo uso de conhecimento externo, e sua aplicação em cinco datasets com diferentes características. Nos experimentos realizados, houve ganho de F1-Score em 18 dos 40 casos onde foi utilizado conhecimento externo, chegando a um ganho de até 1,3%. Além do fato de não ter apresentado ganho em grande parte dos casos, a maioria dos ganhos foi inferior a 0,5% no F1-score. Os resultados experimentais dos métodos utilizados nos datasets escolhidos evidenciam que as estratégias empregadas para a integração do conhecimento externo agregaram baixos ganhos aos modelos, como mostrado pelas métricas Precisão, Abrangência e F1-Score. Portanto, se a fonte de conhecimento não provê informações relevantes ao domínio da tarefa, e se a maneira de agregação do conhecimento não capta o conteúdo relevante presente no mesmo, esta adição de conhecimento externo não necessariamente é benéfica à metodologia.pt
dc.description.abstractIn different areas of knowledge textual data are important sources of information. In this context, Information Extraction methods have been developed to identify and structure information present in textual documents. As a subarea of Information Extraction there is Named Entity Recognition, which consists of using methods to identify Named Entities, such as Person, Place, Date, among others, in texts, using techniques from Natural Language Processing and Machine Learning. Recently, these methods use techniques from Natural Language Processing and Machine Learning. The purpose of this work is to propose a methodology for Named Entity Recognition considering the following aspects: identification and implementation of grammatical feature representation methods; identification and implementation of new approaches that use recent Machine Learning techniques, such as BiLSTM, BiGRU and CRF; and to evaluate, in an experimental way, the integration of external knowledge sources, in the form of Gazetteers and Knowledge Graph, coming from Freebase and YAGO. The experimental evaluation protocol was composed by four configurations of neural networks, two of them making use of external knowledge, and their application in five datasets with different characteristics. In the conducted experiments, there was a gain of F1-Score in 18 of the 40 cases where external knowledge was used, reaching a gain of up to 1.3%. In addition to the fact that there was no gain in most cases, the majority of the gains were lesser than 0.5% in F1-score. The experimental results of the methods applied to the chosen datasets show that the strategies used for the integration of external knowledge added low gains to the models, as shown by the metrics Precision, Recall and F1-Score. Therefore, if the source of knowledge does not provide relevant information to the task domain, and if the way of aggregating the external knowledge does not capture the relevant content present in it, this addition of external knowledge is not necessarily beneficial to the methodologyen
dc.description.sponsorshipFundação para o Desenvolvimento da UNESP (FUNDUNESP)
dc.description.sponsorshipIdFUNDUNESP: 2014/00545-0
dc.identifier.capes33004153073P2
dc.identifier.urihttp://hdl.handle.net/11449/194224
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectInteligência artificialpt
dc.subjectProcessamento de linguagem naturalpt
dc.subjectExtração de informaçãopt
dc.subjectReconhecimento de entidades nomeadaspt
dc.subjectNamed entity recognitionen
dc.subjectNatural language processingen
dc.subjectInformation extractionen
dc.subjectArtificial intelligenceen
dc.titleUma abordagem para reconhecimento de entidades nomeadas usando conhecimento externopt
dc.title.alternativeAn approach to named entity recognition using external knowledgeen
dc.typeDissertação de mestradopt
unesp.campusUniversidade Estadual Paulista (Unesp), Instituto de Geociências e Ciências Exatas, Rio Claropt
unesp.embargo12 meses após a data da defesapt
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - IGCEpt
unesp.knowledgeAreaComputação aplicadapt
unesp.researchAreaInteligência Computacionalpt

Arquivos

Pacote Original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
privatto_pim_me_rcla_par.pdf
Tamanho:
416.09 KB
Formato:
Adobe Portable Document Format
Descrição:
Carregando...
Imagem de Miniatura
Nome:
privatto_pim_me_rcla_int.pdf
Tamanho:
970.94 KB
Formato:
Adobe Portable Document Format
Descrição:

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.98 KB
Formato:
Item-specific license agreed upon to submission
Descrição: