Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

Privatto, Pedro Ivo Monteiro

Publicação:
Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

Arquivos

privatto_pim_me_rcla_par.pdf (416.09 KB)

privatto_pim_me_rcla_int.pdf (970.94 KB)

Data

2020-09-29

Autores

Privatto, Pedro Ivo Monteiro

Orientador

Guilherme, Ivan Rizzo

Pós-graduação

Ciência da Computação - IGCE

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso aberto

Resumo

Resumo (português)

Nas diferentes áreas do conhecimento os dados textuais são importantes fontes de informação. Neste contexto, os métodos para Extração de Informação têm sido desenvolvidos para a identificação e estruturação de informações presentes em documentos textuais. Como subárea da Extração de Informação há o Reconhecimento de Entidades Nomeadas, que consiste em definir métodos para identificar Entidades Nomeadas, tais como Pessoa, Local, Data, entre outras, em textos. Recentemente esses métodos fazem uso de técnicas provenientes do Processamento de Linguagem Natural e de Aprendizado de Máquina. O objetivo do presente trabalho é propor uma metodologia para Reconhecimento de Entidades Nomeadas considerando os seguintes aspectos: identificação e implementação de métodos para representação de características gramaticais; identificação e implementação das novas abordagens que utilizam técnicas recentes de Aprendizado de Máquina, como BiLSTM, BiGRU e CRF; e avaliar, de maneira experimental, a integração de fontes externas de conhecimento, na forma de Gazetteers e Grafo de Conhecimento, vindos da Freebase e YAGO. O protocolo de avaliação experimental foi composto pela definição de quatro configurações de redes neurais, duas destas fazendo uso de conhecimento externo, e sua aplicação em cinco datasets com diferentes características. Nos experimentos realizados, houve ganho de F1-Score em 18 dos 40 casos onde foi utilizado conhecimento externo, chegando a um ganho de até 1,3%. Além do fato de não ter apresentado ganho em grande parte dos casos, a maioria dos ganhos foi inferior a 0,5% no F1-score. Os resultados experimentais dos métodos utilizados nos datasets escolhidos evidenciam que as estratégias empregadas para a integração do conhecimento externo agregaram baixos ganhos aos modelos, como mostrado pelas métricas Precisão, Abrangência e F1-Score. Portanto, se a fonte de conhecimento não provê informações relevantes ao domínio da tarefa, e se a maneira de agregação do conhecimento não capta o conteúdo relevante presente no mesmo, esta adição de conhecimento externo não necessariamente é benéfica à metodologia.

Resumo (inglês)

In different areas of knowledge textual data are important sources of information. In this context, Information Extraction methods have been developed to identify and structure information present in textual documents. As a subarea of Information Extraction there is Named Entity Recognition, which consists of using methods to identify Named Entities, such as Person, Place, Date, among others, in texts, using techniques from Natural Language Processing and Machine Learning. Recently, these methods use techniques from Natural Language Processing and Machine Learning. The purpose of this work is to propose a methodology for Named Entity Recognition considering the following aspects: identification and implementation of grammatical feature representation methods; identification and implementation of new approaches that use recent Machine Learning techniques, such as BiLSTM, BiGRU and CRF; and to evaluate, in an experimental way, the integration of external knowledge sources, in the form of Gazetteers and Knowledge Graph, coming from Freebase and YAGO. The experimental evaluation protocol was composed by four configurations of neural networks, two of them making use of external knowledge, and their application in five datasets with different characteristics. In the conducted experiments, there was a gain of F1-Score in 18 of the 40 cases where external knowledge was used, reaching a gain of up to 1.3%. In addition to the fact that there was no gain in most cases, the majority of the gains were lesser than 0.5% in F1-score. The experimental results of the methods applied to the chosen datasets show that the strategies used for the integration of external knowledge added low gains to the models, as shown by the metrics Precision, Recall and F1-Score. Therefore, if the source of knowledge does not provide relevant information to the task domain, and if the way of aggregating the external knowledge does not capture the relevant content present in it, this addition of external knowledge is not necessarily beneficial to the methodology

Palavras-chave

Inteligência artificial, Processamento de linguagem natural, Extração de informação, Reconhecimento de entidades nomeadas, Named entity recognition, Natural language processing, Information extraction, Artificial intelligence

Idioma

Português

URI

http://hdl.handle.net/11449/194224

Financiadores

Fundação para o Desenvolvimento da UNESP (FUNDUNESP)

Coleções

Rio Claro - IGCE - Instituto de Geociências e Ciências Exatas

Página do item completo

Publicação:
Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Como citar

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação

Publicação: Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Como citar

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação

Publicação:
Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo