Uma abordagem para reconhecimento de entidades nomeadas usando conhecimento externo

Imagem de Miniatura

Data

2020-09-29

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Nas diferentes áreas do conhecimento os dados textuais são importantes fontes de informação. Neste contexto, os métodos para Extração de Informação têm sido desenvolvidos para a identificação e estruturação de informações presentes em documentos textuais. Como subárea da Extração de Informação há o Reconhecimento de Entidades Nomeadas, que consiste em definir métodos para identificar Entidades Nomeadas, tais como Pessoa, Local, Data, entre outras, em textos. Recentemente esses métodos fazem uso de técnicas provenientes do Processamento de Linguagem Natural e de Aprendizado de Máquina. O objetivo do presente trabalho é propor uma metodologia para Reconhecimento de Entidades Nomeadas considerando os seguintes aspectos: identificação e implementação de métodos para representação de características gramaticais; identificação e implementação das novas abordagens que utilizam técnicas recentes de Aprendizado de Máquina, como BiLSTM, BiGRU e CRF; e avaliar, de maneira experimental, a integração de fontes externas de conhecimento, na forma de Gazetteers e Grafo de Conhecimento, vindos da Freebase e YAGO. O protocolo de avaliação experimental foi composto pela definição de quatro configurações de redes neurais, duas destas fazendo uso de conhecimento externo, e sua aplicação em cinco datasets com diferentes características. Nos experimentos realizados, houve ganho de F1-Score em 18 dos 40 casos onde foi utilizado conhecimento externo, chegando a um ganho de até 1,3%. Além do fato de não ter apresentado ganho em grande parte dos casos, a maioria dos ganhos foi inferior a 0,5% no F1-score. Os resultados experimentais dos métodos utilizados nos datasets escolhidos evidenciam que as estratégias empregadas para a integração do conhecimento externo agregaram baixos ganhos aos modelos, como mostrado pelas métricas Precisão, Abrangência e F1-Score. Portanto, se a fonte de conhecimento não provê informações relevantes ao domínio da tarefa, e se a maneira de agregação do conhecimento não capta o conteúdo relevante presente no mesmo, esta adição de conhecimento externo não necessariamente é benéfica à metodologia.
In different areas of knowledge textual data are important sources of information. In this context, Information Extraction methods have been developed to identify and structure information present in textual documents. As a subarea of Information Extraction there is Named Entity Recognition, which consists of using methods to identify Named Entities, such as Person, Place, Date, among others, in texts, using techniques from Natural Language Processing and Machine Learning. Recently, these methods use techniques from Natural Language Processing and Machine Learning. The purpose of this work is to propose a methodology for Named Entity Recognition considering the following aspects: identification and implementation of grammatical feature representation methods; identification and implementation of new approaches that use recent Machine Learning techniques, such as BiLSTM, BiGRU and CRF; and to evaluate, in an experimental way, the integration of external knowledge sources, in the form of Gazetteers and Knowledge Graph, coming from Freebase and YAGO. The experimental evaluation protocol was composed by four configurations of neural networks, two of them making use of external knowledge, and their application in five datasets with different characteristics. In the conducted experiments, there was a gain of F1-Score in 18 of the 40 cases where external knowledge was used, reaching a gain of up to 1.3%. In addition to the fact that there was no gain in most cases, the majority of the gains were lesser than 0.5% in F1-score. The experimental results of the methods applied to the chosen datasets show that the strategies used for the integration of external knowledge added low gains to the models, as shown by the metrics Precision, Recall and F1-Score. Therefore, if the source of knowledge does not provide relevant information to the task domain, and if the way of aggregating the external knowledge does not capture the relevant content present in it, this addition of external knowledge is not necessarily beneficial to the methodology

Descrição

Palavras-chave

Inteligência artificial, Processamento de linguagem natural, Extração de informação, Reconhecimento de entidades nomeadas, Named entity recognition, Natural language processing, Information extraction, Artificial intelligence

Como citar