Identificação de autoria em textos curtos utilizando técnicas de processamento de linguagem natural

The social networks created a shared public environment, where people can communicate with one another, share informations and meet other people regardless of their origins. However this space has been used for malicious purposes, being it sharing fake news or spreading hatred speech, and with the help of modern identity omission tools such acts have been practiced without it being possible to identify the author. Artificial Intelligence techniques have been previously used for attributing an authorship for texts with unknown authors, however historically they were used on long texts many times to identify plagiarism, but, when dealing with internet informations it’s necessary to consider the small number of words used in online communication. This work tested techniques already extensively utilized for authorship attribution on texts taken from the internet, using metrics like accuracy and confusion matrices. Besides the classic techniques a modern deep learning model called BERT that has been applied to many different problems due to its efficiency when dealing with natural language was also tested. After the testing it was observed that the BERT model got the best results.

Resumo (português)

As redes sociais criaram um ambiente compartilhado público, onde pessoas podem se comunicar, compartilhar informações, e conhecer outra pessoas independente de suas origens. Entretanto este espaço tem sido utilizado para propósitos maliciosos, seja para o compartilhamento de notícias falsas ou propagação de discurso de ódio, e com o auxilio de ferramentas modernas de omissão de identidade tais atos têm sido praticados sem que seja possível identificar o autor. Técnicas de de inteligência artificial já foram previamente utilizadas para atribuir a autoria de textos de autores desconhecidos, entretanto historicamente foram utilizadas em textos longos buscando muitas vezes a identificação de plágio, porém ao tratar de informações na internet é necessário considerar o curto numero de palavras utilizadas na comunicação online. Este trabalho testou técnicas já extensamente utilizadas para a atribuição de autoria ao serem aplicadas à textos retirados da internet utilizando métricas como a acurácia e matrizes de confusão. Além das técnicas clássicas foi testado também um modelo moderno de deep learning chamado BERT que tem sido aplicado a diferentes problemas devido à sua eficiência em lidar com linguagem natural. Após a testagem foi observado que o modelo BERT obteve os melhores resultados.

Palavras-chave

Fake News, Inteligência artificial, Processamento de linguagem natural (Computação)

Idioma

Português

URI

http://hdl.handle.net/11449/217174

Coleções

Bauru - FC - Faculdade de Ciências

Unidades

Unidade

Faculdade de Ciências

FC

Campus: Bauru

Estatísticas de acesso

Página do item completo

Identificação de autoria em textos curtos utilizando técnicas de processamento de linguagem natural

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

PlumX

Arquivos

Resumo

Resumo (inglês)

Resumo (português)

Descrição

Palavras-chave

Idioma

Citação

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação