Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem

Frediani, João Otávio Rodrigues Ferreira [UNESP]

Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem

dc.contributor.advisor	Marana, Aparecido Nilceu [UNESP]
dc.contributor.author	Frediani, João Otávio Rodrigues Ferreira [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2024-12-02T12:13:11Z
dc.date.available	2024-12-02T12:13:11Z
dc.date.issued	2024-08-28
dc.description.abstract	Discurso de ódio refere-se ao discurso ofensivo direcionado a um grupo ou indivíduo com base em características inerentes, como, por exemplo, raça, religião ou gênero. Já é reconhecido que discurso de ódio pode causar danos a longo prazo e criar problemas severos para a sociedade. O uso massivo da Internet intensificou a propagação deste tipo de discurso, permitindo que este chegue a muitas pessoas rapidamente, por isso, governos e empresas começaram uma batalha para combater sua propagação. Este combate é desafiador devido a quantidade de dados publicados na Internet, que torna a análise humana impossível, levando a necessidade de automatizar a detecção de discurso de ódio. Apesar das dificuldades encontradas, como o caráter implícito de alguns discursos, muitos trabalhos foram realizados em anos recentes para a detecção de discurso de ódio na língua inglesa. Para a língua portuguesa, a ausência de grandes conjuntos de dados rotulados torna o desafio ainda maior. Visando mitigar este problema, este trabalho investigou três estratégias de aprendizado de máquina que supostamente permitem a transferência de aprendizado em modelos de processamento de linguagem natural (PLN) desenvolvidos para detectar discurso de ódio em textos escritos em português. Foram utilizados os modelos Bertimbau Base, Bertimbau Large em BERT, e exploradas três estratégias de transferência de aprendizado entre os idiomas inglês-português e espanhol-português: (i) a transferência de aprendizado de uma tarefa fonte para uma tarefa alvo distinta; (ii) a estratégia zero-shot learning e (iii) a estratégia few-shot learning. Experimentos realizados sobre conjuntos de dados disponíveis na literatura mostraram que a tarefa fonte escolhida (detecção de linguagem ofensiva) não gerou conhecimento relevante suficiente para melhorar a performance dos modelos de PLN na tarefa alvo deste trabalho (detecção de discurso de ódio). Eles mostraram também que o conhecimento se generalizou de maneira mais eficiente com a estratégia de few-shot learning do que com zero-shot learning, em especial entre os idiomas inglês e português. Por fim, um experimento adicional mostrou que técnicas de reamostragem dos dados, podem levar a uma melhoria no desempenho dos modelos de PLN, em particular quanto às métricas precisão, revocação e pontuação F1, quando as classes dos conjuntos de dados são desbalanceadas, como ocorre com os conjuntos de dados utilizados neste trabalho.	pt
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipId	Capes: 001
dc.identifier.capes	33004153073P2
dc.identifier.orcid	0000-0002-6544-9066
dc.identifier.uri	https://hdl.handle.net/11449/258472
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	BERT	pt
dc.subject	Discurso de ódio	pt
dc.subject	Processamentod e linguagem natural	pt
dc.subject	Transferência de aprendizado	pt
dc.subject	Hate speech	en
dc.subject	Natural language processing	en
dc.subject	Transfer learning	en
dc.title	Detecção de discurso de ódio na lingua portuguesa utilizando transferência de aprendizagem	pt
dc.title.alternative	Hate Speech detection in portuguese using transfer learning	en
dc.type	Dissertação de mestrado	pt
unesp.campus	Universidade Estadual Paulista (Unesp), Faculdade de Ciências, Bauru	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Computação - FC/FCT/IBILCE/IGCE	pt
unesp.knowledgeArea	Computação aplicada	pt
unesp.researchArea	Inteligência computacional	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: frediani_jorf_me_bauru.pdf
Tamanho:: 1.06 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.14 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Bauru - FC - Faculdade de Ciências