Estudo e comparação de modelos de língua para detecção de fake news em português

Teixeira, Otávio Augusto [UNESP]

Estudo e comparação de modelos de língua para detecção de fake news em português

dc.contributor.advisor	Ribas, Lucas Correia [UNESP]
dc.contributor.author	Teixeira, Otávio Augusto [UNESP]
dc.contributor.committeeMember	Cândido Júnior, Arnaldo [UNESP]
dc.contributor.committeeMember	Guido, Rodrigo Capobianco [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2025-12-09T15:48:34Z
dc.date.issued	2025-11-28
dc.description.abstract	A disseminação de fake news representa uma ameaça crescente à democracia e ao debate público informado. Este trabalho investiga a eficácia de Grandes Modelos de Linguagem (LLMs) modernos na detecção automática de fake news em língua portuguesa, comparando seu desempenho com técnicas tradicionais de representação vetorial. Foram avaliados mais de uma dezena de modelos de embedding, desde abordagens clássicas como TF-IDF e Word2Vec até LLMs de última geração, incluindo modelos de código aberto (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) e proprietários (OpenAI text-embedding-3-small e Google embedding - 001), combinados com três classificadores de aprendizado de máquina: SVM, Random Forest e Regressão Logística. Os experimentos foram conduzidos sobre o corpus FakeRecogna, composto por 11.902 notícias brasileiras balanceadas entre verdadeiras e falsas. Os resultados demonstram que os embeddings gerados por LLMs superam significativamente as técnicas tradicionais. O melhor desempenho foi alcançado pela combinação do OpenAI text-embedding-3-small com Regressão Logística otimizada, atingindo F1-Score de 98,32%, mostrando ótimos resultados para a tarefa no idioma português. A pesquisa confirmou ainda que modelos baseados em Transformers beneficiam-se da manutenção de stopwords durante o pré-processamento, contrariando práticas convencionais aplicadas a técnicas estatísticas. Este estudo contribui para o avanço das pesquisas sobre verificação automática de notícias em português, fornecendo um benchmark comparativo abrangente e direcionamentos práticos para o combate à desinformação.	pt
dc.description.abstract	The spread of fake news represents a growing threat to democracy and informed public debate. This work investigates the effectiveness of modern Large Language Models (LLMs) in the automatic detection of fake news in Portuguese, comparing their performance with traditional vector representation techniques. More than a dozen embedding models were evaluated, from classic approaches such as TF-IDF and Word2Vec to state-of-the-art LLMs, including open-source models (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) and proprietary models (OpenAI text-embedding-3-small and Google embedding-001), combined with three machine learning classifiers: SVM, Random Forest, and Logistic Regression. The experiments were conducted using the FakeRecogna corpus, which consists of 11,902 Brazilian news articles evenly balanced between true and false content. The results demonstrate that embeddings generated by LLMs significantly outperform traditional techniques. The best performance was achieved by the combination of OpenAI text-embedding-3-small with optimized Logistic Regression, reaching an F1-Score of 98.32%, showing excellent results for the task in the Portuguese language. The research also confirmed that Transformer-based models benefit from maintaining stopwords during preprocessing, contradicting conventional practices applied to statistical techniques. This study contributes to the advancement of research on automatic news verification in Portuguese, providing a comprehensive comparative benchmark and practical guidelines for combating misinformation.	en
dc.description.sponsorshipId	Não recebi financiamento
dc.identifier.citation	Teixeira, Otávio Augusto. Estudo e comparação de modelos de língua para detecção de fake news em português. 2025. Trabalho de Conclusão de Curso (Graduação em Ciências da Computação) - Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista, São José do Rio Preto, 2025.
dc.identifier.lattes	0031954713099502
dc.identifier.orcid	0009-0005-8839-5338
dc.identifier.uri	https://hdl.handle.net/11449/316560
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Fake news	pt
dc.subject	Detecção de desinformação	pt
dc.subject	Grandes modelos de linguagem	pt
dc.subject	Processamento de linguagem natural	pt
dc.subject	Embeddings	pt
dc.subject	Aprendizado de máquina	pt
dc.subject	Fake News	en
dc.subject	Disinformation Detection	en
dc.subject	Large Language Models	en
dc.subject	Natural Language Processing	en
dc.subject	Embeddings	en
dc.subject	Machine Learning	en
dc.title	Estudo e comparação de modelos de língua para detecção de fake news em português	pt
dc.title.alternative	Study and comparison of language models for fake news detection in portuguese	en
dc.type	Trabalho de conclusão de curso	pt
dspace.entity.type	Publication
relation.isAuthorOfPublication	7828896e-f71b-40b3-a7e3-e972abefc107
relation.isAuthorOfPublication.latestForDiscovery	7828896e-f71b-40b3-a7e3-e972abefc107
relation.isOrgUnitOfPublication	43c38943-bd6f-4fb6-a9a5-8482a1f632c0
relation.isOrgUnitOfPublication.latestForDiscovery	43c38943-bd6f-4fb6-a9a5-8482a1f632c0
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto	pt
unesp.examinationboard.type	Banca pública	pt
unesp.undergraduate	São José do Rio Preto - IBILCE - Ciência da Computação	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: teixeira_oa_tcc_sjrp.pdf
Tamanho:: 2.62 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Coleções

São José do Rio Preto - IBILCE - Instituto de Biociências, Letras e Ciências Exatas