Estudo e comparação de modelos de língua para detecção de fake news em português
Carregando...
Data
Autores
Orientador
Ribas, Lucas Correia 

Coorientador
Pós-graduação
Curso de graduação
São José do Rio Preto - IBILCE - Ciência da Computação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A disseminação de fake news representa uma ameaça crescente à democracia e ao debate público informado. Este trabalho investiga a eficácia de Grandes Modelos de Linguagem (LLMs) modernos na detecção automática de fake news em língua portuguesa, comparando seu desempenho com técnicas tradicionais de representação vetorial. Foram avaliados mais de uma dezena de modelos de embedding, desde abordagens clássicas como TF-IDF e Word2Vec até LLMs de última geração, incluindo modelos de código aberto (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) e proprietários (OpenAI text-embedding-3-small e Google embedding - 001), combinados com três classificadores de aprendizado de máquina: SVM, Random Forest e Regressão Logística. Os experimentos foram conduzidos sobre o corpus FakeRecogna, composto por 11.902 notícias brasileiras balanceadas entre verdadeiras e falsas. Os resultados demonstram que os embeddings gerados por LLMs superam significativamente as técnicas tradicionais. O melhor desempenho foi alcançado pela combinação do OpenAI text-embedding-3-small com Regressão Logística otimizada, atingindo F1-Score de 98,32%, mostrando ótimos resultados para a tarefa no idioma português. A pesquisa confirmou ainda que modelos baseados em Transformers beneficiam-se da manutenção de stopwords durante o pré-processamento, contrariando práticas convencionais aplicadas a técnicas estatísticas. Este estudo contribui para o avanço das pesquisas sobre verificação automática de notícias em português, fornecendo um benchmark comparativo abrangente e direcionamentos práticos para o combate à desinformação.
Resumo (inglês)
The spread of fake news represents a growing threat to democracy and informed public debate. This work investigates the effectiveness of modern Large Language Models (LLMs) in the automatic detection of fake news in Portuguese, comparing their performance with traditional vector representation techniques. More than a dozen embedding models were evaluated, from classic approaches such as TF-IDF and Word2Vec to state-of-the-art LLMs, including open-source models (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) and proprietary models (OpenAI text-embedding-3-small and Google embedding-001), combined with three machine learning classifiers: SVM, Random Forest, and Logistic Regression. The experiments were conducted using the FakeRecogna corpus, which consists of 11,902 Brazilian news articles evenly balanced between true and false content. The results demonstrate that embeddings generated by LLMs significantly outperform traditional techniques. The best performance was achieved by the combination of OpenAI text-embedding-3-small with optimized Logistic Regression, reaching an F1-Score of 98.32%, showing excellent results for the task in the Portuguese language. The research also confirmed that Transformer-based models benefit from maintaining stopwords during preprocessing, contradicting conventional practices applied to statistical techniques. This study contributes to the advancement of research on automatic news verification in Portuguese, providing a comprehensive comparative benchmark and practical guidelines for combating misinformation.
Descrição
Palavras-chave
Fake news, Detecção de desinformação, Grandes modelos de linguagem, Processamento de linguagem natural, Embeddings, Aprendizado de máquina, Fake News, Disinformation Detection, Large Language Models, Natural Language Processing, Embeddings, Machine Learning
Idioma
Português
Citação
Teixeira, Otávio Augusto. Estudo e comparação de modelos de língua para detecção de fake news em português. 2025. Trabalho de Conclusão de Curso (Graduação em Ciências da Computação) - Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista, São José do Rio Preto, 2025.

