Estudo e comparação de modelos de língua para detecção de fake news em português
| dc.contributor.advisor | Ribas, Lucas Correia [UNESP] | |
| dc.contributor.author | Teixeira, Otávio Augusto [UNESP] | |
| dc.contributor.committeeMember | Cândido Júnior, Arnaldo [UNESP] | |
| dc.contributor.committeeMember | Guido, Rodrigo Capobianco [UNESP] | |
| dc.contributor.institution | Universidade Estadual Paulista (Unesp) | |
| dc.date.accessioned | 2025-12-09T15:48:34Z | |
| dc.date.issued | 2025-11-28 | |
| dc.description.abstract | A disseminação de fake news representa uma ameaça crescente à democracia e ao debate público informado. Este trabalho investiga a eficácia de Grandes Modelos de Linguagem (LLMs) modernos na detecção automática de fake news em língua portuguesa, comparando seu desempenho com técnicas tradicionais de representação vetorial. Foram avaliados mais de uma dezena de modelos de embedding, desde abordagens clássicas como TF-IDF e Word2Vec até LLMs de última geração, incluindo modelos de código aberto (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) e proprietários (OpenAI text-embedding-3-small e Google embedding - 001), combinados com três classificadores de aprendizado de máquina: SVM, Random Forest e Regressão Logística. Os experimentos foram conduzidos sobre o corpus FakeRecogna, composto por 11.902 notícias brasileiras balanceadas entre verdadeiras e falsas. Os resultados demonstram que os embeddings gerados por LLMs superam significativamente as técnicas tradicionais. O melhor desempenho foi alcançado pela combinação do OpenAI text-embedding-3-small com Regressão Logística otimizada, atingindo F1-Score de 98,32%, mostrando ótimos resultados para a tarefa no idioma português. A pesquisa confirmou ainda que modelos baseados em Transformers beneficiam-se da manutenção de stopwords durante o pré-processamento, contrariando práticas convencionais aplicadas a técnicas estatísticas. Este estudo contribui para o avanço das pesquisas sobre verificação automática de notícias em português, fornecendo um benchmark comparativo abrangente e direcionamentos práticos para o combate à desinformação. | pt |
| dc.description.abstract | The spread of fake news represents a growing threat to democracy and informed public debate. This work investigates the effectiveness of modern Large Language Models (LLMs) in the automatic detection of fake news in Portuguese, comparing their performance with traditional vector representation techniques. More than a dozen embedding models were evaluated, from classic approaches such as TF-IDF and Word2Vec to state-of-the-art LLMs, including open-source models (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) and proprietary models (OpenAI text-embedding-3-small and Google embedding-001), combined with three machine learning classifiers: SVM, Random Forest, and Logistic Regression. The experiments were conducted using the FakeRecogna corpus, which consists of 11,902 Brazilian news articles evenly balanced between true and false content. The results demonstrate that embeddings generated by LLMs significantly outperform traditional techniques. The best performance was achieved by the combination of OpenAI text-embedding-3-small with optimized Logistic Regression, reaching an F1-Score of 98.32%, showing excellent results for the task in the Portuguese language. The research also confirmed that Transformer-based models benefit from maintaining stopwords during preprocessing, contradicting conventional practices applied to statistical techniques. This study contributes to the advancement of research on automatic news verification in Portuguese, providing a comprehensive comparative benchmark and practical guidelines for combating misinformation. | en |
| dc.description.sponsorshipId | Não recebi financiamento | |
| dc.identifier.citation | Teixeira, Otávio Augusto. Estudo e comparação de modelos de língua para detecção de fake news em português. 2025. Trabalho de Conclusão de Curso (Graduação em Ciências da Computação) - Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista, São José do Rio Preto, 2025. | |
| dc.identifier.lattes | 0031954713099502 | |
| dc.identifier.orcid | 0009-0005-8839-5338 | |
| dc.identifier.uri | https://hdl.handle.net/11449/316560 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Estadual Paulista (Unesp) | |
| dc.rights.accessRights | Acesso aberto | pt |
| dc.subject | Fake news | pt |
| dc.subject | Detecção de desinformação | pt |
| dc.subject | Grandes modelos de linguagem | pt |
| dc.subject | Processamento de linguagem natural | pt |
| dc.subject | Embeddings | pt |
| dc.subject | Aprendizado de máquina | pt |
| dc.subject | Fake News | en |
| dc.subject | Disinformation Detection | en |
| dc.subject | Large Language Models | en |
| dc.subject | Natural Language Processing | en |
| dc.subject | Embeddings | en |
| dc.subject | Machine Learning | en |
| dc.title | Estudo e comparação de modelos de língua para detecção de fake news em português | pt |
| dc.title.alternative | Study and comparison of language models for fake news detection in portuguese | en |
| dc.type | Trabalho de conclusão de curso | pt |
| dspace.entity.type | Publication | |
| relation.isAuthorOfPublication | 7828896e-f71b-40b3-a7e3-e972abefc107 | |
| relation.isAuthorOfPublication.latestForDiscovery | 7828896e-f71b-40b3-a7e3-e972abefc107 | |
| unesp.campus | Universidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto | pt |
| unesp.examinationboard.type | Banca pública | pt |
| unesp.undergraduate | São José do Rio Preto - IBILCE - Ciência da Computação | pt |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- teixeira_oa_tcc_sjrp.pdf
- Tamanho:
- 2.62 MB
- Formato:
- Adobe Portable Document Format
Licença do pacote
1 - 2 de 2
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.14 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição:
Carregando...
- Nome:
- teixeira_oa_autorização_sjrp.pdf
- Tamanho:
- 132.6 KB
- Formato:
- Adobe Portable Document Format
- Descrição:
