Logo do repositório

Estudo e comparação de modelos de língua para detecção de fake news em português

dc.contributor.advisorRibas, Lucas Correia [UNESP]
dc.contributor.authorTeixeira, Otávio Augusto [UNESP]
dc.contributor.committeeMemberCândido Júnior, Arnaldo [UNESP]
dc.contributor.committeeMemberGuido, Rodrigo Capobianco [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-12-09T15:48:34Z
dc.date.issued2025-11-28
dc.description.abstractA disseminação de fake news representa uma ameaça crescente à democracia e ao debate público informado. Este trabalho investiga a eficácia de Grandes Modelos de Linguagem (LLMs) modernos na detecção automática de fake news em língua portuguesa, comparando seu desempenho com técnicas tradicionais de representação vetorial. Foram avaliados mais de uma dezena de modelos de embedding, desde abordagens clássicas como TF-IDF e Word2Vec até LLMs de última geração, incluindo modelos de código aberto (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) e proprietários (OpenAI text-embedding-3-small e Google embedding - 001), combinados com três classificadores de aprendizado de máquina: SVM, Random Forest e Regressão Logística. Os experimentos foram conduzidos sobre o corpus FakeRecogna, composto por 11.902 notícias brasileiras balanceadas entre verdadeiras e falsas. Os resultados demonstram que os embeddings gerados por LLMs superam significativamente as técnicas tradicionais. O melhor desempenho foi alcançado pela combinação do OpenAI text-embedding-3-small com Regressão Logística otimizada, atingindo F1-Score de 98,32%, mostrando ótimos resultados para a tarefa no idioma português. A pesquisa confirmou ainda que modelos baseados em Transformers beneficiam-se da manutenção de stopwords durante o pré-processamento, contrariando práticas convencionais aplicadas a técnicas estatísticas. Este estudo contribui para o avanço das pesquisas sobre verificação automática de notícias em português, fornecendo um benchmark comparativo abrangente e direcionamentos práticos para o combate à desinformação.pt
dc.description.abstractThe spread of fake news represents a growing threat to democracy and informed public debate. This work investigates the effectiveness of modern Large Language Models (LLMs) in the automatic detection of fake news in Portuguese, comparing their performance with traditional vector representation techniques. More than a dozen embedding models were evaluated, from classic approaches such as TF-IDF and Word2Vec to state-of-the-art LLMs, including open-source models (BERTimbau, SFR-Embedding-Mistral, SERAFIM-900M-PT) and proprietary models (OpenAI text-embedding-3-small and Google embedding-001), combined with three machine learning classifiers: SVM, Random Forest, and Logistic Regression. The experiments were conducted using the FakeRecogna corpus, which consists of 11,902 Brazilian news articles evenly balanced between true and false content. The results demonstrate that embeddings generated by LLMs significantly outperform traditional techniques. The best performance was achieved by the combination of OpenAI text-embedding-3-small with optimized Logistic Regression, reaching an F1-Score of 98.32%, showing excellent results for the task in the Portuguese language. The research also confirmed that Transformer-based models benefit from maintaining stopwords during preprocessing, contradicting conventional practices applied to statistical techniques. This study contributes to the advancement of research on automatic news verification in Portuguese, providing a comprehensive comparative benchmark and practical guidelines for combating misinformation.en
dc.description.sponsorshipIdNão recebi financiamento
dc.identifier.citationTeixeira, Otávio Augusto. Estudo e comparação de modelos de língua para detecção de fake news em português. 2025. Trabalho de Conclusão de Curso (Graduação em Ciências da Computação) - Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista, São José do Rio Preto, 2025.
dc.identifier.lattes0031954713099502
dc.identifier.orcid0009-0005-8839-5338
dc.identifier.urihttps://hdl.handle.net/11449/316560
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectFake newspt
dc.subjectDetecção de desinformaçãopt
dc.subjectGrandes modelos de linguagempt
dc.subjectProcessamento de linguagem naturalpt
dc.subjectEmbeddingspt
dc.subjectAprendizado de máquinapt
dc.subjectFake Newsen
dc.subjectDisinformation Detectionen
dc.subjectLarge Language Modelsen
dc.subjectNatural Language Processingen
dc.subjectEmbeddingsen
dc.subjectMachine Learningen
dc.titleEstudo e comparação de modelos de língua para detecção de fake news em portuguêspt
dc.title.alternativeStudy and comparison of language models for fake news detection in portugueseen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isAuthorOfPublication7828896e-f71b-40b3-a7e3-e972abefc107
relation.isAuthorOfPublication.latestForDiscovery7828896e-f71b-40b3-a7e3-e972abefc107
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Pretopt
unesp.examinationboard.typeBanca públicapt
unesp.undergraduateSão José do Rio Preto - IBILCE - Ciência da Computaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
teixeira_oa_tcc_sjrp.pdf
Tamanho:
2.62 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
teixeira_oa_autorização_sjrp.pdf
Tamanho:
132.6 KB
Formato:
Adobe Portable Document Format
Descrição: