Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba
Carregando...
Data
Autores
Orientador
Costa, Kelton Augusto Pontara da 

Coorientador
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A chegada dos deepfakes transformou profundamente o cenário da mídia digital, oferecendo tanto oportunidades quanto desafios significativos. Essas mídias, geradas por técnicas avançadas de aprendizado profundo, são imagens, áudios e vídeos altamente realistas que podem comprometer a confiança em conteúdos digitais. Seu uso malicioso abrange desde manipulação política e desinformação até extorsão, roubo de identidade e violações de propriedade intelectual. Abordagens da comunidade científica para detecção de deepfakes de imagem têm sido baseadas principalmente em Redes Neurais Convolucionais (CNNs) e Transformadores, no entanto, existem limitações relacionadas ao alto custo computacional, especialmente quando se trata do processamento de grandes volumes de dados. Neste contexto, este trabalho introduz e avalia o uso do MambaVision, uma arquitetura baseada em Modelos de Espaço de Estado Estruturado (SSMs), partindo da hipótese de que essa abordagem pode constituir uma alternativa competitiva para a detecção de deepfakes de imagem, proporcionando ganhos em eficiência computacional sem comprometer a robustez do desempenho. Os resultados experimentais, obtidos a partir de comparações com modelos baseados em CNNs (Xception) e Transformadores (ViT), demonstram que o MambaVision alcançou o maior throughput e os tempos totais de teste mais curtos em todos os cenários avaliados. Tudo isso enquanto mantém desempenho competitivo em métricas de acurácia, alcançando os maiores resultados de AUC em todos os conjuntos de dados. Notavelmente, as AUCs de 99.99% e 95.33%, e acurácias de 99.79% e 92.79% nos conjuntos de dados CelebDFv2 e FaceForensics++, respectivamente. Em comparação ao Xception e ViT, destacou-se especialmente nas métricas temporais, com throughput aproximadamente 22% superior ao Xception e quase 99% superior ao ViT, além de tempos de processamento até 75 vezes menores que o ViT. Esses resultados evidenciam a viabilidade do uso do MambaVision como uma solução prática e eficiente para detecção de deepfakes de imagem, contribuindo para a proteção da integridade das mídias digitais.
Resumo (inglês)
The advent of deepfakes has profoundly reshaped the landscape of digital media, presenting both significant opportunities and challenges. Generated through advanced deep learning techniques, these highly realistic images, audio, and videos can undermine trust in digital content. Malicious applications range from political manipulation and misinformation spread to extortion, identity theft, and intellectual property violations. Image deepfake detection approaches proposed by the scientific community have primarily relied on Convolutional Neural Networks (CNNs) and Transformers; however, these methods face limitations due to their high computational cost, especially when processing large volumes of data. In this context, this work proposes and evaluates the use of MambaVision, an architecture grounded in Structured State Space Models (SSMs), based on the hypothesis that this approach can serve as a competitive alternative for image deepfake detection, providing gains in computational efficiency without compromising performance robustness. Experimental results, obtained through comparisons with CNN-based (Xception) and Transformer-based (ViT) models, demonstrate that MambaVision achieved the highest throughput and the shortest overall test times across all evaluated scenarios, while maintaining competitive accuracy and achieving the highest AUC scores in every dataset. Notably, it attained AUCs of 99.99% and 95.33%, and accuracies of 99.79% and 92.79% on the CelebDFv2 and FaceForensics++ datasets, respectively. Compared to Xception and ViT, MambaVision excelled particularly in temporal metrics, with throughput approximately 22% higher than Xception and nearly 99% higher than ViT, along with processing times up to 75 times shorter than ViT. These findings highlight the viability of MambaVision as a practical and efficient solution for image deepfake detection, contributing to the safeguarding of digital media integrity.
Descrição
Palavras-chave
Deepfakes, Detecção, Eficiência, SSM, Transformer, Imagem, Cibersegurança
Idioma
Português
Citação
AMOROSO, Fabrício Steinle. Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba. 2025. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.


