Logo do repositório

Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba

Carregando...
Imagem de Miniatura

Orientador

Costa, Kelton Augusto Pontara da

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A chegada dos deepfakes transformou profundamente o cenário da mídia digital, oferecendo tanto oportunidades quanto desafios significativos. Essas mídias, geradas por técnicas avançadas de aprendizado profundo, são imagens, áudios e vídeos altamente realistas que podem comprometer a confiança em conteúdos digitais. Seu uso malicioso abrange desde manipulação política e desinformação até extorsão, roubo de identidade e violações de propriedade intelectual. Abordagens da comunidade científica para detecção de deepfakes de imagem têm sido baseadas principalmente em Redes Neurais Convolucionais (CNNs) e Transformadores, no entanto, existem limitações relacionadas ao alto custo computacional, especialmente quando se trata do processamento de grandes volumes de dados. Neste contexto, este trabalho introduz e avalia o uso do MambaVision, uma arquitetura baseada em Modelos de Espaço de Estado Estruturado (SSMs), partindo da hipótese de que essa abordagem pode constituir uma alternativa competitiva para a detecção de deepfakes de imagem, proporcionando ganhos em eficiência computacional sem comprometer a robustez do desempenho. Os resultados experimentais, obtidos a partir de comparações com modelos baseados em CNNs (Xception) e Transformadores (ViT), demonstram que o MambaVision alcançou o maior throughput e os tempos totais de teste mais curtos em todos os cenários avaliados. Tudo isso enquanto mantém desempenho competitivo em métricas de acurácia, alcançando os maiores resultados de AUC em todos os conjuntos de dados. Notavelmente, as AUCs de 99.99% e 95.33%, e acurácias de 99.79% e 92.79% nos conjuntos de dados CelebDFv2 e FaceForensics++, respectivamente. Em comparação ao Xception e ViT, destacou-se especialmente nas métricas temporais, com throughput aproximadamente 22% superior ao Xception e quase 99% superior ao ViT, além de tempos de processamento até 75 vezes menores que o ViT. Esses resultados evidenciam a viabilidade do uso do MambaVision como uma solução prática e eficiente para detecção de deepfakes de imagem, contribuindo para a proteção da integridade das mídias digitais.

Resumo (inglês)

The advent of deepfakes has profoundly reshaped the landscape of digital media, presenting both significant opportunities and challenges. Generated through advanced deep learning techniques, these highly realistic images, audio, and videos can undermine trust in digital content. Malicious applications range from political manipulation and misinformation spread to extortion, identity theft, and intellectual property violations. Image deepfake detection approaches proposed by the scientific community have primarily relied on Convolutional Neural Networks (CNNs) and Transformers; however, these methods face limitations due to their high computational cost, especially when processing large volumes of data. In this context, this work proposes and evaluates the use of MambaVision, an architecture grounded in Structured State Space Models (SSMs), based on the hypothesis that this approach can serve as a competitive alternative for image deepfake detection, providing gains in computational efficiency without compromising performance robustness. Experimental results, obtained through comparisons with CNN-based (Xception) and Transformer-based (ViT) models, demonstrate that MambaVision achieved the highest throughput and the shortest overall test times across all evaluated scenarios, while maintaining competitive accuracy and achieving the highest AUC scores in every dataset. Notably, it attained AUCs of 99.99% and 95.33%, and accuracies of 99.79% and 92.79% on the CelebDFv2 and FaceForensics++ datasets, respectively. Compared to Xception and ViT, MambaVision excelled particularly in temporal metrics, with throughput approximately 22% higher than Xception and nearly 99% higher than ViT, along with processing times up to 75 times shorter than ViT. These findings highlight the viability of MambaVision as a practical and efficient solution for image deepfake detection, contributing to the safeguarding of digital media integrity.

Descrição

Palavras-chave

Deepfakes, Detecção, Eficiência, SSM, Transformer, Imagem, Cibersegurança

Idioma

Português

Citação

AMOROSO, Fabrício Steinle. Detecção de deepfakes com modelos de espaço de estado estruturado: avaliação da arquitetura mamba. 2025. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Ciências
FC
Campus: Bauru


Departamentos

Cursos de graduação

Programas de pós-graduação