Logo do repositório

Adaptação do envenenamento nightshade para arquivos de áudio

Carregando...
Imagem de Miniatura

Orientador

Costa, Kelton Augusto Pontara da

Coorientador

Pós-graduação

Curso de graduação

Bauru - FC - Ciência da Computação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

O Nightshade é uma técnica de envenenamento direcionado que busca criar uma proteção invisível para imagens antes de serem publicadas na internet. Para isso, adiciona-se, em certos pixels, ruídos imperceptíveis capazes de corromper modelos de difusão de texto para imagem (em inglês, text-to-image, TTI) na fase de treinamento. Este trabalho propõe uma adaptação do envenenamento Nightshade para expandir sua atuação no campo dos áudios. É proposta a substituição do modelo Contrastive Language-Image Pre-Training (CLIP) pelo modelo Contrastive Language-Audio Pre-Training (CLAP) para a criação aleatória de uma amostra de treinamento de áudios envenenados; a troca do modelo de difusão TTI Stable Diffusion pelo StyleTTS 2, um modelo de difusão de texto para fala (em inglês, text-to-speech, TTS), com a finalidade de gerar áudios âncoras; a adição de um passo a passo para que o envenenamento direcionado ocorra no espectograma de log-mel de um áudio; e, por fim, a incorporação do método de Griffin-Lim para retornar os espectogramas envenenados à sua forma de onda correspondente. Utiliza-se o Speech Commands para a elaboração de ataques direcionados no StyleTTS 2. Os resultados obtidos pela aplicação de um questionário online mostram que a adaptação não é capaz de efetuar um ataque direcionado e furtivo. Pelo contrário, o fine-tuning do StyleTTS 2 com amostras de treinamento com 5 minutos de áudios envenenados torna o modelo capaz apenas de produzir áudios incompreensíveis ao custo de ser facilmente identificado por avaliação humana, visto que o algoritmo de Griffin-Lim exacerba as perturbações adversariais já inseridas no espectrograma.

Resumo (inglês)

Nightshade is a targeted poisoning technique that seeks to create invisible protection for images before they are published on the internet. To achieve this, imperceptible noise is added to specific pixels, capable of corrupting text-to-image (TTI) diffusion models during the training phase. This work proposes an adaptation of the Nightshade poisoning attack to extend its application to audio. The Constrastive Language-Image Pre-Training (CLIP) model is replaced by a Constrastive Language-Audio Pre-Training (CLAP) one to create randomized poisoned-audio training samples, and substitute the image diffusion model Stable Diffusion with StyleTTS 2 — a diffusion-based text-tospeech (TTS) model — to generate anchor audios. This work proposes a step-by-step procedure for performing targeted poisoning on an audio’s log-mel spectrogram and adopt the Griffin–Lim algorithm to reconstruct poisoned spectrograms back into poisoned waveforms. Speech Commands is used to craft targeted attacks within StyleTTS 2. Finally, results from an online questionnaire indicate that the proposed adaptation fails to produce a stealthy, targeted attack: fine-tuning StyleTTS 2 with five minutes of poisoned training audio only causes the model to produce unintelligible audio, which is readily detected by human evaluators. In addition, the Griffin–Lim reconstruction further amplifies adversarial spectrogram perturbations, increasing perceptual detectability of the poisoning.

Descrição

Palavras-chave

Áudio, Nightshade, Texto-para-fala, Espectograma de log-mel, Griffin-Lim

Idioma

Português

Citação

ANGELO, Henrique Trivelato de. Adaptação do envenenamento nightshade para arquivos de áudio. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Ciências
FC
Campus: Bauru


Departamentos

Cursos de graduação

Item type:Curso de graduação,

Programas de pós-graduação