Caracterização de voice spoofing para fins de verificação de locutores com base na transformada wavelet e na análise paraconsistente de características

Carregando...
Imagem de Miniatura

Data

2021-08-25

Autores

Furlan, André

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Voice spoofing é uma estratégia genérica utilizada para burlar sistemas de autenticação biométrica baseados em identificação por voz. Dentre as diversas possibilidades específicas, os ataques do tipo playback speech são os que têm recebido considerável atenção da comunidade científica. Assim, por meio da decomposição dos sinais de voz com wavelets e posterior análise das respectivas sub-bandas espectrais BARK e MEL, este trabalho dedica-se a determinar qual a melhor combinação BARK/MEL-wavelet para que se obtenha uma separação máxima entre duas classes: Locuções genuínas e falseadas. Após a apuração da melhor combinação de descritores, realizada por meio da Análise Paraconsistente, os vetores de características oriundos dos sinais de voz são submetidos a ensaios de classificação, variando-se o tamanho do conjunto de treinamento e testes. Utilizando as distâncias Euclidiana e Manhattan, além de Máquinas de Vetores de Suporte (SVM), a acurácia máxima obtida foi de 99,7561% para uma base com 820 sinais, a qual considera-se como um resultado promissor frente àqueles existentes na literatura.
Voice spoofing is a generic strategy designed to circumvent biometric systems based on voice identification. Among a diversity of specific possibilities, playback speech attacks have received considerable attention from the scientific community. Thus, based on speech signals decomposition with wavelets for subsequent BARK and MEL scales spectral analysis, this dissertation aims at determining the best filters and scales to optimally separate between two classes: Genuine and spoofed speech. Once the best combination of descriptors is obtained, based on Paraconsistent Engineering, the feature vectors are subjected to classification, varying the randomly chosen training and test sets in size. Euclidean and Manhattan distances, as well as Support Vector Machine (SVM), were used as classifiers, where the highest value of accuracy was 99.7561% for a dataset with 820 signals. This is a promising result, considering the state-of-the-art in the field.

Descrição

Palavras-chave

Análise paraconsistente, Voice spoofing, Playback speech, Wavelets, Paraconsistent analysis

Como citar