Identificação de voice spoofing em sistemas de verificação de locutores utilizando o operador de energia de Teager aprimorado e a engenharia paraconsistente de características.

Carregando...
Imagem de Miniatura

Data

2021-09-02

Orientador

Guido, Rodrigo Capobianco

Coorientador

Pós-graduação

Ciência da Computação - IBILCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Os avanços tecnológicos têm possibilitado cada vez mais a busca e a disseminação de informações e, com isso, o volume de dados gerados cresce extraordinariamente. Outro fator que contribui para este crescimento é o uso de dispositivos de Internet das Coisas (IoT), como Google Home e Amazon Alexa, e de outros assistentes de voz para permitir o gerenciamento de várias operações remotas em residências e escritórios. Assim, faz-se necessário o uso de sistemas para garantir o acesso e a segurança desses dados. Diante das pesquisas apresentadas, percebe-se a necessidade de maiores estudos no sentido de ampliar a eficiência dos sistemas de detecção dos ataques de reprodução eletrônica de voz (AREV), em especial os replay attacks, nos sistemas de autenticação biométrica por voz. Grande parte dos trabalhos correntes utiliza as mesmas técnicas e recursos para minimizar as possibilidades de fraudes. Particularmente, o estado-da-arte contempla vetores de características (VCs) baseados em análise espectral direta, coeficientes Q-cepstrais, filtragem digital, cepstrum, energias instantâneas e derivados, contando com classificadores dos tipos Support Vector Machines (SVMs), Gaussian Mixture Models (GMMs) e Deep Neural Networks (DNNs), avaliados nas bases ASVspoof 2015, ASVspoof 2017, ASVspoof 2019, RedDots, BTAS 2016 e, ainda, TIMIT. Diferentemente, neste trabalho experimentam-se VCs baseados no conceito de planaridade espectral e no Operador de Energia de Teager Aprimorado (OETA), obtidos artesanalmente, os quais são avaliados com base na Engenharia Paraconsistente de Características (EPC), considerando-se 21600 sinais da base ASVspoof 2019. Os resultados apresentados implicam a viabilidade da utilização da EPC para análise e seleção dos melhores VCs, independentemente de qualquer classificador, podendo-se observar ainda, nas características ótimas, a viabilidade do OETA em relação àquelas que não se baseiam nele. Os classificadores utilizados nos testes foram baseados em distâncias Euclidianas e SVMs de núcleos Gaussianos, produzindo uma equal error rate (EER) de 0.147 e uma acurácia superior a 90%.

Resumo (inglês)

Technological advances have increasingly made it possible to search for and disseminate information and, as a result, the volume of data generated grows extraordinarily. Another factor contributing to this growth is the use of Internet of Things (IoT) devices, such as Google Home and Amazon Alexa, and other voice assistants to enable the management of various remote operations in homes and offices. Thus, it is necessary to use systems to ensure access and security of these data. In view of the research presented, there is a clear need for further studies in order to increase the efficiency of electronic voice reproduction (AREV) attack detection systems, especially replay attacks, in biometric voice authentication systems. Much of the current work uses the same techniques and resources to minimize the possibility of fraud. Particularly, the state-of-the-art includes feature vectors (VCs) based on direct spectral analysis, Q-cepstral coefficients, digital filtering, cepstrum, instantaneous energies and derivatives, counting on Support Vector Machines (SVMs), Gaussian Mixture classifiers Models (GMMs) and Deep Neural Networks (DNNs), evaluated on the basis of ASVspoof 2015, ASVspoof 2017, ASVspoof 2019, RedDots, BTAS 2016 and also TIMIT. Differently, in this work, VCs are tested based on the concept of spectral planarity and on the Enhanced Teager Power Operator (OETA), obtained by hand, which are evaluated based on the Paraconsistent Characteristics Engineering (EPC), considering 21600 signals from the base ASVspoof 2019. The results presented imply the feasibility of using EPC for the analysis and selection of the best VCs, regardless of any classifier, and it is also possible to observe, in the optimal characteristics, the feasibility of the OETA in relation to those that are not based on it. The classifiers used in the tests were based on Euclidean distances and SVMs of Gaussian cores, producing an equal error rate (EER) of 0.147 and an accuracy greater than 90%.

Descrição

Idioma

Português

Como citar

Itens relacionados

Financiadores