Logo do repositório

Aprimorando a detecção de falsificação de voz por meio de análise extensiva de redução de características multicepstrais

Carregando...
Imagem de Miniatura

Orientador

Guido, Rodrigo Capobianco

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Sistemas biométricos de voz desempenham um papel crítico em diversas aplicações de segurança, incluindo autenticação de dispositivos eletrônicos, verificação de transações bancárias e comunicações confidenciais. Apesar de sua ampla utilidade, esses sistemas são cada vez mais alvo de ataques de spoofing sofisticados que utilizam técnicas avançadas de inteligência artificial para gerar fala sintética realista. Abordar as vulnerabilidades inerentes aos sistemas de autenticação por voz tornou-se, portanto, uma tarefa urgente e essencial. Este estudo propõe uma nova análise experimental que explora extensivamente diversas estratégias de redução de dimensionalidade em conjunto com modelos de machine learning supervisionados para identificar de forma eficaz sinais de voz falsificados. Nosso framework envolve a extração de características multicepstrais seguida da aplicação de diversos métodos de redução de dimensionalidade, tais como Análise de Componentes Principais (Principal Component Analysis — PCA), Decomposição em Valores Singulares Truncada (Truncated Singular Value Decomposition — SVD), seleção estatística de características (valor F do ANOVA, Informação Mútua), Eliminação Recursiva de Características (Recursive Feature Elimination — RFE), seleção baseada em regularização via LASSO, importância de características por Random Forest e técnicas de Importância por Permutação. A avaliação empírica, utilizando o conjunto de dados ASVSpoof 2017 v2.0, mede o desempenho da classificação com a métrica de Taxa de Erro Igual (Equal Error Rate — EER), atingindo valores em torno de 10%. Nossa análise comparativa demonstra ganhos significativos de desempenho quando os métodos de redução de dimensionalidade são aplicados, ressaltando seu valor no aumento da segurança e eficácia dos sistemas de verificação biométrica de voz contra ameaçasemergentes de spoofing.

Resumo (inglês)

Voice biometric systems play a critical role in numerous security applications, including electronic device authentication, banking transaction verification, and confidential communications. Despite their widespread utility, these systems are increasingly targeted by sophisticated spoofing attacks that leverage advanced artificial intelligence techniques to generate realistic synthetic speech. Addressing the vulnerabilities inherent to voice-based authentication systems has thus become both urgent and essential. This study proposes a novel experimental analysis that extensively explores various dimensionality reduction strategies in conjunction with supervised machine learning models to effectively identify spoofed voice signals. Our framework involves extracting multicepstral features followed by the application of diverse dimensionality reduction methods such as Principal Component Analysis (PCA), Truncated Singular Value Decomposition (SVD), statistical feature selection (ANOVA F-value, Mutual Information), Recursive Feature Elimination (RFE), regularization-based LASSO selection, Random Forest feature importance, and Permutation Importance techniques. Empirical evaluation using the ASVSpoof 2017 v2.0 dataset measures the classification performance with the Equal Error Rate (EER) metric, achieving values of approximately 10%. Our comparative analysis demonstrates significant performance gains when dimensionality reduction methods are applied, underscoring their value in enhancing the security and effectiveness of voice biometric verification systems against emerging spoofing threats.

Descrição

Palavras-chave

Spoofing detection, Redução de dimensionalidade, Reconhecimento de padrões, Análise cepstral, Aprendizado de máquina, Dimensionality reduction, Pattern recognition, Cepstral analysis, Machine learning

Idioma

Português

Citação

SOUZA, Leonardo Mendes de. Aprimorando a detecção de falsificação de voz por meio de análise extensiva de redução de características multicepstrais. 2025. 71 f. Tese (Doutorado em Ciência da Computação) – Universidade Estadual Paulista (UNESP), São José do Rio Preto, 2025.

Itens relacionados

Financiadores

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação