Melhoramento de voz baseado em representações esparsas usando dicionários treinados

Andrade, Thiago Garcia de

Melhoramento de voz baseado em representações esparsas usando dicionários treinados

dc.contributor.advisor	Alvarado, Francisco Villarreal [UNESP]
dc.contributor.author	Andrade, Thiago Garcia de
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2020-12-21T23:21:23Z
dc.date.available	2020-12-21T23:21:23Z
dc.date.issued	2020-08-18
dc.description.abstract	Melhorar sinais de voz degradados por ruídos não-estacionários é uma tarefa importante e de interesse em diversas áreas de pesquisa. Os espectros variantes no tempo de ruídos não-estacionários comprometem o desempenho de métodos clássicos de melhoramento de voz. Este trabalho explora a utilização de representações esparsas utilizando dicionários treinados no melhoramento de voz. O sinal ruidoso no domínio tempo-frequência é codificado de maneira esparsa utilizando um dicionário formado pela concatenação de um dicionário de voz e um dicionário de ruído. A voz pura é estimada pela representação gerada pelo dicionário de voz enquanto a estimação do ruído é dada pela representação fornecida pelo dicionário de ruído. Uma codificação muito esparsa aumenta o erro de aproximação, denotado por distorção de fonte. Uma codificação muito densa causa confusão de fonte, onde a voz é parcialmente representada pelo dicionário de ruído, e o ruído é parcialmente codificado pelo dicionário de voz. A esparsidade da representação é regulada para melhorar o desempenho. Os resultados experimentais mostram que esta abordagem alcança resultados superiores à subtração espectral, filtro de Wiener e MMSE-STSA usando diferentes medidas objetivas de avaliação.	pt
dc.description.abstract	Enhancing speech degraded by non-stationary noises is an important task and of great interest in several research areas. The time-varying spectra of non-stationary noises compromise the performance of classical speech enhancement methods. This work explores the use of sparse representations using trained dictionaries in speech enhancement. The mixture in time-frequency domain is sparsely encoded in a dictionary formed by the concatenation of a speech dictionary and a noise dictionary. The cleaned speech is estimated by the representation generated by the speech dictionary while the noise estimation is given by the representation provided by the noise dictionary. Very sparse coding increases the approximation error, denoted by source distortion. Very dense encoding causes source confusion, where the voice is partially represented by the noise dictionary, and the noise is partially encoded by the voice dictionary. The sparsity of the representation is regulated to improve performance. Experimental results shows that this approach achieves results superior to spectral subtraction, Wiener filter and MMSE-STSA using different objective evaluation measures.	pt
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipId	CAPES: 001
dc.identifier.capes	33004099080P0
dc.identifier.uri	http://hdl.handle.net/11449/202193
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto
dc.subject	Melhoramento de voz	pt
dc.subject	Representações esparsas	pt
dc.subject	Treinamento de dicionários	pt
dc.subject	Speech enhancement	pt
dc.subject	Sparse representations	pt
dc.subject	Dictionary learning	pt
dc.title	Melhoramento de voz baseado em representações esparsas usando dicionários treinados	pt
dc.title.alternative	Speech enhancement based on sparse representations using trained dictionaries	pt
dc.type	Dissertação de mestrado
unesp.campus	Universidade Estadual Paulista (Unesp), Faculdade de Engenharia, Ilha Solteira	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Engenharia Elétrica - FEIS	pt
unesp.knowledgeArea	Automação	pt
unesp.researchArea	Melhoramento de voz	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: andrade_tg_me_ilha.pdf
Tamanho:: 1.82 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.98 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Dissertações - Engenharia Elétrica - FEIS