Logo do repositório

Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado

dc.contributor.advisorPedronette, Daniel Carlos Guimarães [UNESP]
dc.contributor.authorCampos, Victor de Abreu [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2017-09-28T13:43:21Z
dc.date.available2017-09-28T13:43:21Z
dc.date.issued2017-08-31
dc.description.abstractA quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes.pt
dc.description.abstractThe huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains.pt
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipIdFAPESP: 2015/07934-4
dc.identifier.aleph000892503
dc.identifier.capes33004153073P2
dc.identifier.urihttp://hdl.handle.net/11449/151725
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectMFCCpt
dc.subjectPLPpt
dc.subjectVQpt
dc.subjectGMMpt
dc.subjecti-vectorpt
dc.subjectRL-Simpt
dc.subjectReckNNpt
dc.subjectReconhecimento de locutorpt
dc.subjectAprendizado não supervisionadopt
dc.subjectSpeaker recognitionpt
dc.subjectUnsupervised learningpt
dc.titleArcabouço para reconhecimento de locutor baseado em aprendizado não supervisionadopt
dc.title.alternativeSpeaker recognition framework based on unsupervised learningpt
dc.typeDissertação de mestrado
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Pretopt
unesp.embargoOnlinept
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2pt
unesp.knowledgeAreaComputação científicapt
unesp.researchAreaSistemas de Informaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
campos_va_me_sjrp.pdf
Tamanho:
5.22 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.98 KB
Formato:
Item-specific license agreed upon to submission
Descrição: