Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens

Neves, Eder Pereira [UNESP]

Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens

dc.contributor.advisor	Vieira Filho, Jozue
dc.contributor.author	Neves, Eder Pereira [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2023-01-30T18:51:16Z
dc.date.available	2023-01-30T18:51:16Z
dc.date.issued	2022-12-01
dc.description.abstract	Neste trabalho apresenta-se um método para fazer a predição da pontuação MOS - Mean Opinion Score para a medida objetiva intrusiva, ITU-T P.862 - PESQ utilizando uma técnica de processamento de imagem do espectro do sinal de voz. O método foi construído por meio de um processo sistemático simulado por sinais limpos e contaminados com diferentes tipos de ruídos encontrados em situações cotidianas. Cada sinal ´e convertido para o domínio da frequência, transformado em uma matriz e as bandas críticas são separadas utilizando um modelo perceptual. Em seguida, a imagem gerada é quantificada e o espectro de potência de cada pixel é convertido em um nível de cinza e analisado por meio de uma técnica baseada na matriz de coocorrência de níveis de cinza nas suas quatro principais direções, gerando os 19 fatores de Haralick. Dentre o conjunto de fatores três foram selecionados para constituir as entradas do modelo, proporcionando 969 composições para cada direção da matriz de coocorrência. A proposta utiliza uma abordagem de inferência do tipo Sugeno de primeira ordem, implementada no Sistema de Inferência Neuro Fuzzy Adaptativa - ANFIS. Comprovou-se que o desempenho preditivo está ligado à escolha de um algoritmo de fuzzificação do espaço de entrada. Desta forma, foi analisado o comportamento do particionamento Grid e os agrupamentos Subtractive e Fuzzy C-Means - FCM. Constatou-se que o algoritmo FCM proporcionou os melhores resultados para três variáveis linguísticas, sendo avaliado pelas métricas MAPE, RMSE e R2. Nas simulações ficou evidente que o modelo atua efetivamente em qualquer ambiente ruidoso, proporcionando resultados satisfatórios independente da quantidade de sinais a serem analisados.	pt
dc.description.abstract	In this work, it is proposed a method to predict of the MOS score - Mean Opinion Score from the intrusive objective measure PESQ - ITU P.862, by analysing the spectrum image of the voice signal. The colorblackmethod was constructed by means of a systematic process simulated by clean signals contaminated with different types of noise found in everyday situations. Each signal is converted to the frequency domain, transformed into a matrix, and the critical bands are separated using a perceptual model. Then the generated image is quantized and the power spectrum of each pixel is converted to a gray level and analyzed using a technique based on the co-occurrence matrix of gray levels in its four main directions, generating the 19 Haralick factors. Among the set of factors, three were selected to constitute the model inputs, which provided 969 compositions for each direction of the co-occurrence matrix. The proposal uses a first-order Sugeno fuzzy inference approach, implemented in the Adaptive Neuro Fuzzy Inference System - ANFIS. Predictive performance has been shown to be linked to the choice of a fuzzification algorithm for the input space. Thus, the behavior of the Grid partitioning and the Subtractive and Fuzzy C-Means - FCM clustering was analyzed. The FCM algorithm was found to provide the best results for three linguistic variables, as evaluated by the MAPE, RMSE and R2 metrics. In the simulations it became evident that the model works effectively in any noisy environment, providing satisfactory results regardless of the amount of signals to be analyzed.	en
dc.description.sponsorshipId	Não recebi financiamento
dc.identifier.capes	33004099080P0
dc.identifier.uri	http://hdl.handle.net/11449/239139
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Imagem perceptual do sinal de voz	pt
dc.subject	Técnica de extração de fatores	pt
dc.subject	Algoritmo de fuzzificação	pt
dc.subject	Estimação da PESQ pela ANFIS	pt
dc.subject	Perceptual imaging of the speech signal	pt
dc.subject	Factor extraction technique	en
dc.subject	Estimating PESQ by ANFIS	en
dc.subject	Estimação da PESQ pela ANFIS	pt
dc.title	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens	pt
dc.title.alternative	Pesq-ANFIS/fuzzy c-means predictive model for image-based speech signal evaluation	en
dc.type	Tese de doutorado	pt
dspace.entity.type	Publication
relation.isGradProgramOfPublication	909f8040-719f-42cf-a550-e298b801fceb
relation.isGradProgramOfPublication.latestForDiscovery	909f8040-719f-42cf-a550-e298b801fceb
relation.isOrgUnitOfPublication	85b724f4-c5d4-4984-9caf-8f0f0d076a19
relation.isOrgUnitOfPublication.latestForDiscovery	85b724f4-c5d4-4984-9caf-8f0f0d076a19
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Engenharia, Ilha Solteira	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Engenharia Elétrica - FEIS	pt
unesp.knowledgeArea	Automação	pt
unesp.researchArea	Não consta	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: neves_ep_dr_ilha.pdf
Tamanho:: 8.43 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.99 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Ilha Solteira - FEIS - Faculdade de Engenharia