Reconhecimento de emoções através da fala utilizando redes neurais

Carregando...
Imagem de Miniatura

Data

2022-08-23

Orientador

Marques, Márcio Alexandre
Martins, Thiago Gonçalves dos Santos

Coorientador

Pós-graduação

Curso de graduação

Engenharia de Controle e Automação - ICTS

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Aplicações que detectam o estado emocional de pacientes se apresentam como uma alternativa para lidar com pessoas passando por grandes cargas emocionais, como pacientes com COVID-19 em isolamento. Essas ferramentas detectam o estado emocional utilizando técnicas não invasivas como sons e fala produzidos pelo paciente. Com o objetivo de avaliar a união de técnicas de análise de áudio e modelos de aprendizado de máquina que detectam o estado emocional, avaliou-se o desempenho de redes neurais convolucionais (CNN) associadas a três técnicas de análise áudio para classificação de emoções através da fala. A primeira técnica avaliada, transformada de Fourier de tempo curto (STFT), apresentou acurácia de 23% para o processo de treinamento realizado com 75 épocas. Ao utilizar essa abordagem o modelo foi incapaz de extrair padrões dos dados de entrada, resultando no processo de underfitting. A segunda técnica utilizada, o espectrograma Mel, reduziu significativamente o tempo de processamento total do modelo e apresentou acurácia de aproximadamente 100% para o conjunto de treinamento. No entanto, o aprendizado obtido na etapa de treinamento não foi observado para o conjunto de teste, com acurácia de 28%, indicando que o modelo se especializou nos dados, resultando no processo de overfitting. A última técnica utilizada, coeficientes cepstrais de frequência Mel (MFCC), apresentou resultados superiores as demais técnicas, com o menor tempo de processamento e melhor desempenho nas etapas de treinamento e teste, atingindo uma acurácia de 68%. Ao aumentar o número de amostras e camadas de processamento da rede CNN, foi possível aumentar o desempenho ainda mais, atingindo acurácia de 86%. Portanto, o classificador de emoções através da fala, baseado na combinação de redes neurais convolucionais e técnicas de áudio, apresentou o melhor desempenho ao utilizar como técnica de análise a MFCC.

Resumo (inglês)

Applications that detect the emotional state of patients present themselves as an alternative to deal with people experiencing great emotional burdens, such as patients with COVID-19 in isolation. These tools detect emotional state using non-invasive techniques such as sounds and speech produced by the patient. In order to evaluate the combination of audio analysis techniques and machine learning models that detect emotional state, the performance of convolutional neural networks (CNN) associated with three audio analysis techniques for classifying emotions through the speaks. The first technique evaluated, short-time Fourier transform (STFT), showed an accuracy of 23% for the training process performed with 75 epochs. When using this approach, the model was unable to extract patterns from the input data, resulting in the underfitting process. The second technique used, the Mel spectrogram, significantly reduced the total model processing time and presented an accuracy of approximately 100% for the training set. However, the learning obtained in the training stage was not observed for the test set, with an accuracy of 28%, indicating that the model specialized in the data, resulting in the overfitting process. The last technique used, Mel frequency cepstral coefficients (MFCC), presented superior results to the other techniques, with the shortest processing time and better performance in the training and test stages, reaching an accuracy of 68%. By increasing the number of samples and processing layers of the CNN network, it was possible to increase the performance even more, reaching an accuracy of 86%. Therefore, the emotion classifier through speech, based on the combination of convolutional neural networks and audio techniques, presented the best performance when using MFCC as an analysis technique.

Descrição

Idioma

Português

Como citar

Itens relacionados