Reconhecimento de emoções através da fala utilizando redes neurais
Carregando...
Arquivos
Data
2022-08-23
Autores
Orientador
Marques, Márcio Alexandre
Martins, Thiago Gonçalves dos Santos
Coorientador
Pós-graduação
Curso de graduação
Engenharia de Controle e Automação - ICTS
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto
Resumo
Resumo (português)
Aplicações que detectam o estado emocional de pacientes se apresentam como uma alternativa para lidar com pessoas passando por grandes cargas emocionais, como pacientes com COVID-19 em isolamento. Essas ferramentas detectam o estado emocional utilizando técnicas não invasivas como sons e fala produzidos pelo paciente. Com o objetivo de avaliar a união de técnicas de análise de áudio e modelos de aprendizado de máquina que detectam o estado emocional, avaliou-se o desempenho de redes neurais convolucionais (CNN) associadas a três técnicas de análise áudio para classificação de emoções através da fala. A primeira técnica avaliada, transformada de Fourier de tempo curto (STFT), apresentou acurácia de 23% para o processo de treinamento realizado com 75 épocas. Ao utilizar essa abordagem o modelo foi incapaz de extrair padrões dos dados de entrada, resultando no processo de underfitting. A segunda técnica utilizada, o espectrograma Mel, reduziu significativamente o tempo de processamento total do modelo e apresentou acurácia de aproximadamente 100% para o conjunto de treinamento. No entanto, o aprendizado obtido na etapa de treinamento não foi observado para o conjunto de teste, com acurácia de 28%, indicando que o modelo se especializou nos dados, resultando no processo de overfitting. A última técnica utilizada, coeficientes cepstrais de frequência Mel (MFCC), apresentou resultados superiores as demais técnicas, com o menor tempo de processamento e melhor desempenho nas etapas de treinamento e teste, atingindo uma acurácia de 68%. Ao aumentar o número de amostras e camadas de processamento da rede CNN, foi possível aumentar o desempenho ainda mais, atingindo acurácia de 86%. Portanto, o classificador de emoções através da fala, baseado na combinação de redes neurais convolucionais e técnicas de áudio, apresentou o melhor desempenho ao utilizar como técnica de análise a MFCC.
Resumo (inglês)
Applications that detect the emotional state of patients present themselves as an alternative to
deal with people experiencing great emotional burdens, such as patients with COVID-19 in
isolation. These tools detect emotional state using non-invasive techniques such as sounds and
speech produced by the patient. In order to evaluate the combination of audio analysis
techniques and machine learning models that detect emotional state, the performance of
convolutional neural networks (CNN) associated with three audio analysis techniques for
classifying emotions through the speaks. The first technique evaluated, short-time Fourier
transform (STFT), showed an accuracy of 23% for the training process performed with 75
epochs. When using this approach, the model was unable to extract patterns from the input data,
resulting in the underfitting process. The second technique used, the Mel spectrogram,
significantly reduced the total model processing time and presented an accuracy of
approximately 100% for the training set. However, the learning obtained in the training stage
was not observed for the test set, with an accuracy of 28%, indicating that the model specialized
in the data, resulting in the overfitting process. The last technique used, Mel frequency cepstral
coefficients (MFCC), presented superior results to the other techniques, with the shortest
processing time and better performance in the training and test stages, reaching an accuracy of
68%. By increasing the number of samples and processing layers of the CNN network, it was
possible to increase the performance even more, reaching an accuracy of 86%. Therefore, the
emotion classifier through speech, based on the combination of convolutional neural networks
and audio techniques, presented the best performance when using MFCC as an analysis
technique.
Descrição
Idioma
Português