Reconhecimento de emoções através da fala utilizando redes neurais

Santos, Vinicius Moraes

Publicação:
Reconhecimento de emoções através da fala utilizando redes neurais

dc.contributor.advisor	Marques, Márcio Alexandre [UNESP]
dc.contributor.advisor	Martins, Thiago Gonçalves dos Santos
dc.contributor.author	Santos, Vinicius Moraes
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2022-09-14T14:27:14Z
dc.date.available	2022-09-14T14:27:14Z
dc.date.issued	2022-08-23
dc.description.abstract	Aplicações que detectam o estado emocional de pacientes se apresentam como uma alternativa para lidar com pessoas passando por grandes cargas emocionais, como pacientes com COVID-19 em isolamento. Essas ferramentas detectam o estado emocional utilizando técnicas não invasivas como sons e fala produzidos pelo paciente. Com o objetivo de avaliar a união de técnicas de análise de áudio e modelos de aprendizado de máquina que detectam o estado emocional, avaliou-se o desempenho de redes neurais convolucionais (CNN) associadas a três técnicas de análise áudio para classificação de emoções através da fala. A primeira técnica avaliada, transformada de Fourier de tempo curto (STFT), apresentou acurácia de 23% para o processo de treinamento realizado com 75 épocas. Ao utilizar essa abordagem o modelo foi incapaz de extrair padrões dos dados de entrada, resultando no processo de underfitting. A segunda técnica utilizada, o espectrograma Mel, reduziu significativamente o tempo de processamento total do modelo e apresentou acurácia de aproximadamente 100% para o conjunto de treinamento. No entanto, o aprendizado obtido na etapa de treinamento não foi observado para o conjunto de teste, com acurácia de 28%, indicando que o modelo se especializou nos dados, resultando no processo de overfitting. A última técnica utilizada, coeficientes cepstrais de frequência Mel (MFCC), apresentou resultados superiores as demais técnicas, com o menor tempo de processamento e melhor desempenho nas etapas de treinamento e teste, atingindo uma acurácia de 68%. Ao aumentar o número de amostras e camadas de processamento da rede CNN, foi possível aumentar o desempenho ainda mais, atingindo acurácia de 86%. Portanto, o classificador de emoções através da fala, baseado na combinação de redes neurais convolucionais e técnicas de áudio, apresentou o melhor desempenho ao utilizar como técnica de análise a MFCC.	pt
dc.description.abstract	Applications that detect the emotional state of patients present themselves as an alternative to deal with people experiencing great emotional burdens, such as patients with COVID-19 in isolation. These tools detect emotional state using non-invasive techniques such as sounds and speech produced by the patient. In order to evaluate the combination of audio analysis techniques and machine learning models that detect emotional state, the performance of convolutional neural networks (CNN) associated with three audio analysis techniques for classifying emotions through the speaks. The first technique evaluated, short-time Fourier transform (STFT), showed an accuracy of 23% for the training process performed with 75 epochs. When using this approach, the model was unable to extract patterns from the input data, resulting in the underfitting process. The second technique used, the Mel spectrogram, significantly reduced the total model processing time and presented an accuracy of approximately 100% for the training set. However, the learning obtained in the training stage was not observed for the test set, with an accuracy of 28%, indicating that the model specialized in the data, resulting in the overfitting process. The last technique used, Mel frequency cepstral coefficients (MFCC), presented superior results to the other techniques, with the shortest processing time and better performance in the training and test stages, reaching an accuracy of 68%. By increasing the number of samples and processing layers of the CNN network, it was possible to increase the performance even more, reaching an accuracy of 86%. Therefore, the emotion classifier through speech, based on the combination of convolutional neural networks and audio techniques, presented the best performance when using MFCC as an analysis technique.	en
dc.description.sponsorship	Não recebi financiamento
dc.identifier.uri	http://hdl.handle.net/11449/236555
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto
dc.subject	Aprendizado do computador	pt
dc.subject	Redes neurais (Computação)	pt
dc.subject	Inteligência artificial Aplicações médicas	pt
dc.subject	Neural networks (Computer science)	en
dc.subject	Artificial intelligence Medical applications	en
dc.title	Reconhecimento de emoções através da fala utilizando redes neurais	pt
dc.title.alternative	Recognition of emotions through speech using neural networks	en
dc.type	Trabalho de conclusão de curso	pt
dspace.entity.type	Publication
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Ciência e Tecnologia, Sorocaba	pt
unesp.undergraduate	Engenharia de Controle e Automação - ICTS	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: santos_vm_tcc_soro.pdf
Tamanho:: 1.87 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 2 de 2

Nome:: license.txt
Tamanho:: 2.43 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Nome:: santos_vm_autorizacao_soro.pdf
Tamanho:: 134.93 KB
Formato:: Adobe Portable Document Format
Descrição:

Coleções

Sorocaba - ICTS - Instituto de Ciência e Tecnologia

Publicação: Reconhecimento de emoções através da fala utilizando redes neurais

Arquivos

Pacote Original

Licença do Pacote

Coleções

Publicação:
Reconhecimento de emoções através da fala utilizando redes neurais