Publicação:
Reconhecimento de emoções através da fala utilizando redes neurais

dc.contributor.advisorMarques, Márcio Alexandre [UNESP]
dc.contributor.advisorMartins, Thiago Gonçalves dos Santos
dc.contributor.authorSantos, Vinicius Moraes
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2022-09-14T14:27:14Z
dc.date.available2022-09-14T14:27:14Z
dc.date.issued2022-08-23
dc.description.abstractAplicações que detectam o estado emocional de pacientes se apresentam como uma alternativa para lidar com pessoas passando por grandes cargas emocionais, como pacientes com COVID-19 em isolamento. Essas ferramentas detectam o estado emocional utilizando técnicas não invasivas como sons e fala produzidos pelo paciente. Com o objetivo de avaliar a união de técnicas de análise de áudio e modelos de aprendizado de máquina que detectam o estado emocional, avaliou-se o desempenho de redes neurais convolucionais (CNN) associadas a três técnicas de análise áudio para classificação de emoções através da fala. A primeira técnica avaliada, transformada de Fourier de tempo curto (STFT), apresentou acurácia de 23% para o processo de treinamento realizado com 75 épocas. Ao utilizar essa abordagem o modelo foi incapaz de extrair padrões dos dados de entrada, resultando no processo de underfitting. A segunda técnica utilizada, o espectrograma Mel, reduziu significativamente o tempo de processamento total do modelo e apresentou acurácia de aproximadamente 100% para o conjunto de treinamento. No entanto, o aprendizado obtido na etapa de treinamento não foi observado para o conjunto de teste, com acurácia de 28%, indicando que o modelo se especializou nos dados, resultando no processo de overfitting. A última técnica utilizada, coeficientes cepstrais de frequência Mel (MFCC), apresentou resultados superiores as demais técnicas, com o menor tempo de processamento e melhor desempenho nas etapas de treinamento e teste, atingindo uma acurácia de 68%. Ao aumentar o número de amostras e camadas de processamento da rede CNN, foi possível aumentar o desempenho ainda mais, atingindo acurácia de 86%. Portanto, o classificador de emoções através da fala, baseado na combinação de redes neurais convolucionais e técnicas de áudio, apresentou o melhor desempenho ao utilizar como técnica de análise a MFCC.pt
dc.description.abstractApplications that detect the emotional state of patients present themselves as an alternative to deal with people experiencing great emotional burdens, such as patients with COVID-19 in isolation. These tools detect emotional state using non-invasive techniques such as sounds and speech produced by the patient. In order to evaluate the combination of audio analysis techniques and machine learning models that detect emotional state, the performance of convolutional neural networks (CNN) associated with three audio analysis techniques for classifying emotions through the speaks. The first technique evaluated, short-time Fourier transform (STFT), showed an accuracy of 23% for the training process performed with 75 epochs. When using this approach, the model was unable to extract patterns from the input data, resulting in the underfitting process. The second technique used, the Mel spectrogram, significantly reduced the total model processing time and presented an accuracy of approximately 100% for the training set. However, the learning obtained in the training stage was not observed for the test set, with an accuracy of 28%, indicating that the model specialized in the data, resulting in the overfitting process. The last technique used, Mel frequency cepstral coefficients (MFCC), presented superior results to the other techniques, with the shortest processing time and better performance in the training and test stages, reaching an accuracy of 68%. By increasing the number of samples and processing layers of the CNN network, it was possible to increase the performance even more, reaching an accuracy of 86%. Therefore, the emotion classifier through speech, based on the combination of convolutional neural networks and audio techniques, presented the best performance when using MFCC as an analysis technique.en
dc.description.sponsorshipNão recebi financiamento
dc.identifier.urihttp://hdl.handle.net/11449/236555
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectAprendizado do computadorpt
dc.subjectRedes neurais (Computação)pt
dc.subjectInteligência artificial Aplicações médicaspt
dc.subjectNeural networks (Computer science)en
dc.subjectArtificial intelligence Medical applicationsen
dc.titleReconhecimento de emoções através da fala utilizando redes neuraispt
dc.title.alternativeRecognition of emotions through speech using neural networksen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Ciência e Tecnologia, Sorocabapt
unesp.undergraduateEngenharia de Controle e Automação - ICTSpt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
santos_vm_tcc_soro.pdf
Tamanho:
1.87 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 2 de 2
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.43 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Nenhuma Miniatura disponível
Nome:
santos_vm_autorizacao_soro.pdf
Tamanho:
134.93 KB
Formato:
Adobe Portable Document Format
Descrição: