Multiple voice disorders in the same individual: Investigating handcrafted features, multi-label classification algorithms, and base-learners

Barbon, Sylvio; Guido, Rodrigo Capobianco [UNESP]; Aguiar, Gabriel Jonas; Santana, Everton José; Proença, Mario Lemes; Patil, Hemant A.

doi:10.1016/j.specom.2023.102952

Multiple voice disorders in the same individual: Investigating handcrafted features, multi-label classification algorithms, and base-learners

dc.contributor.author	Barbon, Sylvio
dc.contributor.author	Guido, Rodrigo Capobianco [UNESP]
dc.contributor.author	Aguiar, Gabriel Jonas
dc.contributor.author	Santana, Everton José
dc.contributor.author	Proença, Mario Lemes
dc.contributor.author	Patil, Hemant A.
dc.contributor.institution	Universidade Estadual de Londrina (UEL)
dc.contributor.institution	Universidade Estadual Paulista (UNESP)
dc.contributor.institution	Dhirubhai Ambani Institute of Information and Communication Technology (DA-IICT)
dc.date.accessioned	2025-04-29T19:34:50Z
dc.date.issued	2023-07-01
dc.description.abstract	Non-invasive acoustic analyses of voice disorders have been at the forefront of current biomedical research. Usual strategies, essentially based on machine learning (ML) algorithms, commonly classify a subject as being either healthy or pathologically-affected. Nevertheless, the latter state is not always a result of a sole laryngeal issue, i.e., multiple disorders might exist, demanding multi-label classification procedures for effective diagnoses. Consequently, the objective of this paper is to investigate the application of five multi-label classification methods based on problem transformation to play the role of base-learners, i.e., Label Powerset, Binary Relevance, Nested Stacking, Classifier Chains, and Dependent Binary Relevance with Random Forest (RF) and Support Vector Machine (SVM), in addition to a Deep Neural Network (DNN) from an algorithm adaptation method, to detect multiple voice disorders, i.e., Dysphonia, Laryngitis, Reinke's Edema, Vox Senilis, and Central Laryngeal Motion Disorder. Receiving as input three handcrafted features, i.e., signal energy (SE), zero-crossing rates (ZCRs), and signal entropy (SH), which allow for interpretable descriptors in terms of speech analysis, production, and perception, we observed that the DNN-based approach powered with SE-based feature vectors presented the best values of F1-score among the tested methods, i.e., 0.943, as the averaged value from all the balancing scenarios, under Saarbrücken Voice Database (SVD) and considering 20% of balancing rate with Synthetic Minority Over-sampling Technique (SMOTE). Finally, our findings of most false negatives for laryngitis may explain the reason why its detection is a serious issue in speech technology. The results we report provide an original contribution, allowing for the consistent detection of multiple speech pathologies and advancing the state-of-the-art in the field of handcrafted acoustic-based non-invasive diagnosis of voice disorders.	en
dc.description.affiliation	Department of Engineering and Architecture University of Trieste, Piazzale Europa, 1 - 34127, FVG
dc.description.affiliation	Instituto de Biociências Letras e Ciências Exatas Unesp - Univ Estadual Paulista (São Paulo State University), Rua Cristóvão Colombo 2265, Jd Nazareth, SP
dc.description.affiliation	Computer Science Department Londrina State University, Rodovia Celso Garcia Cid/PR 445, km 380, Campus Universitário, PR
dc.description.affiliation	Speech Research Lab Dhirubhai Ambani Institute of Information and Communication Technology (DA-IICT)
dc.description.affiliationUnesp	Instituto de Biociências Letras e Ciências Exatas Unesp - Univ Estadual Paulista (São Paulo State University), Rua Cristóvão Colombo 2265, Jd Nazareth, SP
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.description.sponsorshipId	CAPES: 001
dc.description.sponsorshipId	FAPESP: 2021/12407-4
dc.description.sponsorshipId	CNPq: 303854/2022-7
dc.description.sponsorshipId	CNPq: 310668/2019-0
dc.description.sponsorshipId	CNPq: 420562/2018-4
dc.identifier	http://dx.doi.org/10.1016/j.specom.2023.102952
dc.identifier.citation	Speech Communication, v. 152.
dc.identifier.doi	10.1016/j.specom.2023.102952
dc.identifier.issn	0167-6393
dc.identifier.scopus	2-s2.0-85163815792
dc.identifier.uri	https://hdl.handle.net/11449/304406
dc.language.iso	eng
dc.relation.ispartof	Speech Communication
dc.source	Scopus
dc.subject	Deep learning
dc.subject	Handcrafted feature extraction
dc.subject	Multi-label classification
dc.subject	Multiple voice disorders
dc.title	Multiple voice disorders in the same individual: Investigating handcrafted features, multi-label classification algorithms, and base-learners	en
dc.type	Artigo	pt
dspace.entity.type	Publication
unesp.author.orcid	0000-0002-0924-8024[2]
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto	pt

Coleções

São José do Rio Preto - IBILCE - Instituto de Biociências, Letras e Ciências Exatas

Multiple voice disorders in the same individual: Investigating handcrafted features, multi-label classification algorithms, and base-learners

Arquivos

Coleções