MuPe Life Stories Dataset: Spontaneous Speech in Brazilian Portuguese with a Case Study Evaluation on ASR Bias against Speakers Groups and Topic Modeling

Leal, Sidney; Candido, Arnaldo [UNESP]; Marcacini, Ricardo; Casanova, Edresson; Gonçalves, Odilon; Soares, Anderson; Lima, Rodrigo; Gris, Lucas; Aluísio, Sandra

MuPe Life Stories Dataset: Spontaneous Speech in Brazilian Portuguese with a Case Study Evaluation on ASR Bias against Speakers Groups and Topic Modeling

dc.contributor.author	Leal, Sidney
dc.contributor.author	Candido, Arnaldo [UNESP]
dc.contributor.author	Marcacini, Ricardo
dc.contributor.author	Casanova, Edresson
dc.contributor.author	Gonçalves, Odilon
dc.contributor.author	Soares, Anderson
dc.contributor.author	Lima, Rodrigo
dc.contributor.author	Gris, Lucas
dc.contributor.author	Aluísio, Sandra
dc.contributor.institution	Universidade de São Paulo (USP)
dc.contributor.institution	Universidade Estadual Paulista (UNESP)
dc.contributor.institution	NVIDIA Corporation
dc.contributor.institution	Museu da Pessoa
dc.contributor.institution	Centro de Excelência em Inteligência Artificial (CEIA-UFG)
dc.contributor.institution	Venturus - Centro de Inovação Tecnológica
dc.date.accessioned	2025-04-29T20:15:01Z
dc.date.issued	2025-01-01
dc.description.abstract	Recently, several public datasets for automatic speech recognition (ASR) in Brazilian Portuguese (BP) have been released, improving ASR systems performance. However, these datasets lack diversity in terms of age groups, regional accents, and education levels. In this paper, we present a new publicly available dataset consisting of 289 life story interviews (365 hours), featuring a broad range of speakers varying in age, education, and regional accents. First, we demonstrated the presence of bias in current BP ASR models concerning education levels and age groups. Second, we showed that our dataset helps mitigate these biases. Additionally, an ASR model trained on our dataset performed better during evaluation on a diverse test set. Finally, the ASR model trained with our dataset was extrinsically evaluated through a topic modeling task that utilized the automatically transcribed output.	en
dc.description.affiliation	University of São Paulo, SP
dc.description.affiliation	Universidade Estadual Paulista, SP
dc.description.affiliation	NVIDIA Corporation, SP
dc.description.affiliation	Museu da Pessoa, SP
dc.description.affiliation	Centro de Excelência em Inteligência Artificial (CEIA-UFG), GO
dc.description.affiliation	Venturus - Centro de Inovação Tecnológica, SP
dc.description.affiliationUnesp	Universidade Estadual Paulista, SP
dc.description.sponsorship	Stanford Artificial Intelligence Lab-Toyota Center For AI Research
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipId	FAPESP: #2019/07665-4)
dc.format.extent	6076-6087
dc.identifier.citation	Proceedings - International Conference on Computational Linguistics, COLING, v. Part F206484-1, p. 6076-6087.
dc.identifier.issn	2951-2093
dc.identifier.scopus	2-s2.0-85218503470
dc.identifier.uri	https://hdl.handle.net/11449/309288
dc.language.iso	eng
dc.relation.ispartof	Proceedings - International Conference on Computational Linguistics, COLING
dc.source	Scopus
dc.title	MuPe Life Stories Dataset: Spontaneous Speech in Brazilian Portuguese with a Case Study Evaluation on ASR Bias against Speakers Groups and Topic Modeling	en
dc.type	Trabalho apresentado em evento	pt
dspace.entity.type	Publication

Coleções

Artigos

MuPe Life Stories Dataset: Spontaneous Speech in Brazilian Portuguese with a Case Study Evaluation on ASR Bias against Speakers Groups and Topic Modeling

Arquivos

Coleções