Multimodal audio-visual information fusion using canonical-correlated Graph Neural Network for energy-efficient speech enhancement

Passos, Leandro A.; Papa, João Paulo [UNESP]; Del Ser, Javier; Hussain, Amir; Adeel, Ahsan

Publicação:
Multimodal audio-visual information fusion using canonical-correlated Graph Neural Network for energy-efficient speech enhancement

dc.contributor.author	Passos, Leandro A.
dc.contributor.author	Papa, João Paulo [UNESP]
dc.contributor.author	Del Ser, Javier
dc.contributor.author	Hussain, Amir
dc.contributor.author	Adeel, Ahsan
dc.contributor.institution	University of Wolverhampton
dc.contributor.institution	Universidade Estadual Paulista (UNESP)
dc.contributor.institution	Basque Research & Technology Alliance (BRTA)
dc.contributor.institution	University of the Basque Country (UPV/EHU)
dc.contributor.institution	Edinburgh Napier University
dc.contributor.institution	DeepCI
dc.date.accessioned	2023-07-29T13:21:14Z
dc.date.available	2023-07-29T13:21:14Z
dc.date.issued	2023-02-01
dc.description.abstract	This paper proposes a novel multimodal self-supervised architecture for energy-efficient audio-visual (AV) speech enhancement that integrates Graph Neural Networks with canonical correlation analysis (CCA-GNN). The proposed approach lays its foundations on a state-of-the-art CCA-GNN that learns representative embeddings by maximizing the correlation between pairs of augmented views of the same input while decorrelating disconnected features. The key idea of the conventional CCA-GNN involves discarding augmentation-variant information and preserving augmentation-invariant information while preventing capturing of redundant information. Our proposed AV CCA-GNN model deals with multimodal representation learning context. Specifically, our model improves contextual AV speech processing by maximizing canonical correlation from augmented views of the same channel and canonical correlation from audio and visual embeddings. In addition, it proposes a positional node encoding that considers a prior-frame sequence distance instead of a feature-space representation when computing the node's nearest neighbors, introducing temporal information in the embeddings through the neighborhood's connectivity. Experiments conducted on the benchmark ChiME3 dataset show that our proposed prior frame-based AV CCA-GNN ensures a better feature learning in the temporal context, leading to more energy-efficient speech reconstruction than state-of-the-art CCA-GNN and multilayer perceptron.	en
dc.description.affiliation	CMI Lab School of Engineering and Informatics University of Wolverhampton, England
dc.description.affiliation	Department of Computing São Paulo State University, Bauru
dc.description.affiliation	TECNALIA Basque Research & Technology Alliance (BRTA), Bizkaia
dc.description.affiliation	University of the Basque Country (UPV/EHU), Bizkaia
dc.description.affiliation	School of Computing Edinburgh Napier University, Scotland
dc.description.affiliation	DeepCI, Scotland
dc.description.affiliationUnesp	Department of Computing São Paulo State University, Bauru
dc.description.sponsorship	Ministerio de Ciencia e Innovación
dc.description.sponsorship	Eusko Jaurlaritza
dc.description.sponsorship	Engineering and Physical Sciences Research Council
dc.description.sponsorshipId	Engineering and Physical Sciences Research Council: EP/T021063/1
dc.format.extent	1-11
dc.identifier	http://dx.doi.org/10.1016/j.inffus.2022.09.006
dc.identifier.citation	Information Fusion, v. 90, p. 1-11.
dc.identifier.doi	10.1016/j.inffus.2022.09.006
dc.identifier.issn	1566-2535
dc.identifier.scopus	2-s2.0-85138109331
dc.identifier.uri	http://hdl.handle.net/11449/247622
dc.language.iso	eng
dc.relation.ispartof	Information Fusion
dc.source	Scopus
dc.subject	Canonical correlation analysis
dc.subject	Graph Neural Networks
dc.subject	Multimodal learning
dc.subject	Positional encoding
dc.subject	Prior frames neighborhood
dc.title	Multimodal audio-visual information fusion using canonical-correlated Graph Neural Network for energy-efficient speech enhancement	en
dc.type	Artigo
dspace.entity.type	Publication
unesp.author.orcid	0000-0003-3529-3109[1]
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru	pt
unesp.department	Computação - FC	pt

Coleções

Bauru - FC - Faculdade de Ciências

Publicação: Multimodal audio-visual information fusion using canonical-correlated Graph Neural Network for energy-efficient speech enhancement

Arquivos

Coleções

Publicação:
Multimodal audio-visual information fusion using canonical-correlated Graph Neural Network for energy-efficient speech enhancement