3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation

Manesco, João Renato Ribeiro [UNESP]

3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation

dc.contributor.advisor	Marana, Aparecido Nilceu [UNESP]
dc.contributor.author	Manesco, João Renato Ribeiro [UNESP]
dc.contributor.coadvisor	Berretti, Stefano
dc.date.accessioned	2023-10-27T11:12:53Z
dc.date.available	2023-10-27T11:12:53Z
dc.date.issued	2023-08-30
dc.description.abstract	Estimação de poses humanas em imagens monoculares é um importante e desafiador problema de Visão Computacional cujo objetivo é obter a forma do corpo de um indivíduo baseando-se em uma única imagem. Atualmente, métodos que empregam técnicas de deep learning destacam-se na tarefa de estimação de poses humanas 2D. Poses 2D podem ser utilizadas em um conjunto diverso e amplo de aplicações, de grande relevância para a sociedade. Entretanto, a utilização de poses 3D pode trazer resultados ainda mais precisos e robustos. Como rótulos referentes a poses 3D são difíceis de serem adquiridos e suas aquisições podem ser realizadas apenas em locais restritos, métodos totalmente convolucionais apresentaram desempenho insatisfatório para a tarefa. Uma estratégia para solucionar este problema consiste em utilizar estimadores de poses 2D, que já se encontram mais consolidados, para estimar poses 3D em duas etapas, a partir de poses 2D. Devido a restrições na aquisição das bases de dados, a melhora de performance desta estratégia só pode ser observada em ambientes controlados, desta forma, técnicas de adaptação de domínio podem ser aplicadas com o objetivo de melhorar a capacidade de generalização dos métodos por meio da inserção de novos ângulos de câmera e ações, advindos de domínios sintéticos. Neste trabalho, propomos um novo método, chamado de Domain Unified Approach (DUA), que visa resolver os problemas causados pela má representação de pose em cenários com domínios distintos, por meio da adição de três novos módulos ao estimador de poses: conversor de pose, estimador de incerteza e classificador de domínio. Treinado com um conjunto enorme de dados sintéticos (SURREAL) e aplicado a um conjunto de dados obtido de um cenário do mundo real (Human3.6M), nosso método DUA levou a uma redução de 44,1 mm no erro médio por posição de junta no espaço 3D, um resultado bastante competitivo com os resultados do estado da arte.	pt
dc.description.abstract	Human pose estimation in monocular images is an important and challenging problem in Computer Vision. Currently, methods that employ deep learning techniques excel in the task of 2D human pose estimation. 2D poses can be used in a diverse and broad set of applications, of great relevance to society. However, the use of 3D poses can bring even more accurate and robust results. Since labels referring to 3D poses are difficult to acquire and can only be obtained in restricted scenarios, fully convolutional methods tend to perform poorly on the task. One strategy to solve this problem is to use 2D pose estimators, already well established in the literature, to estimate 3D poses in two steps using 2D pose inputs. Due to database acquisition constraints, the performance improvement of this strategy can only be observed in controlled environments, therefore domain adaptation techniques can be used to increase the generalization capability of the system by inserting new actions and camera angles from synthetic domains. In this work, we propose a novel method called Domain Unified Approach (DUA), aimed at solving pose misalignment problems on a cross-dataset scenario, through a combination of three modules on top of the pose estimator: pose converter, uncertainty estimator, and domain classifier. Trained on a huge synthetic dataset (SURREAL) and applied to a dataset taken from a real-world scenario (Human3.6M), our DUA method led to a 44.1mm reduction in mean error per joint position in 3D space, a result quite competitive with state-of-the-art results.	en
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipId	FAPESP: 21/02028-6
dc.description.sponsorshipId	FAPESP: 22/07055-4
dc.identifier.capes	33004153073P2
dc.identifier.citation	Manesco, J. R. 3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation. 74f. 2023 Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista, 2023
dc.identifier.lattes	2238845011342979
dc.identifier.orcid	0000-0002-1617-5142
dc.identifier.uri	https://hdl.handle.net/11449/251125
dc.language.iso	eng
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Estimação de Poses Humanas 3D	pt
dc.subject	Poses 2D	pt
dc.subject	Adaptação de Domínio	pt
dc.subject	3D Human Pose Estimation	en
dc.subject	2D Poses	en
dc.subject	Domain Adaptation	en
dc.subject	Estimação de Poses Humanas 3D	pt
dc.subject	Poses 2D	pt
dc.subject	Adaptação de Domínio	pt
dc.title	3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation	pt
dc.title.alternative	Estimação de Poses Humanas Tridimensionais Baseada em Imagens Monoculares Auxiliada por Adaptação de Domínio	pt
dc.type	Dissertação de mestrado	pt
dspace.entity.type	Publication
relation.isOrgUnitOfPublication	aef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscovery	aef1f5df-a00f-45f4-b366-6926b097829b
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Computação - FC/FCT/IBILCE/IGCE	pt
unesp.knowledgeArea	Computação aplicada	pt
unesp.researchArea	Inteligência Computacional	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: manesco_jrr_me_bauru.pdf
Tamanho:: 11.59 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.97 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Bauru - FC - Faculdade de Ciências