Publicação: 3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation
Carregando...
Arquivos
Data
Autores
Orientador
Marana, Aparecido Nilceu 

Coorientador
Berretti, Stefano
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Estimação de poses humanas em imagens monoculares é um importante e desafiador problema de Visão Computacional cujo objetivo é obter a forma do corpo de um indivíduo baseando-se em uma única imagem. Atualmente, métodos que empregam técnicas de deep learning destacam-se na tarefa de estimação de poses humanas 2D. Poses 2D podem ser utilizadas em um conjunto diverso e amplo de aplicações, de grande relevância para a sociedade. Entretanto, a utilização de poses 3D pode trazer resultados ainda mais precisos e robustos. Como rótulos referentes a poses 3D são difíceis de serem adquiridos e suas aquisições podem ser realizadas apenas em locais restritos, métodos totalmente convolucionais apresentaram desempenho insatisfatório para a tarefa. Uma estratégia para solucionar este problema consiste em utilizar estimadores de poses 2D, que já se encontram mais consolidados, para estimar poses 3D em duas etapas, a partir de poses 2D. Devido a restrições na aquisição das bases de dados, a melhora de performance desta estratégia só pode ser observada em ambientes controlados, desta forma, técnicas de adaptação de domínio podem ser aplicadas com o objetivo de melhorar a capacidade de generalização dos métodos por meio da inserção de novos ângulos de câmera e ações, advindos de domínios sintéticos. Neste trabalho, propomos um novo método, chamado de Domain Unified Approach (DUA), que visa resolver os problemas causados pela má representação de pose em cenários com domínios distintos, por meio da adição de três novos módulos ao estimador de poses: conversor de pose, estimador de incerteza e classificador de domínio. Treinado com um conjunto enorme de dados sintéticos (SURREAL) e aplicado a um conjunto de dados obtido de um cenário do mundo real (Human3.6M), nosso método DUA levou a uma redução de 44,1 mm no erro médio por posição de junta no espaço 3D, um resultado bastante competitivo com os resultados do estado da arte.
Resumo (inglês)
Human pose estimation in monocular images is an important and challenging problem in Computer Vision. Currently, methods that employ deep learning techniques excel in the task of 2D human pose estimation. 2D poses can be used in a diverse and broad set of applications, of great relevance to society. However, the use of 3D poses can bring even more accurate and robust results. Since labels referring to 3D poses are difficult to acquire and can only be obtained in restricted scenarios, fully convolutional methods tend to perform poorly on the task. One strategy to solve this problem is to use 2D pose estimators, already well established in the literature, to estimate 3D poses in two steps using 2D pose inputs. Due to database acquisition constraints, the performance improvement of this strategy can only be observed in controlled environments, therefore domain adaptation techniques can be used to increase the generalization capability of the system by inserting new actions and camera angles from synthetic domains. In this work, we propose a novel method called Domain Unified Approach (DUA), aimed at solving pose misalignment problems on a cross-dataset scenario, through a combination of three modules on top of the pose estimator: pose converter, uncertainty estimator, and domain classifier. Trained on a huge synthetic dataset (SURREAL) and applied to a dataset taken from a real-world scenario (Human3.6M), our DUA method led to a 44.1mm reduction in mean error per joint position in 3D space, a result quite competitive with state-of-the-art results.
Descrição
Palavras-chave
Estimação de Poses Humanas 3D, Poses 2D, Adaptação de Domínio, 3D Human Pose Estimation, 2D Poses, Domain Adaptation, Estimação de Poses Humanas 3D, Poses 2D, Adaptação de Domínio
Idioma
Inglês
Como citar
Manesco, J. R. 3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation. 74f. 2023 Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista, 2023