Logotipo do repositório
 

Publicação:
3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation

dc.contributor.advisorMarana, Aparecido Nilceu [UNESP]
dc.contributor.authorManesco, João Renato Ribeiro
dc.contributor.coadvisorBerretti, Stefano
dc.date.accessioned2023-10-27T11:12:53Z
dc.date.available2023-10-27T11:12:53Z
dc.date.issued2023-08-30
dc.description.abstractEstimação de poses humanas em imagens monoculares é um importante e desafiador problema de Visão Computacional cujo objetivo é obter a forma do corpo de um indivíduo baseando-se em uma única imagem. Atualmente, métodos que empregam técnicas de deep learning destacam-se na tarefa de estimação de poses humanas 2D. Poses 2D podem ser utilizadas em um conjunto diverso e amplo de aplicações, de grande relevância para a sociedade. Entretanto, a utilização de poses 3D pode trazer resultados ainda mais precisos e robustos. Como rótulos referentes a poses 3D são difíceis de serem adquiridos e suas aquisições podem ser realizadas apenas em locais restritos, métodos totalmente convolucionais apresentaram desempenho insatisfatório para a tarefa. Uma estratégia para solucionar este problema consiste em utilizar estimadores de poses 2D, que já se encontram mais consolidados, para estimar poses 3D em duas etapas, a partir de poses 2D. Devido a restrições na aquisição das bases de dados, a melhora de performance desta estratégia só pode ser observada em ambientes controlados, desta forma, técnicas de adaptação de domínio podem ser aplicadas com o objetivo de melhorar a capacidade de generalização dos métodos por meio da inserção de novos ângulos de câmera e ações, advindos de domínios sintéticos. Neste trabalho, propomos um novo método, chamado de Domain Unified Approach (DUA), que visa resolver os problemas causados pela má representação de pose em cenários com domínios distintos, por meio da adição de três novos módulos ao estimador de poses: conversor de pose, estimador de incerteza e classificador de domínio. Treinado com um conjunto enorme de dados sintéticos (SURREAL) e aplicado a um conjunto de dados obtido de um cenário do mundo real (Human3.6M), nosso método DUA levou a uma redução de 44,1 mm no erro médio por posição de junta no espaço 3D, um resultado bastante competitivo com os resultados do estado da arte.pt
dc.description.abstractHuman pose estimation in monocular images is an important and challenging problem in Computer Vision. Currently, methods that employ deep learning techniques excel in the task of 2D human pose estimation. 2D poses can be used in a diverse and broad set of applications, of great relevance to society. However, the use of 3D poses can bring even more accurate and robust results. Since labels referring to 3D poses are difficult to acquire and can only be obtained in restricted scenarios, fully convolutional methods tend to perform poorly on the task. One strategy to solve this problem is to use 2D pose estimators, already well established in the literature, to estimate 3D poses in two steps using 2D pose inputs. Due to database acquisition constraints, the performance improvement of this strategy can only be observed in controlled environments, therefore domain adaptation techniques can be used to increase the generalization capability of the system by inserting new actions and camera angles from synthetic domains. In this work, we propose a novel method called Domain Unified Approach (DUA), aimed at solving pose misalignment problems on a cross-dataset scenario, through a combination of three modules on top of the pose estimator: pose converter, uncertainty estimator, and domain classifier. Trained on a huge synthetic dataset (SURREAL) and applied to a dataset taken from a real-world scenario (Human3.6M), our DUA method led to a 44.1mm reduction in mean error per joint position in 3D space, a result quite competitive with state-of-the-art results.en
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipIdFAPESP: 21/02028-6
dc.description.sponsorshipIdFAPESP: 22/07055-4
dc.identifier.citationManesco, J. R. 3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation. 74f. 2023 Dissertação (Mestrado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista, 2023
dc.identifier.lattes2238845011342979
dc.identifier.orcid0000-0002-1617-5142
dc.identifier.urihttps://hdl.handle.net/11449/251125
dc.language.isoeng
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso aberto
dc.subjectEstimação de Poses Humanas 3Dpt
dc.subjectPoses 2Dpt
dc.subjectAdaptação de Domíniopt
dc.subject3D Human Pose Estimationen
dc.subject2D Posesen
dc.subjectDomain Adaptationen
dc.subjectEstimação de Poses Humanas 3Dpt
dc.subjectPoses 2Dpt
dc.subjectAdaptação de Domíniopt
dc.title3D Human Pose Estimation Based on Monocular RGB Images and Domain Adaptation
dc.title.alternativeEstimação de Poses Humanas Tridimensionais Baseada em Imagens Monoculares Auxiliada por Adaptação de Domíniopt
dc.typeDissertação de mestradopt
dspace.entity.typePublication
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.embargoOnline
unesp.examinationboard.typeBanca pública
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2
unesp.knowledgeAreaComputação aplicada
unesp.researchAreaInteligência Computacional

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
manesco_jrr_me_bauru.pdf
Tamanho:
11.59 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.97 KB
Formato:
Item-specific license agreed upon to submission
Descrição: