Reconhecimento de ações humanas utilizando  poses 3D estimadas a partir de poses 2D

Jangua, Daniel Ricardo dos Santos [UNESP]

Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D

dc.contributor.advisor	Marana, Aparecido Nilceu [UNESP]
dc.contributor.author	Jangua, Daniel Ricardo dos Santos [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2025-10-17T17:47:34Z
dc.date.issued	2025-08-21
dc.description.abstract	O reconhecimento de ações humanas baseado em poses tem sido uma área de pesquisa ativa nas áreas de Visão Computacional e Aprendizado de Máquina. Apesar dos avanços já alcançados, ainda existem diversos obstáculos a serem superados, principalmente em relação à estimação das posições do corpo humano em vídeo, que pode ser muito desafiadora em cenários onde ocorrem obstruções ou sobreposições por outros indivíduos ou objetos. Para estes casos, seria interessante estimar as coordenadas do corpo humano em três dimensões, de forma a obter uma representação mais precisa. No entanto, a implementação, a usabilidade e a manutenção de sensores que captam profundidade podem não ser viáveis em muitas aplicações, nas quais a captura dos dados brutos se baseia apenas em câmeras RGB simples. Uma alternativa seria estimar as poses no espaço 3D a partir da triangulação de poses 2D capturadas a partir de dois ou mais ângulos de visão de maneira simultânea. Porém, essa solução é desafiadora quando os parâmetros da câmera são desconhecidos ou torna-se inexequível quando apenas uma visão de câmera está disponível. Este trabalho tem como objetivo propor uma abordagem para reconhecimento de ações humanas com base em poses 3D estimadas a partir de uma única câmera RGB monocular. A abordagem proposta utiliza o DUA, um método desenvolvido recentemente para estimar poses 3D a partir de poses 2D usando adaptação de domínio. Para extração de características e classificação, dois métodos foram avaliados neste trabalho: 1DCNN e GCN. Experimentos realizados em um subconjunto de ações humanas do conjunto de dados NTU RGB+D mostraram que a abordagem proposta, baseada em poses 3D, foi exitosa pois obteve uma acurácia maior do que ao se utilizar poses 2D. No cenário de ações limitadas, os resultados alcançaram 79.39% (X-Sub) e 78.81% (X-View ) com poses 2D, contra 80.97% (X-Sub) e 81.42% (X-View ) com poses 3D. Já quando considerado o conjunto completo de ações, o desempenho foi de 59.56% (X-Sub) e 67.66% (X-View ) em 2D, enquanto as poses 3D obtiveram 62.04% (X-Sub) e 66.68% (X-View ). A análise comparativa com métodos do estado da arte indicou que, embora a abordagem proposta apresente desempenho competitivo em cenários reduzidos, sua eficácia diminui ao lidar com conjuntos de ações mais amplos devido à expressividade limitada da topologia esquelética utilizada. A inclusão de variantes baseadas em movimento demonstrou potencial para enriquecer a representação espacial, resultando no melhor desempenho no subconjunto de 10 ações, validando a integração entre estimação de pose 3D monocular e modelos de reconhecimento baseados em grafos como alternativa viável para cenários sem sensores dedicados.	pt
dc.description.abstract	Human action recognition based on poses has been an active research area in the fields of Computer Vision and Machine Learning. Despite the advances already achieved, there are still several obstacles to overcome, mainly regarding the estimation of human body positions in video, which can be very challenging in scenarios with occlusions or overlaps caused by other individuals or objects. In such cases, it would be interesting to estimate the human body coordinates in three dimensions, in order to obtain a more accurate representation. However, the implementation, usability, and maintenance of sensors that capture depth may not be feasible in many applications, where data acquisition relies solely on simple RGB cameras. An alternative would be to estimate 3D poses through the triangulation of 2D poses captured simultaneously from two or more viewpoints. Nevertheless, this solution is challenging when camera parameters are unknown, or becomes impractical when only a single camera view is available. This work aims to propose an approach for human action recognition based on 3D poses estimated from a single monocular RGB camera. The proposed approach employs DUA, a recently developed method to estimate 3D poses from 2D poses using domain adaptation. For feature extraction and classification, two methods were evaluated in this work: 1DCNN and GCN. Experiments conducted on a subset of human actions from the NTU RGB+D dataset showed that the proposed approach, based on 3D poses, was successful since it achieved higher accuracy compared to using 2D poses. In the limited action scenario, the results reached 79.39% (X-Sub) and 78.81% (X-View) with 2D poses, against 80.97% (X-Sub) and 81.42% (X-View) with 3D poses. When considering the full set of actions, the performance was 59.56% (X-Sub) and 67.66% (X-View) for 2D poses, while 3D poses achieved 62.04% (X-Sub) and 66.68% (X-View). The comparative analysis with state-of-the-art methods indicated that, although the proposed approach presents competitive performance in reduced scenarios, its effectiveness decreases when dealing with broader sets of actions due to the limited expressiveness of the skeletal topology employed. The inclusion of motion-based variants demonstrated potential to enrich the spatial representation, resulting in the best performance in the 10-action subset, validating the integration between monocular 3D pose estimation and graph-based recognition models as a viable alternative for scenarios without dedicated sensors.	en
dc.identifier.capes	33004153073P2
dc.identifier.citation	JANGUA, Daniel Ricardo dos Santos. Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D. 2025. Dissertação (Mestrado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.lattes	1423509762623235
dc.identifier.orcid	0000-0001-6884-1373
dc.identifier.uri	https://hdl.handle.net/11449/314373
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Estimação de poses 2D	pt
dc.subject	Reconhecimento de ações humanas	pt
dc.subject	Visão computacional	pt
dc.subject	Human action recognition	en
dc.subject	Computer vision	en
dc.title	Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D	pt
dc.title.alternative	Human action recognition using 3D poses estimated from 2D poses	en
dc.type	Dissertação de mestrado	pt
dspace.entity.type	Publication
relation.isAuthorOfPublication	77006704-69ee-455f-8523-26aa2dc6e6e6
relation.isAuthorOfPublication.latestForDiscovery	77006704-69ee-455f-8523-26aa2dc6e6e6
relation.isOrgUnitOfPublication	aef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscovery	aef1f5df-a00f-45f4-b366-6926b097829b
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Computação - FC/FCT/IBILCE/IGCE	pt
unesp.knowledgeArea	Computação científica	pt
unesp.researchArea	Inteligência Computacional	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: jangua_drs_me_bauru.pdf
Tamanho:: 32.89 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.14 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Bauru - FC - Faculdade de Ciências