Logo do repositório

Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D

dc.contributor.advisorMarana, Aparecido Nilceu [UNESP]
dc.contributor.authorJangua, Daniel Ricardo dos Santos [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-10-17T17:47:34Z
dc.date.issued2025-08-21
dc.description.abstractO reconhecimento de ações humanas baseado em poses tem sido uma área de pesquisa ativa nas áreas de Visão Computacional e Aprendizado de Máquina. Apesar dos avanços já alcançados, ainda existem diversos obstáculos a serem superados, principalmente em relação à estimação das posições do corpo humano em vídeo, que pode ser muito desafiadora em cenários onde ocorrem obstruções ou sobreposições por outros indivíduos ou objetos. Para estes casos, seria interessante estimar as coordenadas do corpo humano em três dimensões, de forma a obter uma representação mais precisa. No entanto, a implementação, a usabilidade e a manutenção de sensores que captam profundidade podem não ser viáveis em muitas aplicações, nas quais a captura dos dados brutos se baseia apenas em câmeras RGB simples. Uma alternativa seria estimar as poses no espaço 3D a partir da triangulação de poses 2D capturadas a partir de dois ou mais ângulos de visão de maneira simultânea. Porém, essa solução é desafiadora quando os parâmetros da câmera são desconhecidos ou torna-se inexequível quando apenas uma visão de câmera está disponível. Este trabalho tem como objetivo propor uma abordagem para reconhecimento de ações humanas com base em poses 3D estimadas a partir de uma única câmera RGB monocular. A abordagem proposta utiliza o DUA, um método desenvolvido recentemente para estimar poses 3D a partir de poses 2D usando adaptação de domínio. Para extração de características e classificação, dois métodos foram avaliados neste trabalho: 1DCNN e GCN. Experimentos realizados em um subconjunto de ações humanas do conjunto de dados NTU RGB+D mostraram que a abordagem proposta, baseada em poses 3D, foi exitosa pois obteve uma acurácia maior do que ao se utilizar poses 2D. No cenário de ações limitadas, os resultados alcançaram 79.39% (X-Sub) e 78.81% (X-View ) com poses 2D, contra 80.97% (X-Sub) e 81.42% (X-View ) com poses 3D. Já quando considerado o conjunto completo de ações, o desempenho foi de 59.56% (X-Sub) e 67.66% (X-View ) em 2D, enquanto as poses 3D obtiveram 62.04% (X-Sub) e 66.68% (X-View ). A análise comparativa com métodos do estado da arte indicou que, embora a abordagem proposta apresente desempenho competitivo em cenários reduzidos, sua eficácia diminui ao lidar com conjuntos de ações mais amplos devido à expressividade limitada da topologia esquelética utilizada. A inclusão de variantes baseadas em movimento demonstrou potencial para enriquecer a representação espacial, resultando no melhor desempenho no subconjunto de 10 ações, validando a integração entre estimação de pose 3D monocular e modelos de reconhecimento baseados em grafos como alternativa viável para cenários sem sensores dedicados.pt
dc.description.abstractHuman action recognition based on poses has been an active research area in the fields of Computer Vision and Machine Learning. Despite the advances already achieved, there are still several obstacles to overcome, mainly regarding the estimation of human body positions in video, which can be very challenging in scenarios with occlusions or overlaps caused by other individuals or objects. In such cases, it would be interesting to estimate the human body coordinates in three dimensions, in order to obtain a more accurate representation. However, the implementation, usability, and maintenance of sensors that capture depth may not be feasible in many applications, where data acquisition relies solely on simple RGB cameras. An alternative would be to estimate 3D poses through the triangulation of 2D poses captured simultaneously from two or more viewpoints. Nevertheless, this solution is challenging when camera parameters are unknown, or becomes impractical when only a single camera view is available. This work aims to propose an approach for human action recognition based on 3D poses estimated from a single monocular RGB camera. The proposed approach employs DUA, a recently developed method to estimate 3D poses from 2D poses using domain adaptation. For feature extraction and classification, two methods were evaluated in this work: 1DCNN and GCN. Experiments conducted on a subset of human actions from the NTU RGB+D dataset showed that the proposed approach, based on 3D poses, was successful since it achieved higher accuracy compared to using 2D poses. In the limited action scenario, the results reached 79.39% (X-Sub) and 78.81% (X-View) with 2D poses, against 80.97% (X-Sub) and 81.42% (X-View) with 3D poses. When considering the full set of actions, the performance was 59.56% (X-Sub) and 67.66% (X-View) for 2D poses, while 3D poses achieved 62.04% (X-Sub) and 66.68% (X-View). The comparative analysis with state-of-the-art methods indicated that, although the proposed approach presents competitive performance in reduced scenarios, its effectiveness decreases when dealing with broader sets of actions due to the limited expressiveness of the skeletal topology employed. The inclusion of motion-based variants demonstrated potential to enrich the spatial representation, resulting in the best performance in the 10-action subset, validating the integration between monocular 3D pose estimation and graph-based recognition models as a viable alternative for scenarios without dedicated sensors.en
dc.identifier.capes33004153073P2
dc.identifier.citationJANGUA, Daniel Ricardo dos Santos. Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D. 2025. Dissertação (Mestrado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.lattes1423509762623235
dc.identifier.orcid0000-0001-6884-1373
dc.identifier.urihttps://hdl.handle.net/11449/314373
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectEstimação de poses 2Dpt
dc.subjectReconhecimento de ações humanaspt
dc.subjectVisão computacionalpt
dc.subjectHuman action recognitionen
dc.subjectComputer visionen
dc.titleReconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2Dpt
dc.title.alternativeHuman action recognition using 3D poses estimated from 2D posesen
dc.typeDissertação de mestradopt
dspace.entity.typePublication
relation.isAuthorOfPublication77006704-69ee-455f-8523-26aa2dc6e6e6
relation.isAuthorOfPublication.latestForDiscovery77006704-69ee-455f-8523-26aa2dc6e6e6
relation.isOrgUnitOfPublicationaef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscoveryaef1f5df-a00f-45f4-b366-6926b097829b
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCEpt
unesp.knowledgeAreaComputação científicapt
unesp.researchAreaInteligência Computacionalpt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
jangua_drs_me_bauru.pdf
Tamanho:
32.89 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição: