Logo do repositório

Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D

Carregando...
Imagem de Miniatura

Orientador

Marana, Aparecido Nilceu

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

O reconhecimento de ações humanas baseado em poses tem sido uma área de pesquisa ativa nas áreas de Visão Computacional e Aprendizado de Máquina. Apesar dos avanços já alcançados, ainda existem diversos obstáculos a serem superados, principalmente em relação à estimação das posições do corpo humano em vídeo, que pode ser muito desafiadora em cenários onde ocorrem obstruções ou sobreposições por outros indivíduos ou objetos. Para estes casos, seria interessante estimar as coordenadas do corpo humano em três dimensões, de forma a obter uma representação mais precisa. No entanto, a implementação, a usabilidade e a manutenção de sensores que captam profundidade podem não ser viáveis em muitas aplicações, nas quais a captura dos dados brutos se baseia apenas em câmeras RGB simples. Uma alternativa seria estimar as poses no espaço 3D a partir da triangulação de poses 2D capturadas a partir de dois ou mais ângulos de visão de maneira simultânea. Porém, essa solução é desafiadora quando os parâmetros da câmera são desconhecidos ou torna-se inexequível quando apenas uma visão de câmera está disponível. Este trabalho tem como objetivo propor uma abordagem para reconhecimento de ações humanas com base em poses 3D estimadas a partir de uma única câmera RGB monocular. A abordagem proposta utiliza o DUA, um método desenvolvido recentemente para estimar poses 3D a partir de poses 2D usando adaptação de domínio. Para extração de características e classificação, dois métodos foram avaliados neste trabalho: 1DCNN e GCN. Experimentos realizados em um subconjunto de ações humanas do conjunto de dados NTU RGB+D mostraram que a abordagem proposta, baseada em poses 3D, foi exitosa pois obteve uma acurácia maior do que ao se utilizar poses 2D. No cenário de ações limitadas, os resultados alcançaram 79.39% (X-Sub) e 78.81% (X-View ) com poses 2D, contra 80.97% (X-Sub) e 81.42% (X-View ) com poses 3D. Já quando considerado o conjunto completo de ações, o desempenho foi de 59.56% (X-Sub) e 67.66% (X-View ) em 2D, enquanto as poses 3D obtiveram 62.04% (X-Sub) e 66.68% (X-View ). A análise comparativa com métodos do estado da arte indicou que, embora a abordagem proposta apresente desempenho competitivo em cenários reduzidos, sua eficácia diminui ao lidar com conjuntos de ações mais amplos devido à expressividade limitada da topologia esquelética utilizada. A inclusão de variantes baseadas em movimento demonstrou potencial para enriquecer a representação espacial, resultando no melhor desempenho no subconjunto de 10 ações, validando a integração entre estimação de pose 3D monocular e modelos de reconhecimento baseados em grafos como alternativa viável para cenários sem sensores dedicados.

Resumo (inglês)

Human action recognition based on poses has been an active research area in the fields of Computer Vision and Machine Learning. Despite the advances already achieved, there are still several obstacles to overcome, mainly regarding the estimation of human body positions in video, which can be very challenging in scenarios with occlusions or overlaps caused by other individuals or objects. In such cases, it would be interesting to estimate the human body coordinates in three dimensions, in order to obtain a more accurate representation. However, the implementation, usability, and maintenance of sensors that capture depth may not be feasible in many applications, where data acquisition relies solely on simple RGB cameras. An alternative would be to estimate 3D poses through the triangulation of 2D poses captured simultaneously from two or more viewpoints. Nevertheless, this solution is challenging when camera parameters are unknown, or becomes impractical when only a single camera view is available. This work aims to propose an approach for human action recognition based on 3D poses estimated from a single monocular RGB camera. The proposed approach employs DUA, a recently developed method to estimate 3D poses from 2D poses using domain adaptation. For feature extraction and classification, two methods were evaluated in this work: 1DCNN and GCN. Experiments conducted on a subset of human actions from the NTU RGB+D dataset showed that the proposed approach, based on 3D poses, was successful since it achieved higher accuracy compared to using 2D poses. In the limited action scenario, the results reached 79.39% (X-Sub) and 78.81% (X-View) with 2D poses, against 80.97% (X-Sub) and 81.42% (X-View) with 3D poses. When considering the full set of actions, the performance was 59.56% (X-Sub) and 67.66% (X-View) for 2D poses, while 3D poses achieved 62.04% (X-Sub) and 66.68% (X-View). The comparative analysis with state-of-the-art methods indicated that, although the proposed approach presents competitive performance in reduced scenarios, its effectiveness decreases when dealing with broader sets of actions due to the limited expressiveness of the skeletal topology employed. The inclusion of motion-based variants demonstrated potential to enrich the spatial representation, resulting in the best performance in the 10-action subset, validating the integration between monocular 3D pose estimation and graph-based recognition models as a viable alternative for scenarios without dedicated sensors.

Descrição

Palavras-chave

Estimação de poses 2D, Reconhecimento de ações humanas, Visão computacional, Human action recognition, Computer vision

Idioma

Português

Citação

JANGUA, Daniel Ricardo dos Santos. Reconhecimento de ações humanas utilizando poses 3D estimadas a partir de poses 2D. 2025. Dissertação (Mestrado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

Itens relacionados

Financiadores

Unidades

Item type:Unidade,
Faculdade de Ciências
FC
Campus: Bauru


Departamentos

Cursos de graduação

Programas de pós-graduação