Máquinas de Boltzmann em profundidade para reconhecimento de eventos em vídeos

Carregando...
Imagem de Miniatura

Data

2021-02-25

Autores

Roder, Mateus

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas.
In the past decade, the exponential growth of data has supported the development of a wide range of algorithms based on machine learning, enabling its uses in daily basis activities. Besides, such improvement is partially explained due to the advent of deep learning techniques, i.e., the composition of simple architectures that generate complex and robust models. Although both factors produce excellent results, they also have disadvantages concerning the learning process, since training complex models in large data sets are computationally expensive and time-consuming. This problem becomes evident when it comes to the video analysis and processing, as recognition of actions or events, since sequences of images (frames) are considered and usually generate a single output. Another relevant problem concerns the low number of high-level events classification databases, making it difficult to develop some conceptual aspects. Some studies consider transferring learning or a domain adapting, that is, approaches that map knowledge from one domain to another, to lighten the training load as most of them operate in individual blocks or small blocks of frames. Therefore, this work proposes a new approach to map knowledge between domains, from action recognition to event recognition/classification using energy-based models as a mapping function. Also, it is proposed a modification in the video processing for the employed models, capable of processing all frames simultaneously by carrying spatial and temporal information during the learning process, denoted as Somatório processing. The experimental results conducted over two public video data sets, the UCF-101 and the HMDB-51, portrait the effectiveness of the domain adaptation approach and the proposed Somatório models, reducing the computational load when compared to the standard energy-based models, such as Restricted Boltzmann Machines, Deep Belief Networks, and Deep Boltzmann Machines.

Descrição

Palavras-chave

Aprendizado em profundidade, Máquinas de Boltzmann Restritas, Classificação de eventos, Vídeos, Deep learning, Restricted boltzmann machines, Event classification

Como citar