UNIVERSIDADE ESTADUAL PAULISTA
"JÚLIO DE MESQUITA FILHO"
Faculdade de Ciências
Câmpus Bauru
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
MÁQUINAS DE BOLTZMANN EM
PROFUNDIDADE PARA RECONHECIMENTO
DE EVENTOS EM VÍDEOS
BAURU
2021
R688m
Roder, Mateus
Máquinas de Boltzmann em Profundidade para Reconhecimento de
Eventos em Vídeos / Mateus Roder. -- Bauru, 2021
63 p. : il., tabs.
Dissertação (mestrado) - Universidade Estadual Paulista (Unesp),
Faculdade de Ciências, Bauru
Orientador: João Paulo Papa
Coorientador: André Luis Debiaso Rossi
1. Inteligência artificial. 2. Aprendizado em Profundidade. 3.
Máquinas de Boltzmann. I. Título.
Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de
Ciências, Bauru. Dados fornecidos pelo autor(a).
Essa ficha não pode ser modificada.
Mateus Roder
Máquinas de Boltzmann em Profundidade para
Reconhecimento de Eventos em Vídeos
Dissertação de mestrado para o curso de Pós-
Graduação em Ciência da Computação da Uni-
versidade Estadual Paulista “Júlio de Mesquita
Filho”, Faculdade de Ciências, Câmpus Bauru.
Financiadora: FAPESP - Proc. 2019/07825-1
Banca Examinadora
Prof. Dr. João Paulo Papa
Orientador
Prof. Dr. Jurandy Gomes de Almeida Junior
Prof. Dr. Antonio Carlos Sementille
Bauru, 25 de fevereiro de 2021.
Agradecimentos
Agradeço à Deus pelas oportunidades e pessoas que colocou em minha vida, aos meus
pais, à Amanda, minha namorada, e meus amigos, que sempre estiveram ao meu lado e
torceram por mim.
À FAPESP, que aceitou financiar este trabalho, e à Unesp, instituição que faz parte da
minha formação acadêmica e pessoal desde a graduação.
A todos os professores que tive contato neste período de muita agregação de conhe-
cimento, e especialmente ao meu orientador, e amigo, professor João Paulo Papa, que me
acolheu e auxiliou muito nesta caminhada. Também ao meu co-orientador, e amigo, professor
André Luis Debiaso Rossi, que está presente em minha formação há anos.
Aos meus amigos do laboratório Recogna, que me acolheram e fizeram parte de inúmeros
momentos, nestes dois anos de estudos. Especialmente, agradeço ao Gustavo Rosa, Leandro
Passos, Luis Félix, Clayton Pereira, Douglas Rodrigues, e Claudio Santos, pelas parcerias e
amizades construídas.
“Para criaturas pequenas como nós, a vastidão só é suportável por meio do amor.”
(Carl Edward Sagan)
Resumo
Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma
vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos
em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada
pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arqui-
teturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado
em profundidade produzam resultados excelentes, elas também apresentam desvantagens em
relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes
conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata
de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que
sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída.
Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas
tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de
algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou
a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio
para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos
individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova
abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o
reconhecimento/classificação de eventos utilizando modelos baseados em energia como função
de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os
modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente,
carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o
qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em
dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da
abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando
uma redução do custo computacional em comparação aos modelos tradicionais baseados em
energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas
de Boltzmann Profundas.
Palavras-chave: Aprendizado em profundidade. Máquinas de Boltzmann Restritas. Classifica-
ção de eventos. Vídeos.
Abstract
In the past decade, the exponential growth of data has supported the development of a wide
range of algorithms based on machine learning, enabling its uses in daily basis activities. Besides,
such improvement is partially explained due to the advent of deep learning techniques, i.e.,
the composition of simple architectures that generate complex and robust models. Although
both factors produce excellent results, they also have disadvantages concerning the learning
process, since training complex models in large data sets are computationally expensive and
time-consuming. This problem becomes evident when it comes to the video analysis and pro-
cessing, as recognition of actions or events, since sequences of images (frames) are considered
and usually generate a single output. Another relevant problem concerns the low number of
high-level events classification databases, making it difficult to develop some conceptual aspects.
Some studies consider transferring learning or a domain adapting, that is, approaches that map
knowledge from one domain to another, to lighten the training load as most of them operate
in individual blocks or small blocks of frames. Therefore, this work proposes a new approach to
map knowledge between domains, from action recognition to event recognition/classification
using energy-based models as a mapping function. Also, it is proposed a modification in the
video processing for the employed models, capable of processing all frames simultaneously by
carrying spatial and temporal information during the learning process, denoted as Somatório
processing. The experimental results conducted over two public video data sets, the UCF-101
and the HMDB-51, portrait the effectiveness of the domain adaptation approach and the
proposed Somatório models, reducing the computational load when compared to the standard
energy-based models, such as Restricted Boltzmann Machines, Deep Belief Networks, and
Deep Boltzmann Machines.
Key-words: Deep Learning. Restricted Boltzmann Machines. Event classification. Videos.
Lista de ilustrações
Figura 1 – Complexidade hierárquica no domínio de vídeos. . . . . . . . . . . . . . . 18
Figura 2 – Arquitetura de uma RBM. . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 3 – Ilustração do método baseado em divergência contrastiva. . . . . . . . . . 27
Figura 4 – Arquitetura padrão de uma DBN. . . . . . . . . . . . . . . . . . . . . . . 30
Figura 5 – Arquitetura padrão de uma DBM. . . . . . . . . . . . . . . . . . . . . . . 31
Figura 6 – Representação espacial dos domínios de vídeos e suas relações. A: Ações,
como correr. M: Movimentação, por exemplo dos braços e pernas. I:
Interação, por exemplo entre pessoa e o ambiente. E : Eventos, como a
movimentação corporal composta pela movimentação de braços e pernas
interagindo com o ambiente em uma corrida. . . . . . . . . . . . . . . . . 35
Figura 7 – Processo de agregação de frames para a abordagem Somatório. . . . . . . 37
Figura 8 – Exemplos de frames que compõe os eventos de alto nível para o banco
UCF-101. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Figura 9 – Exemplos de frames que compõe os eventos de alto nível para o banco
HMDB-51. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 10 – DBM com duas camadas ocultas e duas FC. . . . . . . . . . . . . . . . . 42
Figura 11 – Primeira camada de pesos de DBNs considerando os modelos (a) S-DBN e
(b) DBN com 2.000 neurônios ocultos. . . . . . . . . . . . . . . . . . . . 45
Figura 12 – Primeira camada de pesos de DBNs considerando os modelos (a) S-DBN e
(b) DBN com 4.000 neurônios ocultos. . . . . . . . . . . . . . . . . . . . 46
Figura 13 – Primeira camada de pesos de DBMs considerando os modelos (a) S-DBM e
(b) DBM com 2.000 neurônios ocultos. . . . . . . . . . . . . . . . . . . . 47
Figura 14 – Primeira camada de pesos de DBMs considerando os modelos (a) S-DBM e
(b) DBM com 4.000 neurônios ocultos. . . . . . . . . . . . . . . . . . . . 48
Lista de tabelas
Tabela 1 – Principais bancos de dados. . . . . . . . . . . . . . . . . . . . . . . . . . 20
Tabela 2 – Configuração experimental dos modelos empregados. . . . . . . . . . . . . 41
Tabela 3 – Acurácias médias (%) e tempo de execução (minutos) para o banco UCF-101. 49
Tabela 4 – Acurácias médias (%) e tempo de execução (minutos) para o banco HMDB-51. 51
Lista de abreviaturas e siglas
AM Aprendizado de Máquina
BN Bayesian Networks
BRBM Bernoulli Restricted Boltzmann Machines
CD Contrastive Divergence
CNNs Convolutional Neural Networks
CRF Conditional Random Fields
DBM Deep Boltzmann Machines
DBN Deep Belief Networks
DL Deep Learning
DS Source Domain
DT Target Domain
FC Fully-Connected
HMM Hidden Markov Models
MCMC Markov Chain Monte Carlo
RBM Restricted Boltzmann Machines
S-DBN Somatório Deep Belief Networks
SGD Stochastic Gradient Descent
S-RBM Somatório Restricted Boltzmann Machines
TA Transferência de Aprendizado
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Hipótese de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Estrutura da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 DOMÍNIO DE VÍDEOS . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Bancos de Dados Públicos . . . . . . . . . . . . . . . . . . . . . . . . 19
3 APRENDIZADO EM PROFUNDIDADE . . . . . . . . . . . . . . . 22
3.1 Modelos Baseados em Energia . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Máquinas de Boltzmann Restritas . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1.1 O Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1.2 Divergência Contrastiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1.3 RBMs para Dados Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Redes de Crença em Profundidade . . . . . . . . . . . . . . . . . . . . . . 28
3.1.3 Máquinas de Boltzmann em Profundidade . . . . . . . . . . . . . . . . . . 30
4 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Adaptação de Domínio . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Abordagem Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1 Bancos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 Configuração Experimental . . . . . . . . . . . . . . . . . . . . . . . . 40
6 RESULTADOS EXPERIMENTAIS . . . . . . . . . . . . . . . . . . . 44
6.1 Aprendizado Não Supervisionado . . . . . . . . . . . . . . . . . . . . . 44
6.2 Avaliação dos Modelos para Classificação de Eventos de Alto Nível 46
6.2.1 Banco de Dados UCF-101 . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2.2 Banco de Dados HMDB-51 . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 TRABALHOS DESENVOLVIDOS . . . . . . . . . . . . . . . . . . . 55
8.1 Learnergy: Energy-based Machine Learners . . . . . . . . . . . . . . 55
8.2 Intestinal Parasites Classification Using Deep Belief Networks . . . 55
8.3 A Layer-Wise Information Reinforcement Approach to Improve Le-
arning in Deep Belief Networks . . . . . . . . . . . . . . . . . . . . . 56
8.4 Fine-Tuning Temperatures in Restricted Boltzmann Machines Using
Meta-Heuristic Optimization . . . . . . . . . . . . . . . . . . . . . . . 57
8.5 Harnessing Particle Swarm Optimization Through Relativistic Velo-
city . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.6 Energy-based Dropout in Restricted Boltzmann Machines: Why not
go Random . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.7 On the Assessment of Nature-Inspired Meta-Heuristic Optimization
Techniques to Fine-Tune Deep Belief Networks . . . . . . . . . . . . 59
8.8 Enhancing Anomaly Detection Through Restricted Boltzmann Ma-
chine Features Projection . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.9 MaxDropout: Deep Neural Network Regularization Based on Ma-
ximum Output Values . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1 Introdução
Frente aos grandes avanços tecnológicos, a sociedade encontra-se sob a nova era da
informação, fortemente apoiada pela 4a. Revolução Industrial, caracterizada pela elevada conec-
tividade entre sistemas ciber-físicos em ambientes produtivos industriais. Concomitantemente,
criam-se e agregam-se diferentes tecnologias para a integração e ampliação do uso destas na
sociedade, como sistemas de visão computacional baseados em inteligência artificial, frente à
grande quantidade de dados gerada pelo aumento da conectividade entre os mais diferentes
dispositivos (LI; HOU; WU, 2017).
No âmbito da visão computacional, busca-se a produção de representações de alto
nível e intrínsecas do mundo real, de forma que essas características possibilitem a execução de
tarefas como detecção e/ou classificação de objetos de maneira satisfatória por técnicas de
aprendizado de máquina (BISHOP, 1995). Uma vez que o mundo real não é tão simples de ser
parametrizado, tais tarefas tornam-se mais complexas quando existem variações ambientais
de luminosidade, diferentes perspectivas e/ou planos de captura de imagens, variações na
resolução, entre outros (LECUN; KAVUKCUOGLU; FARABET, 2010).
Tratando-se das abordagens tradicionais de aprendizado de máquina estas procuram
resolver majoritariamente problemas de classificação a partir da extração de características de
imagens, e posteriormente, utilizá-las para treinar um algoritmo de AM.
Entretanto, técnicas de aprendizado em profundidade (Deep Learning - DL) ganharam
grande destaque e foco de estudo da comunidade científica (LECUN et al., 1998; HINTON;
OSINDERO; TEH, 2006; SALAKHUTDINOV; HINTON, 2012). Essas técnicas baseiam-se no
aprendizado hierárquico de características, similar ao processamento visual humano, por meio
de abstrações em diferentes níveis (camadas) que auxiliam na extração de características.
Atualmente, algumas das principais técnicas de DL utilizadas são as Redes Neurais Con-
volucionais, do inglês Convolutional Neural Networks (CNNs) (LECUN et al., 1998), e Máquinas
de Boltzmann Profundas, do inglês Deep Boltzmann Machines (DBMs) (SALAKHUTDINOV;
HINTON, 2012). As CNNs são capazes de modelar as informações hierárquicas de maneira
direta em basicamente três etapas. A primeira, corresponde à aplicação de convoluções no sinal
de entrada e diferentes filtros, seguida por uma amostragem do sinal, e por fim um processo de
normalização. Porém, sofrem com a necessidade de uma grande quantidade de dados rotulados
para o processo de treinamento (supervisionado).
As DBMs possuem uma arquitetura específica com camadas ocultas compostas por
Máquinas de Boltzmann, que se assemelha às Redes de Crença Profundas, do inglês Deep Belief
Networks (DBNs) (HINTON; OSINDERO; TEH, 2006). Estas, por sua vez, são formadas pelo
“empilhamento” de várias Máquinas de Boltzmann Restritas (Restricted Boltzmann Machines -
14
RBMs) (HINTON, 2002), ou seja, pode-se formar uma rede composta por diversas camadas
constituídas de RBMs, em que a saída de cada uma é utilizada como entrada para uma
outra, formando uma rede direcional. Por fim, as RBMs são classificadas como redes neurais
estocásticas, onde um conjunto de neurônios ocultos (ou invisíveis) são responsáveis por
modelar a distribuição de probabilidade dos dados de entrada, sem a necessidade de rótulos
para o treinamento (sem supervisão). Essencialmente, uma RBM não é uma técnica de DL,
uma vez que possui apenas uma camada de abstração (neurônios ocultos).
Com os avanços na área de visão computacional, as técnicas de DL passaram a ser
empregadas não só para o domínio de imagens, mas também para o de vídeos, possibilitando a
utilização de sistemas que atuam praticamente em tempo real, como no monitoramento por
câmeras de segurança (MAHADEVAN et al., 2010; MOHAMMADI et al., 2016; AFONSO et
al., 2018).
Entretanto, aplicações com vídeos aumentam expressivamente a complexidade e o
custo computacional, uma vez que este domínio representa uma composição de diferentes
imagens (frames) ao longo do tempo, elevando a quantidade de informações a serem tratadas e
reconhecidas pelas técnicas de DL. Além disso, grande parte dos problemas deste domínio dizem
respeito à classificação e reconhecimento de ações (FEICHTENHOFER; PINZ; ZISSERMAN,
2016; GOWDA, 2017; ULLAH et al., 2019), ao invés de eventos de alto nível ou eventos
anômalos, tornando escassas as fontes de dados. Não obstante, grande parte das técnicas de
DL tradicionais necessitam de dados rotulados para que a tarefa de classificação possa ser
desempenhada.
1.1 Problema
As necessidades previamente mencionadas geram grandes dificuldades para os estudos
desenvolvidos nesta área, uma vez que os eventos (de alto nível ou anômalos) estão relacionados
a diferentes características nas imagens que compõe os vídeos, bem como a interação das
entidades presentes nas cenas. Adicionalmente, na maioria dos casos, não há uma elevada dis-
ponibilidade de dados rotulados com os respectivos tipos de eventos ou anomalias, dificultando,
e algumas vezes inviabilizando, o processo de aprendizado por técnicas de DL que demandam
grandes quantidades de dados para a indução dos modelos.
Correlato à dificuldade apresentada, tem-se geralmente técnicas com arquiteturas
complexas, que acentuam a dificuldade de um treinamento eficiente com poucos dados,
prejudicando a capacidade de generalização para exemplos não conhecidos pela técnica de DL.
Diante disso, na tentativa de mitigar a ausência de bancos de dados para domínios
específicos, pode-se fazer uso da Transferência de Aprendizado (TA), do inglês Transfer
Learning (RAINA et al., 2007), que consiste no pré-treinamento das técnicas de DL em dados
de um problema genérico e posterior transferência de parte do conhecimento para o problema
15
específico, por meio do processo de ajuste fino, do inglês fine-tuning, com dados do problema
alvo (QUATTONI; COLLINS; DARRELL, 2008). Além disso, pode-se empregar a adaptação de
domínio, do inglês Domain Adaptation, que consiste em mapear os dados de um domínio fonte
para um domínio alvo utilizando uma função de mapeamento, permitindo o aproveitamento de
carcterísticas de um domínio em outro (SUN; SHI; WU, 2015; LIU et al., 2019).
Em concordância com a adaptação de domínio, por exemplo, pode-se utilizar o treina-
mento semi-supervisionado, do inglês semi-supervised training, em que os dados sem classificação
prévia são utilizados para treinar as técnicas de aprendizado profundo sob o paradigma não
supervisionado e, posteriormente, os dados rotulados são utilizados no processo de ajuste fino
dos parâmetros com a introdução das respectivas classes.
No que diz respeito à complexidade das arquiteturas, técnicas como as DBNs e DBMs
podem ser utilizadas, uma vez que geralmente possuem menos camadas ocultas (usualmente 2
ou 3) que uma CNN, por exemplo (HINTON; OSINDERO; TEH, 2006; SALAKHUTDINOV;
HINTON, 2012). Adicionalmente, com a utilização dessas técnicas, espera-se conseguir boas
representações/características dos vídeos que simplifiquem a modelagem do problema.
Isto posto, este trabalho visa investigar o problema do treinamento de técnicas como
RBMs, DBNs e DBMs para extrair características de vídeos com poucos dados rotulados, porém,
com grandes volumes de frames para treinamento, empregando técnicas como adaptação de
domínio e pré-treinamento de modelos baseados em energia.
Ademais, até onde se tem conhecimento, não há nenhum trabalho atualmente que
aborde o problema de reconhecimento de eventos em vídeos por meio da abordagem e das
técnicas citadas.
1.2 Objetivos
1.2.1 Objetivo Geral
Fazer uso de técnicas de aprendizado em profundidade, como RBMs, DBNs e DBMs,
para a tarefa de reconhecimento de eventos em vídeos, apoiadas pela utilização da adaptação
de domínio com dois paradigmas de treinamento, não supervisionado e supervisionado, possibi-
litando a extração de características de um domínio fonte (ações, por exemplo) para o alvo
(eventos, por exemplo). Além disso, viabilizar métodos para o aproveitamento de bancos de
dados de domínios diferentes, provendo uma biblioteca open-source com todos os modelos
e técnicas implementadas nesse estudo para suprir a literatura de adaptação de domínio em
vídeos e modelos baseados em energia.
16
1.2.2 Objetivos Específicos
Para alcançar os objetivos gerais, e gerar uma boa solução para o problema elucidado,
os seguintes passos são considerados:
a) desenvolver um sistema de pré-processamento dos vídeos a fim de reduzir o número
de frames necessários para o treinamento;
b) integrar a transferência de aprendizado possibilitada pela adaptação de domínio e
pelos paradigmas de aprendizado utilizados;
c) testar e validar a metodologia proposta em bases de dados de referência (bench-
mark);e
d) possibilitar a reprodutibilidade do estudo realizado por meio de uma biblioteca de
código aberto em Python para a comunidade contendo todos os estudos realizados.
1.3 Hipótese de Pesquisa
A principal hipótese dessa pesquisa é que os modelos profundos de redes neurais baseadas
em energia, especificamente DBNs e DBMs, são capazes de atuar na tarefa de reconhecimento
de eventos de alto nível a partir de ações, em vídeos extraídos de situações reais/cotidianas
de elevada complexidade. Além disso, acredita-se que o processamento Somatório é capaz
de reduzir o número de frames necessários para o treinamento das redes sem causar perdas
significativas na desempenho preditiva dos modelos que o utilizam.
1.4 Estrutura da Dissertação
O restante da dissertação está organizada da seguinte maneira:
• O Capítulo 2 apresenta um panorama geral sobre o domínio dos vídeos;
• O Capítulo 3 apresenta conceitos e definições sobre o aprendizado em profundidade e as
técnicas baseadas em energia utilizadas neste trabalho;
• O Capítulo 4 apresenta a abordagem proposta para mitigar os problemas levantados;
• O Capítulo 5 trata dos bancos de dados utilizados e da metodologia para a abordagem
proposta;
• O Capítulo 6 mostra os resultados alcançados com a metodologia adotada;
• O Capítulo 7 apresenta a conclusão desta dissertação, bem como futuros trabalhos.
• O Capítulo 8 apresenta os trabalhos correlatos publicados e aceitos para publicação;
2 Domínio de Vídeos
Com o aumento expressivo de componentes eletrônicos que utilizam câmeras, sistemas
de monitoramento e a elevada conectividade, a visão computacional tem sua atenção direcionada
para aplicações apoiadas por vídeos.
Um vídeo é definido por uma sequência de imagens (frames), F = {F1, F2, . . . , Fn},
capturados em um intervalo de tempo t, em que a variação espaço-temporal dos objetos
presentes nas imagens expressa a “movimentação” do mundo real. Adicionalmente, um vídeo
pode conter efeitos de áudio. O conjunto de frames que representa o vídeo pode ser classificado
de acordo com a complexidade das representações internas, bem como os níveis de interação
entre as entidades no vídeo. A classificação é feita em 4 categorias: Atributos/Movimentos;
Eventos/Ações de baixo nível; Interação; e Eventos de alto nível (JIANG et al., 2013).
Frente às categorias tem-se: a representação de mais baixo nível e/ou descrição de
um frame como o Movimento, amplamente utilizada para reconhecimento de ações humanas,
como a movimentação de membros do corpo, por exemplo (LIU; KUIPERS; SAVARESE, 2011).
Já os Eventos/Ações de baixo nível representam uma determinada cadeia de movimentos,
sendo esta realizada geralmente por uma entidade do frame (um carro ou uma pessoa, por
exemplo). Quando essas ações são realizadas por mais de uma entidade, ou essas interagem
entre si, é dada a categoria de Interação (JIANG et al., 2013).
Por fim, a categoria de mais alto nível, também chamada de Eventos complexos,
representa a interação de entidades, ou uma sequência de ações, com longa duração temporal
no vídeo. Um evento-exemplo pode ser uma festa de aniversário, composto por diversas ações
e entidades. Isto posto, o reconhecimento de eventos pode ser compreendido como a detecção
de localizações, temporais e espaciais, de um evento complexo na sequência de vídeos (JIANG
et al., 2013).
É importante ressaltar que na literatura não há um consenso ou uma padronização
sobre a diferença efetiva entre ações e eventos, tornando-os intercambiáveis em grande parte
das aplicações (BOBICK, 1997; JIANG et al., 2013). As categorias discutidas anteriormente
são mostradas em sua forma hierárquica na Figura 1.
2.1 Trabalhos Relacionados
Uma vez abordados os conceitos primordiais sobre eventos em vídeos, nesta seção são
mostrados os trabalhos mais próximos a esta dissertação, ou seja, realizam a detecção e/ou
classificação de eventos complexos de alto nível com modelos baseados em grafos.
A utilização de algoritmos baseados em grafos possui duas categorias, os grafos
18
Figura 1 – Complexidade hierárquica no domínio de vídeos.
Fonte: Elaborado pelo autor.
direcionais e os não-direcionais. Exemplos sedimentados na literatura para o primeiro tipo
incluem os baseados em Cadeias Ocultas de Markov (HMM, do inglês Hidden Markov Models)
e Redes Bayesianas (BN, do inglês Bayesian Networks). Já para a segunda categoria tem-se os
Campos Aleatórios de Markov (MRF, do inglês Markov Random Fields) e os Campos Aleatórios
Condicionais (CRF, do inglês Conditional Random Fields).
Os modelos direcionais são responsáveis por modelar as dependências espaço-temporais
em uma camada oculta de “neurônios”, e as conexões direcionais representam as mudanças de
estados da cadeia de Markov para o espaço de características observado. Li et al. (LI; ZHANG;
LIU, 2008) abordaram, por exemplo, a modelagem de ações a partir de estados ocultos de
HMMs, porém com a estimativa de poses salientes a partir de modelos de mistura gaussiana,
para formar as ações de interesse.
19
O trabalho de Natarajan e Nevatia (NATARAJAN; NEVATIA, 2008) utilizou uma
abordagem interessante para os modelos HMMs aplicados em reconhecimento de ações em
pessoas, com o agrupamento de algumas cadeias de Markov para representar a composição de
ações, enquanto camadas de HMMs foram responsáveis por representar as transições de poses
dessas pessoas.
Já os trabalhos com grafos não-direcionais possuem foco nos modelos CRFs, com o
início sendo marcado pelo trabalho de Vail et al. (VAIL; VELOSO; LAFFERTY, 2007) para
reconhecimento de ações. Os autores mostraram que os CRFs podem ser empregados em
uma abordagem discriminativa, levando em consideração toda a sequência de observações, e
não mais observações individuais. O sucesso da abordagem se deu por uma característica do
algoritmo, o aprendizado das probabilidades condicionais dos estados, que se correlacionam
com a sequência espaço-temporal das observações.
Ainda neste âmbito, Conolly (CONNOLLY, 2007) empregou CRFs para a modelagem
e reconhecimento de eventos em imagens de câmeras de segurança. Mesmo atingindo bons
resultados para a época, o autor ressalta que os atributos descritores das poses das pessoas
devem ser cuidadosamente analisados e modelados, se possível.
Porém, a técnica possui suas limitações, principalmente quando há o relacionamento de
causa e efeito na sequência de frames analisada. Além disso, é importante ressaltar que todas
necessitam de dados pré-processados, ou seja, não são capazes de utilizar os dados brutos
provenientes de câmeras, por exemplo.
Nos anos seguintes surgiram diversos bancos de dados maiores, porém, focados em
subsidiar a área de classificação de ações de baixo e alto nível, mas não de eventos complexos.
Por consequência, os trabalhos desenvolvidos atualmente abordam a classificação de ações, e
majoritariamente, a aplicação de redes neurais convolucionais com variações que empregam
descritores de características temporais, como o fluxo óptico, compondo a entrada da rede (SI-
MONYAN; ZISSERMAN, 2014), e variações que agregam diferentes arquiteturas para extrair
informações espaço-temporais (ZHU et al., 2018).
Estes fatos motivam o estudo de modelos baseados em grafos não direcionais como
uma opção para tratar essa “deficiência”, como os modelos de aprendizado em profundidade
baseados em energia (RBMs, DBNs e DBMs).
2.2 Bancos de Dados Públicos
No domínio de vídeos, alguns bancos de dados ganharam destaque nos últimos anos,
principalmente pela dificuldade de se obter vídeos com suas respectivas classificações, ao passo
que sejam representativos dos problemas do mundo real. Neste âmbito, a Tabela 1 apresenta
os principais bancos de dados utilizados e empregados na literatura nos domínios de ações e
20
eventos de alto nível.
Banco #Vídeos #Classes Ano Fundo da Cena Domínio
KTH 600 6 2004 Estático Ação
Weizmann 81 9 2005 Estático Ação
Kodak 1.358 25 2007 Dinâmico Ação (anotação)
Hollywood2 1.707 12 2009 Dinâmico Ação
Olympic Sports 800 16 2010 Dinâmico Ação
UCSD 98 2 2010 Dinâmico Evento (anomalia)
HMDB51 6.766 51 2011 Dinâmico Ação/Evento
CCV 9.317 20 2011 Dinâmico Ação
UCF-101 13.320 101 2012 Dinâmico Ação/Evento
THUMOS-2014 18.394 101 2014 Dinâmico Ação
Sports-1M 1.133.158 487 2014 Dinâmico Ação
Kinetics-600 495.547 600 2018 Dinâmico Ação
Tabela 1 – Principais bancos de dados.
Em 2004 surgiu o banco de dados KTH (SCHULDT; LAPTEV; CAPUTO, 2004), um
dos mais antigos no que diz respeito ao reconhecimento de ações humanas em vídeos. É
relativamente pequeno e possui poucas ações. O fundo das cenas (background) é controlado,
sem grandes variações que possam atrapalhar a classificação das ações. No ano seguinte surgiu
o banco Weizmann (GORELICK et al., 2007). É um conjunto de vídeos relativamente pequeno,
possui 81 gravações e 9 classes de ações humanas. Além disso, o fundo das cenas é estático e
possui poucas variações.
Já em 2007, surgiu o banco Kodak (LOUI et al., 2007), que sumariza conceitos e
ações de diversos consumidores da Kodak segundo a ontologia da empresa. O banco possui
um grande número de vídeos e ações, ao passo que o fundo das cenas é dinâmico.
Em 2009, o banco de dados Hollywood foi incrementado por (MARSZALEK; LAPTEV;
SCHMID, 2009) para o chamado Hollywood2, composto por 1.707 vídeos. Estes são compostos
por 12 ações retiradas de 69 filmes de Hollywood, os quais representam grande dificuldade para
o tratamento devido ao fundo das cenas ser altamente variável, e com grande movimentação
de câmeras.
No ano seguinte, surgiu o banco Olympic Sports (NIEBLES; CHEN; FEI-FEI, 2010),
composto por 800 vídeos e 16 ações humanas no contexto de esportes olímpicos. A diferença
deste diz respeito à origem dos vídeos, sendo todos baixados da internet para compor o banco.
Ainda em 2010, surgiu um importante banco para detecção de eventos anômalos em
ambientes abertos de uma universidade, o UCSD (MAHADEVAN et al., 2010). Este é divido
em dois subsets (subgrupos) que representam duas cenas, o Peds1 e o Peds2. O primeiro,
representa pedestres caminhando a favor ou contra a câmera, enquanto o Peds2 captura a
movimentação de pessoas no plano paralelo à câmera. Por ser um banco de detecção de eventos
anômalos, possui duas classes.
21
Já em 2011, emergiu o banco HMDB51 (KUEHNE et al., 2011), com 6.766 vídeos que
compreendem um total de 51 ações de pessoas. Os vídeos são provenientes de várias fontes da
internet, incluindo filmes e vídeos de usuários do YouTube. Novamente, dada a composição
heterogênea das fontes, os clipes possuem o fundo das cenas dinâmico e altamente variável. É
categorizado como um banco de classificação de ações, porém esta categorização pode ser
intercambiável devido ao agrupamento de ações em macro-classes que o banco possui. No
mesmo ano, foi publicado o banco Columbia Consumer Videos (CCV) (JIANG et al., 2011),
com um total de 9.317 vídeos. Este tem a particularidade de ser composto apenas por vídeos
feitos por usuários do YouTube. Os vídeos possuem 20 classes correspondentes que incluem
simples objetos, cenas/vistas naturais, eventos relacionados a esportes e atividades de convívio
social.
Em 2012, Soomro e seus colaboradores lançaram o UCF101 (SOOMRO; ZAMIR; SHAH,
2012), um dos mais importantes e desafiadores banco de dados de vídeos da literatura, sendo
o sucessor dos bancos UCF11 e UCF50. Trata-se de um conjunto de dados desafiador devido à
elevada variabilidade intra-classes e interclasses, bem como as variações nas filmagens e no
background das cenas. É composto por 13.320 vídeos de usuários do YouTube, e possui a
categorização de 101 ações de pessoas em diversos aspectos de interação entre as entidades
presentes nas cenas. As 101 ações são categorizadas pelos autores em 5 grandes classes, que
agrupam os vídeos em características de alto nível como a prática esportiva ou a interação
entre pessoas e objetos.
Dois anos após a criação do UCF101, Jiang e seus colaboradores incrementaram o
banco para a competição THUMUS, gerando o THUMOS-2014 (JIANG et al., 2014). O
novo banco possui as mesmas características, porém, conta com 18.394 vídeos, 5.074 a mais
que o UCF101. Ainda em 2014, Karpathy et al. agruparam 1.133.158 vídeos sobre esportes
diretamente do YouTube no chamado Sports-1M (KARPATHY et al., 2014), formando o maior
banco de dados do gênero até então. O banco conta com 487 ações humanas relacionadas à
pratica esportiva. Novamente, por serem vídeos retirados da internet, não contam com controle
de background nas cenas.
Por fim, um dos últimos bancos de dados criados na área é o Kinetics-600, proposto
por (CARREIRA et al., 2018) como uma extensão do Kinetics-400. O banco é composto
por 495.547 videoclipes distribuídos em 600 classes de ações humanas extraídas de vídeos
do YouTube, como os supracitados. Porém, como mencionado, o banco aborda apenas ações
humanas.
3 Aprendizado em Profundidade
No decorrer do desenvolvimento tecnológico, surgiu a necessidade de métodos automá-
ticos para a análise de dados, fato que impulsionou o desenvolvimento da área de aprendizado
de máquina (AM). Esta, faz uso de algoritmos capazes de se adaptarem independentemente,
que buscam aprender padrões ocultos contidos nos dados. Este aspecto fez as técnicas de AM
emergirem de maneira expressiva, gerando resultados promissores (BISHOP, 1995).
Porém, as aplicações no mundo real têm se tornado cada vez mais complexas, seja pela
diversidade de dispositivos que geram dados ou pela própria natureza destes, que passam a
construir relacionamentos intrínsecos difíceis de serem modelados. Um exemplo de complexidade
diz respeito à análise de imagens RGB, em que cada componente de cor (red, green, blue)
representa um plano bidimensional que compõe a imagem 2D, bem como as mais diversas
aplicações que tangem desde a medicina até ambientes industriais complexos.
Quando analisamos imagens, a luminosidade do ambiente e fatores como rotação destas
(mesmo que em pequenos ângulos) podem fazer com que a intensidade das cores dos pixels
sofram variações de grande magnitude, mesmo que ao olho humano isso seja pouco perceptível.
Deste modo, levantou-se a questão de como extrair características relevantes de um domínio
altamente variável (BISHOP, 1995). A partir da necessidade de embutir o próprio processo de
caracterização dos dados às técnicas de AM, emergiu uma sub-área dentro do aprendizado
de máquina, denominada aprendizado em profundidade ou profundo (Deep Learning). As
técnicas de DL possuem a particularidade de utilizar os dados brutos como entrada, no caso
de imagens, os pixels, para extrair informações relevantes sem necessariamente utilizar algum
pré-processamento.
Em suma, busca-se representar informações sofisticadas a partir de representações mais
simples, ao passo que relacionamentos complexos são modelados de maneira mais fácil. Essa
abordagem se aproxima ao aprendizado do ser humano, em que o cérebro torna as informações
hierárquicas a partir de entradas simples, e é capaz de construir conhecimentos robustos e
complexos.
Historicamente falando, o aprendizado em profundidade parece ser uma área de estudo
recente, porém, o início do seu desenvolvimento se deu próximo da década de 1940, dadas as
necessidades da segunda guerra mundial. Obviamente, nos primórdios do seu desenvolvimento,
a tecnologia era mais limitada e as aplicações bem específicas, e em sua maioria para uso
militar. Desde o início, os algoritmos objetivaram modelar computacionalmente o aprendizado
biológico humano, ou seja, se aproximar do processo de aprendizado do cérebro humano. Um
dos principais exemplos são as Redes Neurais Artificiais, do inglês Artificial Neural Networks,
com capacidade de aplicação em diversos domínios (BISHOP, 1995).
23
Em 1943, foi concebido o neurônio de McCulloch-Pitts (MCCULLOCH; PITTS, 1943),
o primeiro modelo de um neurônio computacional, linear, que tenta imitar o comportamento
biológico. Esse modelo era capaz de distinguir duas categorias, uma positiva e outra negativa,
por meio da correta seleção de suas conexões neurais (pesos sinápticos). Já na década de 1950
surgiu o modelo Perceptron (ROSENBLATT, 1958), capaz de aprender os pesos de maneira
automática a partir dos dados de entrada. Entretanto, este modelo ainda era limitado, sendo
famoso por não ser capaz de aprender a função lógica XOR, o que causou críticas e perda de
popularidade da técnica.
Entre 1950 e 1980 houve um certo hiato no desenvolvimento das técnicas de inteligência
artificial, que foi quebrado com o movimento chamado conexionismo (RUMELHART et al.,
1988; MCCLELLAND; RUMELHART; HINTON, 1986). Em suma, o movimento pregou que
a utilização de diversos neurônios artificiais, de maneira concomitante, é capaz de gerar um
comportamento inteligente. Em 1986, Geoffrey Hinton (HINTON, 1986) introduziu o conceito
de representação distribuída, presente até a atualidade no aprendizado profundo. Este, nos fala
que cada entrada do sistema deve ser representada por várias características, e estas por sua
vez, devem representar o máximo de dados de entrada possível.
Ainda no movimento conexionista, houve o desenvolvimento e a utilização do algoritmo
de retro-propagação (back-propagation) (RUMELHART; HINTON; WILLIAMS, 1986; LECUN,
1987) para o treinamento de redes neurais. Esse algoritmo funciona calculando os gradientes
de uma função de perda (loss function), que guia o processo de aprendizado para o ajuste dos
pesos sinápticos. Este foi um fato marcante, uma vez que possibilitou diversos avanços e é
amplamente utilizado até hoje, para as mais diferentes redes neurais artificiais.
Finalmente, em 2006, Geoffrey Hinton deu início à terceira “revolução” no aprendizado
em profundidade, agora sendo efetivamente profundo no que diz respeito à profundidade
(quantidade de camadas neurais) das redes neurais artificiais, introduzindo a chamada Deep
Belief Network (DBN), ou Rede de Crença em Profundidade (HINTON; OSINDERO; TEH,
2006). Esse fato, popularizou o termo “aprendizado em profundidade”, uma vez que possibilitou
o treinamento de redes com várias camadas, e elevou o patamar dentro da inteligência artificial.
O sucesso das DBNs também foi responsável por popularizar os chamados modelos
baseados em energia, que abrangem principalmente as Restricted Boltzmann Machines (RBMs),
as Deep Belief Networks e Deep Boltzmann Machines (DBMs). Estes foram e são aplicados
em diversos problemas: Salakhutdinov, Mnih e Hinton (2007), Larochelle e Bengio (2008),
Salakhutdinov e Hinton (2009), Salakhutdinov e Hinton (2012), Khojasteh et al. (2019), Passos
e Papa (2018), Passos et al. (2019).
24
3.1 Modelos Baseados em Energia
Nesta seção são apresentados três modelos baseados em energia, amplamente utilizados
em diversas tarefas, tais como pré-treinamento de redes profundas, classificação de padrões,
extração de características e geração de dados.
3.1.1 Máquinas de Boltzmann Restritas
As Máquinas de Boltzmann Restritas são redes neurais estocásticas baseadas em princí-
pios físicos de energia, entropia e temperatura. São compostas basicamente por duas camadas
de neurônios/unidades (visíveis e ocultos), capazes de modelar problemas sob os paradigmas
de aprendizado não supervisionado (HINTON, 2002) ou supervisionado (LAROCHELLE; BEN-
GIO, 2008). A RBM é uma variação da clássica Máquina de Boltzmann (ACKLEY; HINTON;
SEJNOWSKI, 1988), porém, possui restrições de conexão entre os neurônios da mesma camada.
Em suma, uma RBM é a representação de um grafo bipartido, com conexões não
direcionais. A Figura 2 descreve a arquitetura de uma Máquina de Boltzmann Restrita, com
a camada visível v possuindo m unidades, e a camada oculta h com n neurônios. A matriz
w, com valores reais, modela os pesos (conexão neural) entre os neurônios visíveis e ocultos,
possuindo dimensão m× n.
Figura 2 – Arquitetura de uma RBM.
Fonte: Elaborado pelo autor.
Inicialmente, as RBMs foram desenvolvidas usando neurônios visíveis e ocultos com
estados binários, as chamadas Máquinas de Boltzmann Restritas de Bernoulli1, do inglês
Bernoulli RBMs (BRBMs), cujos estados das unidades são amostrados a partir da distribuição
de Bernoulli. Posteriormente, Welling et al. (WELLING; ROSEN-ZVI; HINTON, 2005) e
Hinton (HINTON, 2012) apresentaram variações para as unidades que podem ser usadas em
uma RBM, como as binomiais, as unidades lineares retificadas (ReLU) e as gaussianas. As
variações mencionadas são generalizações da BRBM, portanto, os conceitos relacionados a
esta são apresentados.
1 Frequentemente o nome Bernoulli é omitido por ser o modelo base de RBMs, tornando as siglas BRBM e
RBM intercambiáveis
25
Sejam v e h as unidades visíveis e ocultas binárias, respectivamente, ou seja, v ∈ {0, 1}m
e h ∈ {0, 1}n. A energia de uma Máquina de Boltzmann Restrita de Bernoulli é modelada
como segue:
E(v,h) = −
m∑
i=1
aivi −
n∑
j=1
bjhj −
m∑
i=1
n∑
j=1
vihjwij, (1)
em que a e b são os valores dos vieses (biases) das unidades visíveis e ocultas, respectivamente.
A probabilidade de uma configuração conjunta (v,h) é calculada como segue:
P (v,h) = e−E(v,h)∑
v,h
e−E(v,h) , (2)
onde o denominador da equação é um fator de normalização conhecido como função de partição,
que leva em conta todas as possíveis configurações envolvendo unidades visíveis e ocultas,
sendo intratável para espaços de alta dimensão como imagens, por exemplo.
Em suma, o processo de treinamento de uma BRBM tem por objetivo maximizar as
probabilidades observadas de uma configuração P (v), ao passo que é necessário estimar e
ajustar os valores de w, a e b. Portanto, a próxima seção descreve esse procedimento.
3.1.1.1 O Treinamento
Por se tratar de um problema de otimização, os parâmetros da BRBM podem ser
otimizados através da técnica da subida do gradiente estocástico, método dual para a descida
do gradiente estocástico (Stochastic Gradient Descent- SGD), aplicado no logaritmo da
verossimilhança (Log-Likelihood) dos dados de treinamento. A verossimilhança é calculada
para uma amostra apresentada às unidades visíveis, e sua probabilidade é obtida como segue:
P (v) =
∑
h
e−E(v,h)
∑
v,h
e−E(v,h) . (3)
Isto posto, para atualizar os pesos e vieses, é necessário computar as seguintes derivadas:
∂ logP (v)
∂wij
= E[hjvi]data − E[hjvi]modelo, (4)
∂ logP (v)
∂ai
= E[vi]data − E[vi]modelo, (5)
∂ logP (v)
∂bj
= E[hj]data − E[hj]modelo, (6)
26
em que E[·] representa a esperança estatística sob uma distribuição, e E[·]data e E[·]modelo
representam as probabilidades dos dados originais e reconstruídos, respectivamente.
Em termos práticos, podemos computar E[hjvi]data considerando h e v como segue:
E[hv]data = P (h|v)vT , (7)
em que P (h|v) é a probabilidade associada ao espaço latente, representado pelas unidades
ocultas h, dada uma observação no espaço visível v (dado de treinamento):
P (hj = 1|v) = σ
(
m∑
i=1
wijvi + bj
)
, (8)
onde σ(·) é a função sigmoide-logística2. Deste modo, E[hv]data é obtida da seguinte maneira:
dada uma amostra de treinamento x ∈ X, onde X é um conjunto de treinamento, precisa-se
ajustar v ← x, e então utilizar a Equação 8 para obter P (h|v) e, através da Equação 7,
obtém-se E[hv]data.
Uma vez obtidas as estatísticas a partir dos dados (E[hv]data), o próximo passo é obter
E[hv]modelo, o qual representa a distribuição aprendida pelo modelo. Da mecânica estatística,
uma estratégia é obter a esperança do modelo por meio da técnica de amostragem de Gibbs,
um algoritmo baseado no método de Monte Carlo com Cadeias de Markov (MCMC, do inglês
Markov Chain Monte Carlo method). Esta inicia as unidades visíveis com valores aleatórios, e
atualiza as unidades ocultas utilizando a Equação 8, seguida pela atualização das unidades
visíveis usando P (v|h), dada por:
P (vi = 1|h) = σ
n∑
j=1
wijhj + ai
, (9)
e então, atualizam-se novamente as unidades ocultas utilizando a Equação 8 até um critério
de convergência da cadeia ser atingido, como k iterações, por exemplo. Em suma, a técnica
possibilita obter uma estimativa de E[hv]modelo a partir de valores aleatórios.
Entretanto, tal procedimento é computacionalmente custoso, e inviável para espaços de
alta dimensão, uma vez que a convergência da cadeia é garantida quando as iterações tendem
ao infinito k → +∞. Por conta desta dificuldade, alguns trabalhos apresentaram alternativas à
amostragem de Gibbs, sendo a principal delas a Divergência Contrastiva (Contrastive Divergence
- CD) (HINTON, 2002).
2 A função sigmoide-logística é computada pela seguinte equação: σ(x) = 1/(1 + exp(−x)).
27
3.1.1.2 Divergência Contrastiva
Hinton (HINTON, 2002) introduziu uma metodologia mais simples, eficaz e rápida
para o cálculo de E[hv]modelo tendo como base a ideia de divergência contrastiva. Em suma, a
simplicidade dá-se pelo fato da inicialização das unidades visíveis com amostras dos dados de
treinamento, para inferir os estados latentes utilizando as probabilidade da Equação 8. Uma
vez calculadas estas probabilidades pode-se calcular os estados das unidades visíveis, ou seja, a
reconstrução dos dados, por meio da Equação 9. Este procedimento é equivalente a execução
da amostragem de Gibbs usando k = 1, com os valores da cadeia inicializados com amostras
de treinamento. A Figura 3 ilustra essa abordagem.
Figura 3 – Ilustração do método baseado em divergência contrastiva.
Fonte: Elaborado pelo autor.
O procedimento apresentado na Figura 3 pode ser iterado por k vezes, porém, na
maioria das aplicações k = 1 é suficiente para gerar boas aproximações, se, e somente se, a
cadeia possui uma alta taxa de mistura, isto é, consegue convergir rapidamente ao passo que
reduz as dependências anteriores.
Diante do exposto anteriormente, pode-se calcular E[hv]modelo como segue:
E[hv]modelo = P (h̃|ṽ)ṽT . (10)
Portanto, o problema de obtenção das estatísticas do modelo, e consequentemente
do aprendizado de seus parâmetros, é sanado. Isso possibilita atualizar a matriz de pesos W,
como segue:
wt+1 = wt + η(E[hv]data − E[hv]modelo)
= wt + η(P (h|v)vT − P (h̃|ṽ)ṽT ), (11)
ondewt é a matriz de pesos no instante t, e η corresponde à taxa de aprendizado. Adicionalmente,
os vieses das unidades visíveis e ocultas são atualizados seguindo as formulações:
28
at+1 = at + η(v− E[v]modelo)
= at + η(v− ṽ), (12)
e
bt+1 = bt + η(E[h]data − E[h]modelo)
= bt + η(P (h|v)− P (h̃|ṽ)), (13)
em que at e bt são os valores de bias das unidades visíveis e ocultas no momento t, respec-
tivamente. Em resumo, com as Equações 11, 12 e 13 pode-se atualizar os parâmetros da
RBM.
3.1.1.3 RBMs para Dados Contínuos
Além de neurônios binários, as RBMs podem acomodar neurônios visíveis capazes de
trabalhar com dados não binários, ou seja, contínuos, úteis para modelar diferentes tipos de
entradas ou sinais que variam em largas faixas de valores. As mudanças que possibilitam esta
utilização ocorrem na função de energia, como segue:
E(v,h) =
m∑
i=1
(vi − ai)2
2σ2
i
−
n∑
j=1
bjhj −
m∑
i=1
n∑
j=1
vi
σi
hjwij, (14)
em que σi representa o desvio padrão dos dados de entrada, e σ2
i a variância, para cada neurônio
i. Considerando as derivadas, do mesmo modo que em uma RBM binária, as probabilidades
condicionais dos neurônios da camada visível se tornam:
P (vi = 1|h) ∼ N
n∑
j=1
wijhj + ai, σ
2
i
. (15)
É fácil notar que quando são apresentados dados com média zero e desvio padrão
unitário (σi = 1), ou seja, dados normalizados em uma Gaussiana padrão, a Equação 15 torna-se
simples e fácil de ser empregada, uma vez que o procedimento de aprendizado mantém-se o
mesmo.
3.1.2 Redes de Crença em Profundidade
Com o aumento da complexidade dos problemas, surgiu a necessidade de melhorar a
representação dos dados, e aprender características profundas e intrínsecas do domínio. Esse
fato fomentou o desenvolvimento das Redes de Crença em Profundidade (Deep Belief Networks
29
- DBNs), compostas por uma ou mais RBMs empilhadas que formam uma rede híbrida com
conexões direcionais após o treinamento.
A intuição das DBNs é tal que, o empilhamento de RBMs auxilia no processo de
extração das características de alto nível, isto é, são capazes de modelar a hierarquia dos dados
apresentados à primeira camada visível. Com isso, espera-se que no decorrer das passagens
pelas camadas intermediárias, a função Log-Likelihood tenha seu limite assintótico (lower
bound) aumentado, representando uma melhor modelagem da distribuição dos dados.
O treinamento de uma DBN é relativamente simples, cada RBM da arquitetura é
treinada “isoladamente”, ou seja, a rede final é formada bloco a bloco. Esse procedimento é
chamado de Greedy Layer-wise training, e utiliza o processo de aprendizado apresentado na
Seção 3.1.1.1, cuja RBM que está sendo treinada em uma camada arbitrária não considera
outras durante o seu treinamento. Após o treinamento de um bloco, os anteriores tornam-se
redes de crença sigmoidais, uma vez que suas ativações são ditadas pela função logística, além
da possibilidade de realizar tanto geração quanto inferência de dados.
A Figura 4 ilustra a arquitetura de uma DBN, em que cada RBM de uma dada camada
é representada conforme ilustrado na Figura 2, novamente com os respectivos vieses ocultados.
Nesse caso, temos uma DBN composta por l camadas, sendo wl as conexões neurais entre as
RBMs da camada l. É importante ressaltar que as unidades ocultas da camada l tornam-se as
visíveis da l + 1.
Após a etapa previamente descrita, também conhecida como pré-treinamento, Hinton
et al. (HINTON; OSINDERO; TEH, 2006) propõe a realização de um ajuste adicional e
final dos parâmetros da rede (fine-tuning), o qual pode ser realizado sob os paradigmas não
supervisionado ou supervisionado. O primeiro é realizado pelo algoritmo Wake-Sleep (HINTON
et al., 1995), cuja intuição é apresentar os dados à camada de entrada v, propagar o sinal pela
rede e, atualizar as conexões de acordo com o resultado obtido. Posteriormente, é realizada a
propagação “para baixo”, que representa a geração de amostras para os dados iniciais, seguida
pelo ajuste dos pesos frente a geração obtida.
Já o ajuste supervisionado utiliza o algoritmo de Retro-propagação ou Gradiente
Descendente, a fim de ajustar as matrizes de peso wl, l = 1, 2, . . . , l. O algoritmo de otimização
trabalha minimizando uma medida de erro, geralmente o de classificação, a partir da saída
de uma camada extra adicionada ao topo da DBN após o Greedy Layer-wise training. Essa
camada geralmente é composta por unidades logísticas ou do tipo softmax, podendo também
ser substituída por uma técnica de classificação de padrões supervisionada, como máquinas de
vetores de suporte (CORTES; VAPNIK, 1995).
30
Figura 4 – Arquitetura padrão de uma DBN.
Fonte: Elaborado pelo autor.
3.1.3 Máquinas de Boltzmann em Profundidade
Dado o sucesso dos modelos baseados em energia, Salakhutdinov e Hinton (SALAKHUT-
DINOV; HINTON, 2009) desenvolveram as Deep Boltzmann Machines, outra variação proveni-
ente do processo de empilhamento de RBMs, porém, com algumas diferenças das DBNs. A
Figura 5 apresenta a arquitetura de uma DBM, generalizada para L camadas, em que cada
RBM do empilhamento é representada como mostrado na Figura 2.
Seja uma DBM com duas camadas, em que h1 e h2 são as unidades ocultas da primeira
e da segunda camada, respectivamente, é possível definir a energia global pela Equação 16:
E(v,h1,h2) = −
m1∑
i=1
n1∑
j=1
vih1jw
1
ij −
m2∑
i=1
n2∑
j=1
h1ih2jw
2
ij, (16)
onde m1 e m2 são as quantidades de unidades visíveis na primeira e segunda camada, respecti-
vamente, e n1 e n2 correspondem às quantidades de unidades ocultas na primeira e segunda
camada, respectivamente. Adicionalmente, as matrizes de pesos w1
m1×n1 e w2
m2×n2 são as
conexões entre os vetores v e h1, e os vetores h1 e h2, respectivamente. É importante ressaltar
que para simplificar, sem gerar perdas na interpretação, os termos referentes aos vieses foram
omitidos. A probabilidade mínima que o modelo atribui a um vetor de entrada v é dada como
31
Figura 5 – Arquitetura padrão de uma DBM.
Fonte: Elaborado pelo autor.
segue:
P (v) = 1
Z
∑
h1,h2
e−E(v,h1,h2). (17)
em que Z representa a função de partição (HINTON, 2012).
As probabilidades condicionais sobre as unidades visíveis e sobre ambos espaços latentes
são dadas pelas Equações 18, 19 e 20:
P (vi = 1|h1) = σ
n1∑
j=1
w1
ijh1j
, (18)
P (h2j = 1|h1) = σ
(
m2∑
i=1
w2
ijh1i
)
, (19)
e
P (h1j = 1|v,h2) = σ
m1∑
i=1
w1
ijvi +
n2∑
j=1
w2
ijh2j
. (20)
32
Entre os anos de 2010 e 2012, Salakhutdinov e Hinton (2012) estudaram e propuseram
um método eficiente para pré-treinar as DBMs, alcançando o estado da arte para a classificação
de dígitos manuscritos na época.
O pré-treinamento proposto utiliza conceitos do treinamento de uma DBN, ou seja,
as RBMs são treinadas camada a camada utilizando o método da Divergência Contrastiva.
Porém, os pesos de cada RBM possuem seus valores dobrados quando utilizados para amostrar
a camada oculta, e mantidos em seus valores originais para a amostragem da camada visível.
Este procedimento tenta suprir a falta das conexões de uma camada superior que compõe
a respectiva DBM. Este comportamento é mantido até que a última RBM seja adicionada
à pilha, invertendo o processo de escala, ou seja, as conexões para a amostragem da última
camada oculta têm seus valores mantidos, ao passo que para a amostragem da camada inferior
(visível) seus valores são dobrados (SALAKHUTDINOV; HINTON, 2012).
Outra particularidade das DBMs está no processo de atualização de seus parâmetros,
especificamente no cálculo da esperança estatística proveniente dos dados (dados de entrada
de cada camada oculta, não aos dados da primeira camada visível). Este processo emprega o
conceito de campo-médio (do inglês, mean-field3), em que todas as probabilidades condicionais
de uma dada camada oculta são atualizadas iterativamente a partir da fixação das demais
(como mostrado nas equações supracitadas). Uma vez aproximadas as condicionais, a esperança
do modelo pode ser calculada normalmente com a amostragem de Gibbs, através da Divergência
Contrastiva (SALAKHUTDINOV; HINTON, 2012).
Uma vez que o aprendizado é realizado pelo método da Divergência Contrastiva, o
modelo generativo pode ser escrito pela Equação 21:
P (v) =
∑
h1
P (h1)P (v|h1), (21)
em que P (h1) = ∑
v P (h1, v). Consequentemente, o processo continua para a segunda RBM,
substituindo P (h1) por P (h1) = ∑
h2 P (h1,h2) (SALAKHUTDINOV; HINTON, 2012).
3 Os autores mostraram que 25 iterações são suficientes para uma convergência aceitável
4 Abordagem Proposta
A partir do levantamento bibliográfico e de estudos práticos tangentes à linha principal
da dissertação, ou seja, as RBMs e seus modelos derivados aplicados ao domínio de vídeos e
imagens, foram observados duas principais lacunas: a ausência de bancos bem delimitados para
problemas de classificação de eventos de alto nível, com complexas relações entre entidades e
objetos ao longo do tempo; e, a necessidade de técnicas extratoras de atributos/características
capazes de capturar dependências temporais para agregar conhecimento às técnicas de Deep
Learning.
Diante dessa observação, são propostas duas abordagens para mitigar essas lacunas.
A primeira abordagem é responsável por tratar o problema da falta de bancos de dados para
o domínio de eventos em vídeos. Já a segunda, visa reduzir, ou retirar, a dependência da
agregação de atributos extraídos por técnicas capazes de capturar dependências temporais,
como o fluxo óptico (FLEET; WEISS, 2006), por exemplo.
No que diz respeito à resolução do primeiro problema, atualmente uma área de estudo
tem ganhado destaque, a transferência de aprendizado. Em linhas gerais, a TA aborda métodos
para transferir o aprendizado adquirido em um problema cujos dados são abundantes, para
outro com dados limitantes (pouca quantidade). É uma prática que se tornou comum para
problemas no domínio de classificação que utilizam imagens (RAINA; NG; KOLLER, 2006;
RAINA et al., 2007).
Já para a captura de dependências temporais, abordagens complexas baseadas em
convoluções e combinação de operadores matemáticos em diferentes redes ganharam destaque,
como o trabalho de Feichtenhofer et al. (FEICHTENHOFER; PINZ; ZISSERMAN, 2016) e
Zhu et al. (ZHU et al., 2018). Porém, estas abordagens fazem uso de grandes e complexas
redes convolucionais, requerendo grande poder computacional e tempo de treinamento.
Isto posto, a seguir são apresentados os conceitos previamente mencionados em maior
profundidade, bem como a modelagem da abordagem proposta e a metodologia para este
trabalho.
4.1 Adaptação de Domínio
As tarefas de classificação de ações e eventos possuem semelhanças e particularidades,
apresentando desafios distintos ao treinar um modelo de aprendizado de máquina ou aprendizado
profundo, como a construção de conhecimento a respeito da interação e movimentação de
entidades com o passar dos frames. Uma abordagem interessante que pode auxiliar tarefas de
reconhecimento de eventos é o aproveitamento de dados de domínios semelhantes, ou ainda a
34
adaptação de domínio.
A transferência de aprendizado tem recebido grande atenção nos últimos anos, principal-
mente com o advento do grande banco de dados ImageNet4, e consequentemente, a adaptação
de domínio, por ser uma subárea desta. Este fato possibilita o treinamento de grandes redes
neurais profundas em grandes bancos dados, para posterior realização de ajuste fino destes
modelos em problemas/domínios específicos.
Recentemente, novas abordagens consideraram técnicas de Deep Learning para a tarefa,
como Tas e Koniusz (2018), que empregaram redes neurais convolucionais para reconhecimento
de ações e adaptação de domínio em esqueletos corporais 3D, sob o paradigma de aprendi-
zado supervisionado. Além disso, Liu et al. (LIU et al., 2019) propuseram um modelo para
adaptação do domínio de imagens para vídeos, utilizando fusão de redes convolucionais para o
reconhecimento de ações.
A adaptação de domínio estuda as possibilidades de transferência de conhecimento
dos domínios de origem (domínio fonte) para diferentes contextos (domínio destino). Para
ilustrar essa ideia, consideremos um carro de condução autônoma, treinado com dados de
tráfego da Nova Zelândia. Ele não funcionará efetivamente nas ruas brasileiras devido às
diferentes regras de sinalização e tráfego rodoviário, alto fluxo de veículos e direção do condutor
à direita, por exemplo. No entanto, adaptar o conhecimento aprendido na Nova Zelândia ao
Brasil pode reduzir os custos computacionais e o tempo necessário para treinar novos modelos
(VENKATESWARA; CHAKRABORTY; PANCHANATHAN, 2017).
Isto posto, é possível descrever matematicamente a abordagem proposta para o problema
da falta de bancos de dados no domínio de eventos em vídeos, já de forma contextualizada. A
hipótese é que modelos baseados em energia são capazes de aprender atributos/características
do domínio de ações que podem ser empregados para classificar eventos complexos. Portanto,
a adaptação de domínio é definida como segue:
Seja Γ a tarefa de reconhecimento de eventos de alto nível, assim como DS e DT
são os domínios de origem (Source Domain), o domínio de ações, e alvo (Target Domain), o
domínio de eventos, respectivamente. Adicionalmente, o primeiro domínio é composto pelos
subespaços A ∈ Rda ,M ∈ Rdm , e I ∈ Rdi , onde {A,M, I} ⊂ DS, enquanto o segundo é
composto por E ∈ Rde , em que {E} ⊂ DT . O subespaço A representa a base de ações com
da dimensões,M representa os movimentos com dm dimensões, I representa as interações
entre as entidades com di dimensões, e finalmente, E é o subespaço de eventos de alto nível
com de dimensões. A Figura 6 mostra a abordagem proposta de maneira simplificada.
Portanto, é possível definir a tarefa de adaptação de domínio (BRUZZONE; MARCON-
4
http://www.image-net.org/
35
Figura 6 – Representação espacial dos domínios de vídeos e suas relações. A: Ações, como
correr. M: Movimentação, por exemplo dos braços e pernas. I: Interação, por
exemplo entre pessoa e o ambiente. E : Eventos, como a movimentação corporal
composta pela movimentação de braços e pernas interagindo com o ambiente em
uma corrida.
Fonte: Elaborado pelo autor.
CINI, 2009) através da Equação 22, como segue:
Γ = {yDT
, f(DS)}, (22)
em que yDT
representa a classe discriminativa do domínio alvo, e f(DS) representa a função
de mapeamento entre os domínios de origem e alvo, sendo o componente chave para que a
adaptação de domínio seja eficiente e robusta.
Uma vez que as redes neurais são funções capazes de modelar relações não lineares
e extrair informações intrínsecas dos dados, a proposta deste trabalho é investigar modelos
baseados em energia como a função de mapeamento f(DS), responsável por extrair e adaptar
informações do domínio fonte DS para o domínio alvo DT , ou seja, extrair informações
relevantes de vídeos do domínio de ações para classificar eventos de alto nível.
4.2 Abordagem Somatório
Tratando-se de análise e processamento de vídeos para modelos de DL, dois pontos
são importantes de serem destacados. O primeiro diz respeito ao processamento dos clipes,
uma vez que o processamento de vídeos para modelos de DL requer a apresentação de todos
36
os frames para a técnica, tornando o processamento custoso ao considerar uma alta taxa de
frames por clipes.
Em contrapartida, o segundo ponto diz respeito à extração de informação temporal
dos vídeos, um ponto chave para a agregação de características que auxiliam na modelagem
das interações entre agentes e entidades ao longo da linha do tempo nos vídeos, ou seja, com
o passar dos frames.
Neste trabalho é apresentada uma nova abordagem (Somatório) aplicada aos modelos
baseados em energia (Seção 3.1), com o intuito de simplificar o processamento dos frames,
reduzir a carga computacional, e prover uma abordagem capaz de capturar informações
temporais das cenas.
A abordagem Somatório tem como base o processamento simultâneo de todos os
frames extraídos dos clipes, ao invés de processar frame a frame no processo de treinamento de
uma RBM, por exemplo, visando reduzir a quantidade de dados apresentados para os modelos
empregados e ao mesmo carregar algumas informações temporais das cenas. A intuição sobre
a temporalidade vem da possibilidade de ressaltar regiões de movimentações importantes ao
longo do tempo, através de um espectro de sombras que as entidades deixam ao interagir e
realizar movimentos que geram essas sombras ao somar os frames de uma sequência.
Para proporcionar o ganho computacional previamente mencionado, a abordagem
Somatório faz uso da agregação de todos os frames {F1, F2, . . . , Fn} em um único frame
denotado por Fr, que representa a soma direta de F1 a Fn. Fr é responsável por carregar
informações espaço-temporais dos clipes, como contornos e bordas ao longo da trajetória
temporal, destacadas como um espectro de movimentação na imagem resultante. Portanto,
a abordagem Somatório para os modelos baseados em energia possui as distribuições de
probabilidades condicionais da primeira camada oculta em relação a Fr como segue:
P (hj = 1|Fr) = σ
(
bj +
m∑
i=1
wijFri
)
, (23)
P (h1j = 1|Fr,h2) = σ
bj +
m1∑
i=1
w1
ijFri +
n2∑
j=1
w2
ijh2j
. (24)
A Equação 23 diz respeito às probabilidades condicionais dos modelos RBM e DBN,
visto que a amostragem da primeira camada oculta só depende da visível, e nesse caso, Fr. já a
Equação 24 representa as condicionais para uma DBM, que possui a amostragem condicionada
não só à Fr, mas também à segunda camada oculta, h2.
A Figura 7 mostra o processo de agregação para obter Fr, assim como a região de
destaque que carrega informações temporais da cena. Este processo possibilita uma completa
atualização dos parâmetros das redes neurais a cada iteração, contrário ao que ocorre em
uma abordagem padrão, em que os parâmetros são atualizados a cada frame apresentado no
37
treinamento. Com isso, é possível notar a diferença no que diz respeito à carga computacional,
reduzindo o processamento de n frames, e consequentemente n atualizações em uma iteração,
para apenas 1 passo.
Figura 7 – Processo de agregação de frames para a abordagem Somatório.
Fonte: Elaborado pelo autor.
Entretanto, cabem algumas observações a respeito da abordagem. A primeira, diz
respeito ao possível impacto positivo quando os agentes na cena não se movimentam e/ou
interagem exageradamente, destacando regiões que podem realmente ser relevantes em um
curto espaço de tempo. Em contrapartida, se os agentes possuem um elevado grau de interação
em um curto espaço de tempo, é possível que a soma dos frames acarrete em uma imagem
final com muitas sombras, sem capacidade de representação eficiente das ações.
5 Experimentos
Neste capítulo é descrita a metodologia da abordagem proposta, ou seja, como os
modelos baseados em energia são empregados para a tarefa de classificação de eventos de alto
nível, utilizando a adaptação de domínio e os modelos Somatório. Além disso, são apresentados
os bancos de dados utilizados para a validação da abordagem proposta, juntamente com as
configurações para os experimentos.
5.1 Bancos de Dados
A partir da análise feita no Capítulo 2, Seção 2.2, acerca dos bancos de dados públicos,
dois deles empregados em diversos trabalhos como benchmark foram escolhidos para validar
a adaptação de domínio e os modelos Somatório. Estes são o UCF-101 e o HMDB-51,
amplamente utilizados em tarefas de classificação de ações de alto nível devido às suas
características desafiadoras.
Ambos bancos de dados possuem uma grande variedade de vídeos reais, extraídos do
YouTube. Além de grandes variações intra-classes, possuem variações expressivas nos vídeos no
que diz respeito à movimentação da câmera, aparência e movimentação dos objetos na cena,
ponto de vista, fundo da cena variável e ausência de controle na iluminação.
Além de serem bancos desafiadores e amplamente empregados na literatura, eles
possuem outra característica intrínseca e consoante, o agrupamento das ações em eventos de
alto nível. Esse fato possibilita a utilização das bases para a abordagem proposta.
Os autores do UCF-101 (SOOMRO; ZAMIR; SHAH, 2012) agruparam as 101 classes
em 5 macro-categorias, que são facilmente interpretadas como os eventos de alto nível.
Este mapeamento considera que as classes de ações contidas em uma macro-classe (evento)
compartilham características e atributos padrões, auxiliando no reconhecimento das ações e
interações. Seguindo as orientações dos autores, 5 eventos de alto nível são empregados:(0)
prática de esporte(s); (1) prática musical com instrumento(s); (2) interação entre pessoa(s) e
objeto(s); (3) movimentação corporal; e (4) pessoas interagindo entre si.
Na Figura 8 são apresentados frames de clipes aleatórios da base de dados, em que
a cor da borda representa a classe do evento: verde para 0, azul claro para 1, azul para 2,
vermelho para 3, e roxo para 4. Além disso, os autores fornecem os dados separados em três
partições, 1, 2, e 3. Cada partição possui sua própria separação dos dados para treino e teste,
sendo a partição 1 a mais utilizada em trabalhos de classificação de ações.
Para o banco de dados HMDB-51 (KUEHNE et al., 2011), os autores também agruparam
as 51 classes em 5 macro-categorias, interpretadas como os eventos de alto nível. Seguindo as
39
Figura 8 – Exemplos de frames que compõe os eventos de alto nível para o banco UCF-101.
Fonte: Soomro, Zamir e Shah (2012).
orientações dos autores, 5 eventos de alto nível são empregados:(0) expressões faciais humanas;
(1) manipulação de objetos na região da face; (2) movimentação corporal; (3) interação entre
pessoa(s) e objeto(s); e (4) pessoas interagindo entre si, em que os números em parêntesis
representam as classes.
Adicionalmente, na Figura 9 são apresentados frames de clipes da base de dados, em
que a cor da borda representa a classe do evento: verde para 0, azul claro para 1, azul para 2,
vermelho para 3, e roxo para 4. Os autores também fornecem três partições para os dados, 1,
2, e 3, em que cada partição possui os dados separados em treino e teste.
Em ambos bancos de dados o processo de separação/aquisição dos frames é feito
de maneira semelhante ao trabalho de Ng et al. (2015), utilizando 6 frames por videoclipe
igualmente divididos no tempo total. Neste trabalho, os autores mostraram que 6 frames por
vídeo são suficientes para garantir um bom desempenho, atingindo os mesmo resultados que
20 frames, por exemplo, além de imprimir uma menor carga computacional de processamento
na tarefa de classificação de ações.
No que diz respeito ao pré-processamento, duas transformações são empregadas a partir
da conversão das imagens em tons de cinza. A primeira transformação diz respeito às operações
de corte, para remover regiões pretas que não carregam informações, e redimensionamento do
tamanho original (240× 320) para 72× 96, a fim de facilitar o processamento dos modelos
40
Figura 9 – Exemplos de frames que compõe os eventos de alto nível para o banco HMDB-51.
Fonte: Kuehne et al. (2011).
baseados em energia. A segunda transformação representa a normalização dos dados usando
uma distribuição Gaussiana, com média zero e variância unitária.
5.2 Configuração Experimental
No que diz respeito à configuração do hardware empregado nos experimentos, foi
utilizado um Intel 2x Xeon(R) E5-2620 de 2.20GHz e 40 núcleos, com 128 GB de memória
RAM, e uma placa de vídeo NVIDIA GTX 1080 Ti. Já para a configuração experimental dos
modelos empregados para os respectivos bancos de dados, algumas variações foram testadas, a
fim de prover maior entendimento sobre o comportamento dos modelos baseados em energia
para as tarefas de classificação de eventos de alto nível utilizando a adaptação de domínio. A
Tabela 2 descreve as arquiteturas utilizadas neste trabalho, bem como os hiper-parâmetros
para cada modelo.
Todos os modelos destes experimentos empregaram 3 épocas de pré-treinamento no
processo de extração de atributos do domínio fonte, para cada camada oculta adicionada,
utilizando a abordagem de mini-lote (mini-batch) contendo 128 amostras de dados por lote. Já
as DBMs empregam 3 épocas adicionais de treinamento a partir do pré-treinamento realizado
camada a camada, como proposto por Salakhutdinov e Hinton (2012). Além disso, todos os
modelos utilizam momento (momentum) para a atualização de seus parâmetros.
Uma vez que o intuito é utilizar os modelos baseados em energia como parte do
41
Modelo Camadas Neurônios Ocultos Momento Taxa de Aprendizado
RBM 1 [2.000] [0, 5] [1 · 10−3]
DBNα 2 [2.000− 2.000] [0, 5; 0, 5] [1 · 10−3; 5 · 10−4]
DBMα 2 [2.000− 2.000] [0, 5; 0, 5] [1 · 10−3; 5 · 10−4]
DBNβ 3 [2.000− 2.000− 2.000] [0, 5; 0, 5; 0, 5] [1 · 10−3; 5 · 10−4; 5 · 10−4]
DBMβ 3 [2.000− 2.000− 2.000] [0, 5; 0, 5; 0, 5] [1 · 10−3; 5 · 10−4; 5 · 10−4]
DBNι 2 [4.000− 4.000] [0, 5; 0, 5] [5 · 10−4; 5 · 10−4]
DBMι 2 [4.000− 4.000] [0, 5; 0, 5] [5 · 10−4; 5 · 10−4]
DBNζ 3 [4.000− 4.000− 4.000] [0, 5; 0, 5; 0, 5] [5 · 10−4; 5 · 10−4; 5 · 10−4]
DBMζ 3 [4.000− 4.000− 4.000] [0, 5; 0, 5; 0, 5] [5 · 10−4; 5 · 10−4; 5 · 10−4]
S-RBM 1 [2.000] [0, 5] [1 · 10−3]
S-DBNα 2 [2.000− 2.000] [0, 5; 0, 5] [1 · 10−3; 5 · 10−4]
S-DBMα 2 [2.000− 2.000] [0, 5; 0, 5] [1 · 10−3; 5 · 10−4]
S-DBNβ 3 [2.000− 2.000− 2.000] [0, 5; 0, 5; 0, 5] [1 · 10−3; 5 · 10−4; 5 · 10−4]
S-DBMβ 3 [2.000− 2.000− 2.000] [0, 5; 0, 5; 0, 5] [1 · 10−3; 5 · 10−4; 5 · 10−4]
S-DBNι 2 [4.000− 4.000] [0, 5; 0, 5] [5 · 10−4; 5 · 10−4]
S-DBMι 2 [4.000− 4.000] [0, 5; 0, 5] [5 · 10−4; 5 · 10−4]
S-DBNζ 3 [4.000− 4.000− 4.000] [0, 5; 0, 5; 0, 5] [5 · 10−4; 5 · 10−4; 5 · 10−4]
S-DBMζ 3 [4.000− 4.000− 4.000] [0, 5; 0, 5; 0, 5] [5 · 10−4; 5 · 10−4; 5 · 10−4]
Tabela 2 – Configuração experimental dos modelos empregados.
processo de classificação, cada arquitetura recebeu adicionalmente, após o pré-treinamento,
duas camadas de neurônios totalmente conectados (Fully-Connected - FC) para possibilitar
o ajuste fino sob o paradigma de aprendizado supervisionado, sendo a saída da última FC
42
proveniente de ativações do tipo Softmax, responsável por classificar os eventos de alto nível
correspondentes. Uma DBM com duas camadas ocultas e duas FC é mostrada na Figura 10.
Figura 10 – DBM com duas camadas ocultas e duas FC.
O procedimento previamente descrito possibilita o aproveitamento do conhecimento dos
modelos sob o paradigma de aprendizado sem supervisão, bem como a adaptação de domínio
utilizando o ajuste fino com supervisão (apresentação das classes). Para isso, o novo modelo
classificador foi ajustado com um otimizador bem estabelecido na literatura, o Adam (do inglês,
Adaptive momentum) (KINGMA; BA, 2015), empregando uma taxa de aprendizado igual a
1 · 10−3, por 3 épocas e o mesmo número de amostras por mini-lote (128).
As camadas FC adicionadas para o classificador podem assumir duas configurações, de
acordo com a última camada oculta do modelo de energia pré-treinado, ou seja, modelos com
2.000 neurônios finais resultam em 2.000− 1.000− 5 neurônios nas camadas FC, enquanto
modelos com 4.000 resultam em 4.000− 2.000− 5, sendo 5 o número de eventos de alto nível.
Além disso, como a tarefa de adaptação de domínio é uma subárea da transferência de
aprendizado, é interessante manter o procedimento utilizado na TA para modelos pré-treinados,
ou seja, “congelar” os pesos das conexões da primeira camada oculta (nesse caso, da primeira
RBM do conjunto) e realizar um ajuste fino sutil das camadas subsequentes, com uma baixa
taxa de aprendizado igual a 1 · 10−6.
Por fim, todo o procedimento de ajuste fino dos modelos é guiado por uma função de
custo, e neste caso, a entropia-cruzada (cross-entropy) foi empregada por ser amplamente utili-
zada em problemas de classificação, levando em consideração o erro de classificação (BISHOP,
1995). A métrica de avaliação final é a acurácia, e os modelos foram executados 6 vezes a fim
43
de mitigar a natureza estocástica das técnicas.
É importante salientar que mais épocas de pré-treinamento e ajuste fino foram testadas
em estudos preliminares, porém, as diferenças no desempenho preditivo dos modelos não foram
significativas, ao passo que o tempo de execução foi impactado negativamente, provavelmente
pelas limitações inerentes às técnicas empregadas. Portanto, apenas os modelos com 3 épocas
foram mantidos para os experimentos e análises finais, os quais representam os melhores
cenários de “custo-benefício”.
6 Resultados Experimentais
Este capítulo é dedicado à apresentação dos resultados experimentais abordando a reso-
lução dos problemas citados, utilizando a adaptação de domínio e a proposta de processamento
de frames de vídeos nos modelos baseados em energia para os bancos UCF-101 e HMDB-51.
O capítulo é separado em duas seções, a primeira aborda a extração de atributos
utilizando o aprendizado não supervisionado, analisando a empregabilidade destes para a tarefa
de adaptação de domínio e posterior classificação de eventos complexos. Já a segunda seção
diz repeito aos resultados de classificação, considerando o processo de ajuste fino dos modelos
Somatório e os empregados como linha de base.
6.1 Aprendizado Não Supervisionado
A análise visual dos pesos aprendidos por uma técnica de DL, sob o paradigma não
supervisionado, é frequentemente uma boa maneira de analisar o processo de aprendizado,
uma vez que é possível observar como as informações de baixo e alto nível são capturadas, se
aproximando do processamento no córtex visual humano.
Frente aos modelos empregados nestes estudos preliminares, é possível analisar as
conexões das primeiras camadas de duas principais arquiteturas, diferindo na quantidade de
neurônios da primeira camada oculta. Portanto, a Figura 11 mostra a visualização referente
às conexões da primeira camada das variantes S-DBN (a) e DBN (b), com 2.000 neurônios
ocultos cada. Optou-se por mostrar apenas os pesos aprendidos por modelos referentes ao
banco de dados UCF-101, uma vez que é o mais promissor para a tarefa devido à quantidade
de videoclipes ser maior que os encontrados no HMDB-51.
A partir da Figura 11, pode-se observar que o modelo Somatório foi capaz de aprender
atributos mais informativos e menos saturados, isto é, menos regiões majoritariamente pretas
ou brancas que representam valores muito grandes ou pequenos para as sinapses. Além disso, o
modelo S-DBN mostrou maior capacidade em aprender conexões que favorecem a combinação
linear destas para a formação de conhecimento de alto nível em camadas subsequentes,
representados por pequenos contornos e pontos dispersos ao longo dos pesos.
O comportamento descrito anteriormente pode influenciar positivamente na adaptação
de domínio, resultando em um bom desempenho preditivo dos eventos complexos uma vez
que os neurônios ocultos estão carregando mais informações, evitando possíveis saturações em
suas ativações, fato que aumenta o poder de generalização das redes.
Adicionalmente, a Figura 12 mostra algumas conexões da primeira camada oculta dos
modelos (a) S-DBN e (b) DBN com 4.000 neurônios. É possível notar que o modelo Somatório
45
(a)
(b)
Figura 11 – Primeira camada de pesos de DBNs considerando os modelos (a) S-DBN e (b)
DBN com 2.000 neurônios ocultos.
tende a manter o comportamento discutido anteriormente, ou seja, modelar sinapses com
menor propensão à saturação das ativações que o modelo padrão.
As análises anteriores também foram feitas para as DBMs, padrão e Somatório, como
mostrado nas Figuras 13 e 14 em que são representadas algumas conexões dentre os 2.000
e 4.000 neurônios ocultos, respectivamente. A partir da Figura 13, pode-se observar que o
modelo S-DBM possui conexões menos saturadas que a DBM, indicando certa esparsidade
ao modelo Somatório, podendo conferir maior capacidade de generalização a este. Regiões
esparsas são representadas por tonalidades mais claras e/ou próximas da cor branca.
Por fim, a partir da Figura 14, observar-se novamente que o modelo S-DBM possui
conexões menos saturadas que a DBM. Além disso, o modelo Somatório parece possuir menos
regiões com valores aleatórios, ou seja, possuem coloração suavizada e menos caótica em
alguns quadros. De maneira geral, ambos os modelos com 4.000 neurônios indicam maior
46
(a)
(b)
Figura 12 – Primeira camada de pesos de DBNs considerando os modelos (a) S-DBN e (b)
DBN com 4.000 neurônios ocultos.
suscetibilidade à agregação de informação do domínio de ações, fato que pode favorecer a
adaptação de domínio para classificação de eventos de alto nível.
6.2 Avaliação dos Modelos para Classificação de Eventos de Alto
Nível
Nesta seção são apresentados os resultados em duas subseções, cada uma respectiva a
um banco de dados empregado, ou seja, UCF-101 e HMDB-51. Além disso, algumas observações
importantes são tratadas acerca do impacto computacional de cada modelo utilizado neste
trabalho.
47
(a)
(b)
Figura 13 – Primeira camada de pesos de DBMs considerando os modelos (a) S-DBM e (b)
DBM com 2.000 neurônios ocultos.
6.2.1 Banco de Dados UCF-101
Considerando a tarefa de classificação de eventos de alto nível a partir de ações em
vídeos, a Tabela 3 mostra o desempenho preditivo para todos os modelos elucidados na
Seção 5.2, executados 6 vezes cada. O valor destacado em negrito indica a maior acurácia
média atingida entre todos os modelos empregados. Além disso, é apresentado o tempo de
execução considerando as 3 épocas de pré-treinamento em todas as camadas ocultas presentes
nos modelos, a fim de analisar o impacto computacional e a eficiência de cada modelo testado.
A partir da Tabela 3, é possível observar resultados promissores, principalmente para a
abordagem Somatório dos modelos RBM e DBN. Analisando o modelo S-RBM, vê-se que este
atingiu maiores taxas de acerto média que sua versão padrão (RBM), com valores de 42, 48%
contra 38, 71%, ou seja, 3, 77 pontos de diferença na acurácia. Adicionalmente, a S-RBM tem
a menor carga computacional, aproximadamente 14% menos tempo de execução. Destacando
48
(a)
(b)
Figura 14 – Primeira camada de pesos de DBMs considerando os modelos (a) S-DBM e (b)
DBM com 4.000 neurônios ocultos.
que daqui em diante, a diferença percentual entre as acurácias dos modelos representa o valor
absoluto médio da versão Somatório subtraído da sua versão padrão, enquanto para o tempo
de execução o valor percentual representa o quociente entre o tempo médio da abordagem
Somatório e o modelo padrão.
Considerando a segunda comparação entre arquiteturas, ou seja, os modelos α, a versão
Somatório (S-DBNα) superou os resultados de acurácia média da DBN em praticamente 7%,
e de todos modelos desta linha de base, indicando um aumento representativo. Entretanto,
o modelo padrão (DBN) não conseguiu superar os resultados da sua versão mais simples
(RBM) em termos de acurácia, ao passo que a DBMα superou as versões padrões anteriores.
Além disso, o tempo de execução para a S-DBNα foi 30% menor que a DBNα, impactando
positivamente em um treinamento menos custoso. Em contrapartida, os tempos de execução
das DBMs foram maiores, fato esperado devido ao processo de pre-treinamento requerido para
49
Modelo Acurácia Tempo (min)
RBM 38, 71± 1, 04 315, 00± 5, 00
S-RBM 42, 48± 0, 94 270, 00± 5, 00
DBNα 37, 72± 4, 67 765, 00± 5, 00
S-DBNα 44, 66± 1, 28 540, 00± 5, 00
DBMα 43, 40± 4, 25 1.260, 00± 5, 00
S-DBMα 44, 55± 4, 38 961, 00± 5, 00
DBNβ 40, 55± 3, 54 1.215, 00± 5, 00
S-DBNβ 44, 80± 2, 02 810, 00± 5, 00
DBMβ 41, 59± 4, 23 1.785, 00± 5, 00
S-DBMβ 41, 27± 4, 26 1.295, 00± 5, 00
DBNι 41.92± 2, 65 775, 00± 6, 00
S-DBNι 45, 01 ± 1, 39 550, 00± 6, 00
DBMι 41, 64± 4, 30 2.110, 00± 6, 00
S-DBMι 43, 17± 4, 38 1685, 00± 6, 00
DBNζ 42, 33± 4, 51 1.225, 00± 6, 00
S-DBNζ 44, 87± 2, 81 820, 00± 6, 00
DBMζ 41, 61± 4, 27 2.563, 00± 6, 00
S-DBMζ 44, 89± 4, 36 1.957, 00± 6, 00
Tabela 3 – Acurácias médias (%) e tempo de execução (minutos) para o banco UCF-101.
a inicialização da rede.
A respeito dos modelos β, o mesmo comportamento pode ser observado, ou seja, a
versão Somatório superando os resultados da DBN padrão em aproximadamente 4% de acurácia
50
média, e 33% menos tempo de execução. Mesmo com bons resultados, a adição de outra
camada oculta ao modelo Somatório não gerou um aumento de desempenho muito expressivo,
uma vez que a S-DBNβ teve resultados próximos à S-DBNα. Já as DBMs β (Somatório e
padrão) tiveram resultados piores que suas respectivas versões α, entretanto, mesmo com as
observações anteriores, os modelos Somatório tiveram menor tempo de execução que suas
versões padrão.
A respeito da quarta arquitetura (modelos ι), a S-DBNι superou sua versão padrão,
atingindo a notável acurácia média de 45, 01%, o maior valor médio frente a todos os modelos
do estudo. Além disso, o tempo de execução para a S-DBNι foi 30% melhor que sua versão
padrão. Aqui, os modelos Somatório mostraram que a adição de mais neurônios ocultos pode ser
benéfico para a melhoria de desempenho geral na tarefa de adaptação de domínio e classificação
de eventos de alto nível, quando comparados às versões padrão (DBN e DBM). Os resultados
para a DBMι não foram tão satisfatórios quanto se esperava, principalmente ao comparar essa
versão com a de 2.000 neurônios ocultos (α), a qual atingiu melhor resultado de acerto médio
e melhor tempo de execução.
Por fim, os modelos ζ alcançaram praticamente o mesmo resultado dos modelos ι,
principalmente para a S-DBN, que atingiu a acurácia média de 44, 87%. Este resultado indica
que a adição de mais neurônios e mais camadas ocultas pode realmente impactar positivamente
o desempenho destes modelos. Porém, com o aumento da complexidade das arquiteturas estas
acabam consumindo um tempo de pré-treinamento maior, podendo inviabilizar o ganho de
desempenho. Novamente, os tempos de execução dos modelos Somatório foram melhores
que as versões padrão. Para estes últimos experimentos a S-DBM se sobressaiu sobre os
demais, atingindo a marca de 44, 89% de acerto médio, a maior para as DBMs até então,
possivelmente por conta da maior capacidade de extração de conhecimento conferida pelo
aumento de neurônios e camadas ocultas.
Não obstante, é essencial destacar que os modelos S-DBN não tiveram dificuldade
em atingir melhores acurácias médias que suas versões padrão e as RBMs, fato que está
ligado diretamente à capacidade de abstração hierárquica de camadas subjacentes. Os modelos
Somatório conseguiram melhorar o lower bound (limite inferior) da função Log-likelihood,
resultando em conexões úteis para a tarefa discriminativa feita após o ajuste fino. Já para
as DBMs, na maioria das arquiteturas a versão Somatório conferiu melhoria de desempenho
frente à versão padrão, porém, a melhoria não foi tão expressiva quanto nas DBNs.
6.2.2 Banco de Dados HMDB-51
Considerando a tarefa de classificação de eventos de alto nível a partir de ações em
vídeos, a Tabela 4 mostra o desempenho preditivo para todos os modelos elucidados na
Seção 5.2, executados 6 vezes cada. O valor destacado em negrito indica a maior acurácia
média atingida entre todos os modelos empregados. Além disso, é apresentado o tempo de
51
execução considerando as 3 épocas de pré-treinamento em todas as camadas ocultas presentes
nos modelos, a fim de analisar o impacto computacional e a eficiência de cada modelo testado.
Modelo Acurácia Tempo (min)
RBM 34, 60± 3, 90 45, 00± 5, 00
S-RBM 35, 19± 4, 24 30, 00± 5, 00
DBNα 34, 49± 3, 98 144, 00± 5, 00
S-DBNα 37, 68± 4, 19 132, 00± 5, 00
DBMα 33, 78± 4, 08 234, 00± 5, 00
S-DBMα 36, 53± 4, 23 162, 00± 5, 00
DBNβ 33, 83± 4, 06 216, 00± 5, 00
S-DBNβ 38, 70± 4, 33 198, 00± 5, 00
DBMβ 39, 04 ± 4, 31 336, 00± 5, 00
S-DBMβ 37, 72± 4, 26 238, 00± 5, 00
DBNι 34, 41± 4, 03 150, 00± 6, 00
S-DBNι 38, 23± 4, 25 138, 00± 6, 00
DBMι 38, 42± 4, 22 246, 00± 6, 00
S-DBMι 37, 96± 4, 19 170, 00± 6, 00
DBNζ 34, 53± 4, 04 225, 00± 6, 00
S-DBNζ 38, 86± 4, 26 207, 00± 6, 00
DBMζ 36, 35± 4, 20 351, 00± 6, 00
S-DBMζ 38, 02± 4, 30 249, 00± 6, 00
Tabela 4 – Acurácias médias (%) e tempo de execução (minutos) para o banco HMDB-51.
A partir da Tabela 4, é possível observar resultados interessantes e destoantes ao
52
considerar as análises da seção anterior. A abordagem Somatório para as RBMs atingiu uma
taxa de acerto média ligeiramente maior que sua versão padrão (RBM), com valores de 35, 19%
contra 34, 60%. Além disso, nota-se rapidamente que os tempos de execução de todos os
modelos são muito menores que os obtidos na Tabela 3, por conta da quantidade de videoclipes
do banco HMDB-51. A S-RBM tem a menor carga computacional, aproximadamente 33%
menor que a RBM.
A respeito da segunda comparação entre arquiteturas, ou seja, os modelos α, a versão
Somatório superou os resultados de acurácia média da DBN em praticamente 3%, indicando
um aumento representativo. Porém, o modelo padrão não conseguiu superar os resultados da
sua versão mais simples (RBM) em termos de acurácia. Além disso, o tempo de execução
para a S-DBNα foi aproximadamente 8% menor que a DBNα, impactando positivamente em
um treinamento menos custoso. As DBMs também foram impactadas positivamente pela
abordagem Somatório, tanto em acurácia quanto em tempo de execução, porém, seus acertos
médios foram menores que os alcançados pelas DBNs para ambas arquiteturas.
A respeito dos modelos β, o mesmo comportamento pode ser observado para as DBNs,
ou seja, a versão Somatório superando os resultados da DBN padrão em aproximadamente
4, 90% de acurácia média, e 8, 33% menos tempo de execução. Além disso, a adição de outra
camada oculta ao modelo Somatório gerou um ligeiro aumento de desempenho, aproximada-
mente 1% maior que a S-DBNα. Adicionalmente, observa-se uma quebra de padrão com as
DBMs, ou seja, o modelo padrão se sobressaiu frente à S-DBM, atingindo a taxa de acerto
média de 39, 04 contra 37, 72%, a maior acurácia média de todos os experimentos com o banco
HMDB-51.
A respeito da quarta arquitetura (modelos ι), nota-se um comportamento muito
semelhante à análise feita anteriormente, ou seja, o modelo S-DBNι superou sua versão padrão,
atingindo a acurácia média de 38, 23% contra 34, 41%, ao passo que a DBMι superou sua
versão Somatório em aproximadamente 0, 5%. Porém, o tempo de execução para a S-DBMι
foi 30% melhor que sua versão padrão.
Por fim, os modelos ζ alcançaram praticamente o mesmo resultado dos modelos ι,
principalmente para as DBNs Somatório e padrão. Em contrapartida, as DBMs tiveram uma
ligeira queda de desempenho na taxa de acerto média em relação aos modelos ι, que possuem
uma camada oculta a menos, enquanto a S-DBM praticamente manteve seu desempenho
preditivo. Estes resultados indicam que a adição de mais neurônios e camadas ocultas pode não
ser muito benéfico para o desempenho dos modelos quando não há uma grande quantidade de
dados. O comportamento do tempo de execução manteve-se o mesmo, como nas arquiteturas
anteriores.
7 Conclusão
A inteligência artificial tornou-se uma ferramenta importante no dia a dia de todos,
apoiada principalmente pela elevada conectividade dos dispositivos tecnológicos mais recentes.
Diante disso, diversas aplicações têm ganhado destaque e são foco de diversos estudos, dentre
elas a classificação de ações e eventos em vídeos, para os mais variados setores os quais o
homem está inserido, direta ou indiretamente.
Neste trabalho investigou-se o problema da classificação de eventos de alto nível em
vídeos, utilizando redes neurais baseadas em energia, como Restricted Boltzmann Machines,
Deep Belief Networks, e Deep Boltzmann Machines. A hipótese estabelecida é que estes modelos
são capazes de aprender e extrair atributos/características do domínio de ações que podem
ser empregados para classificar eventos complexos, ou de alto nível, utilizando a adaptação de
domínio em conjunto aos paradigmas de aprendizado não supervisionado e supervisionado.
Para a aplicação em questão, foi proposta a metodologia Somatório que visa simplificar
o processamento dos vídeos e conferir robustez aos modelos diante da variação espaço-temporal
que ocorre naturalmente em vídeos reais, como nos bancos de dados investigados. Os resultados
experimentais mostraram que os modelos baseados em energia foram capazes de cumprir
a tarefa de classificação de eventos de alto nível utilizando a adaptação de domínio com a
metodologia proposta. Deste modo, pode-se confirmar a hipótese da dissertação, ou seja, os
modelos empregados foram capazes de reconhecer e classificar eventos de alto nível em bancos
de dados de vídeos. Além disso, alguns pontos positivos (+) e negativos (-) são importantes
de serem destacados:
(+) Os modelos utilizados para o problema são relativamente simples;
(+) Utilizar as redes neurais como função de mapeamento entre domínios foi satisfatório;
(+) A área de estudo de eventos em vídeos teve a introdução de redes baseadas em energia
de maneira extensiva;
(+) Duas bibliotecas em Python foram geradas junto do trabalho final, uma específica
para bancos de dados de imagens (learnergy), e uma para bancos de dados de vídeos
(learnergy4video), disponíveis nos respectivos links: e .
(-) O banco de dados HMDB-51 possui poucos videoclipes, o que pode ter dificultado o
aprendizado das redes neurais;
(-) O custo computacional foi elevado, mesmo com a abordagem Somatório;
https://github.com/gugarosa/learnergy
https://github.com/gugarosa/learnergy
https://github.com/MateusRoder/learnergy4video
54
(-) Os modelos utilizados possuem arquiteturas simples, dificultando ganhos muito expressivos
de desempenho;
7.1 Trabalhos Futuros
Diante do conteúdo desenvolvido, diversas dificuldades foram encontradas, como o
treinamento de modelos que não utilizam operadores de convolução para tratar vídeos, e a
extração de informação contida no espaço-tempo proveniente de uma sequência de frames
extraídos de videoclipes. Também é possível citar o grande tempo de treinamento quando o
banco de dados é grande, mesmo utilizando o processamento em GPUs e mini-lotes relativamente
grandes. Entretanto, de forma positiva, algumas oportunidades foram encontradas, possibilitando
o levantamento de pontos de interesse para trabalhos futuros:
• Implementação de operações de convolução para as redes baseadas em energia;
• Investigar técnicas de regularização nas redes baseadas em energia para o domínio
explorado;
• Explorar técnicas de aumento artificial de dados (Data Augmentation) para classes
minoritárias e/ou bancos pequenos;
• Utilizar ambos bancos de dados para realizar o pré-treinamento e apenas um para o
ajuste fino, representando o paradigma de aprendizado fracamente supervisionado.
8 Trabalhos Desenvolvidos
No decorrer dos estudos dos tópicos relacionados à dissertação, e da implementação dos
algoritmos, surgiram possibilidades de expandir e propor algumas abordagens que culminaram
em trabalhos importantes desenvolvidos paralelamente, sendo estes elencados nas próximas
seções.
8.1 Learnergy: Energy-based Machine Learners
Ao longo dos últimos anos, as técnicas de aprendizado de máquina foram amplamente
incentivadas no contexto de arquiteturas de aprendizado profundo. Um importante algoritmo
denominado Máquinas de Boltzmann Restritas (um modelo de rede neural artificial) emprega
conceitos de natureza baseada em energia e probabilística para lidar com as mais diversas
aplicações, como classificação, reconstrução e geração de imagens e sinais. No entanto, observa-
se que essas redes não são adequadamente renomadas em comparação com outras técnicas de
aprendizado profundo bem conhecidas, como por exemplo, Redes Neurais Convolucionais.
Este comportamento promove certa escassez de pesquisas e principalmente implementa-
ções eficientes na literatura, dificultando a compreensão suficiente desses sistemas baseados em
energia. Portanto, neste artigo, propomos um framework em linguagem Python para o contexto
de arquiteturas baseadas em energia, denominado Learnergy. Essencialmente, Learnergy é
construído utilizando o PyTorch para fornecer um ambiente mais amigável e um espaço de
trabalho de prototipagem mais rápido e, possivelmente, além de possibilitar o uso de GPUs
para cálculos computacionais, acelerando seu tempo de execução.
Referência do trabalho:
RODER, M.; de ROSA, G. H.; PAPA, J. P. Learnergy: Energy-based Machine Learners.
arXiv preprint arXiv:2003.07443, 2020.
8.2 Intestinal Parasites Classification Using Deep Belief Networks
Atualmente, aproximadamente 4 bilhões de pessoas estão infectadas por parasitas
intestinais em todo o mundo. As doenças causadas por estes constituem um problema de saúde
pública na maioria dos países tropicais, levando a distúrbios físicos e mentais e até a morte de
crianças e indivíduos imunodeficientes.
Embora sujeita a altas taxas de erro, a inspeção visual humana ainda é responsável
pela grande maioria dos diagnósticos clínicos. Nos últimos anos, alguns trabalhos abordaram a
56
classificação inteligente de parasitas intestinais auxiliados por computador, mas eles geralmente
sofrem de classificação incorreta devido a semelhanças entre parasitas e impurezas fecais.
Neste artigo, Deep Belief Networks foram aplicadas no contexto da classificação auto-
mática de parasitas intestinais. Experimentos realizados em três conjuntos de dados compostos
por ovos, larvas e protozoários forneceram resultados promissores, mesmo considerando classes
desequilibradas e também impurezas fecais.
Além da aplicação de DBNs e RBMs para o problema de classificação, uma nova
abordagem para mitigar o desbalanceamento de classes foi proposta utilizando RBMs. Esta
abordagem consiste em treinar RBMs específicas para as classes com menos exemplos e utilizar
o aspecto generativo das redes para gerar imagens sintéticas que possam ser utilizadas para
compor o novo banco de dados, assemelhando-se da abordagem de aumento artficial de dados
(Artificial Data Augmentation), porém com características estocásticas que conferem variação
aos dados de entrada e possibilita a utilização destes para treinar um modelo geral.
Referência do trabalho:
RODER, M.; PASSOS JUNIOR, L. A.; RIBEIRO, L. C. F.; BENATO, B. C.; FALCÃO,
A. X.; PAPA, J. P. Intestinal Parasites Classification Using Deep Belief Networks. In: 19th
International Conference on Artificial Intelligence and Soft Computing, Zakopane. ICAISC 2020:
Artificial Intelligence and Soft Computing. Springer, v. 12415. p. 242-251, doi: 10.1007/978-3-
030-61401-0_23, 2020.
8.3 A Layer-Wise Information Reinforcement Approach to Improve
Learning in Deep Belief Networks
Com o advento da Deep Learning, o número de trabalhos propondo novos métodos
ou aprimorando os existentes aumentou exponencialmente nos últimos anos. Nesse cenário,
modelos “ muito profundos” emergiram, esperando que extraíssem atributos mais significativos
e abstratos ao mesmo tempo, possibilitando um melhor desempenho. No entanto, esses modelos
sofrem com o problema de desaparecimento do gradiente (Gradient Vanishing), ou seja, os
valores de retropropagação se tornam muito próximos de zero nas camadas mais superficiais
das redes, fazendo com que o aprendizado fique estagnado.
O problema mencionado foi superado no contexto de redes neurais convolucionais,
criando “conexõ