Logo do repositório

Human-centric self-supervised video robbery detection

Carregando...
Imagem de Miniatura

Orientador

Salvadeo, Denis Henrique Pinheiro [UNESP/

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (inglês)

In São Paulo State, Brazil, 228,028 robberies were reported in 2023 alone, according to the São Paulo State Public Security Department. Motivated by this high crime rate, this work aims to detect robberies in video surveillance footage using Deep Learning. The main hypothesis of this thesis is that extracting the interpersonal dynamics of people in the video can improve robbery detection performance and reduce the need for labeled data. To validate this hypothesis, this work applies Self-Supervised Learning to human posture data, rather than using raw video pixels. To the best of our knowledge, there has been no prior investigation into extracting interpersonal dynamics within the research area defined by these three topics: (i) Self-Supervised Learning, (ii) Human Posture, and (iii) Robbery Detection. The ultimate goal of this work is to develop surveillance solutions that enhance robbery detection quality while requiring less labeled data for training, offering an improvement over traditional manual video analysis, which is both time-consuming and inefficient. For the research, a novel dataset named CamNuvem was created, containing real-world videos of robbery situations, with both frame-level and video-level annotations. An initial benchmark was conducted comparing several video anomaly detection methods. The first contribution of this work is a Self-Supervised Learning pretext task that takes raw video frames as input and attempts to predict the future positions and postures of individuals in the scene. The aim of this pretext task is to learn the relationships among people. Training and testing were conducted using the anomaly detection datasets CamNuvem and UCF-Crime, employing a traditional I3D feature extractor. Across 12 experimental scenarios, 7 (58%) achieved better results than the baseline (anomaly detection without the proposed pretext task), with the best case reaching 88.40% AUC on the CamNuvem dataset, an improvement of 2.6% over the baseline. The second contribution is another Self-Supervised Learning pretext task that uses only the postures of people in a scene to predict their future postures, without relying on raw video pixels. In this work, however, a preprocessing step is required to detect and identify individuals in the video. Among multiple experimental scenarios evaluated, the best result showed an improvement of 4.01% in AUC over the baseline using the CamNuvem dataset, while requiring significantly less data and no human-generated labels. Although these results show benefits from using the proposed approach, experiments indicated that it is not possible to state that this improvement is a direct result of extracting interpersonal relationships from the videos. Therefore, our hypothesis could not be confirmed: the use of Self-Supervised Learning to extract interpersonal dynamics from human posture is useful for improving the quality of theft detection. Nevertheless, the approaches presented in this work can be applied to any task involving videos that display interactions between people, and in the future, they may be evaluated in applications such as the analysis of strategies in team sports.

Resumo (português)

No estado de São Paulo, Brasil, foram registrados 228.028 roubos somente em 2023, de acordo com a Secretaria de Segurança Pública do Estado de São Paulo. Motivado por essa alta taxa de criminalidade, este trabalho tem como objetivo detectar roubos em imagens de videomonitoramento utilizando Deep Learning. A principal hipótese desta tese é que a extração das dinâmicas interpessoais das pessoas no vídeo pode melhorar o desempenho da detecção de roubos e reduzir a necessidade de dados rotulados. Para validar essa hipótese, este trabalho aplica Aprendizado Autossupervisionado (Self-Supervised Learning) nos dados de postura humana, em vez de utilizar pixels brutos dos vídeos. Até onde sabemos, não houve investigações anteriores sobre a extração de dinâmicas interpessoais dentro da área de pesquisa definida por estes três tópicos: (i) Aprendizado Autossupervisionado, (ii) Postura Humana e (iii) Detecção de Roubos. O objetivo final deste trabalho foi desenvolver soluções de videomonitoramento que melhorem a qualidade da detecção de roubos, exigindo menos dados rotulados para treinamento, representando um avanço em relação à análise manual tradicional de vídeos, que é demorada e ineficiente. Para a realização da pesquisa, foi criado um novo conjunto de dados chamado CamNuvem dataset, contendo vídeos reais de situações de roubo, com anotações tanto em nível de quadro quanto em nível de vídeo. Um benchmark inicial foi realizado, comparando diversos métodos de detecção de anomalias em vídeo. A primeira contribuição deste trabalho é uma tarefa pretexto de Aprendizado Autossupervisionado que recebe os pixels dos vídeos como entrada e tenta prever as futuras posições e posturas dos indivíduos na cena. O objetivo dessa tarefa pretexto é aprender as relações entre as pessoas. O treinamento e os testes foram realizados utilizando os conjuntos de dados de detecção de anomalias CamNuvem e UCF-Crime, com o uso de um extrator de características I3D tradicional. Em 12 cenários experimentais, 7 deles (58%) apresentaram melhores resultados do que o baseline (detecção de anomalias sem a tarefa pretexto proposta), sendo que o melhor caso alcançou 88,40% de AUC no conjunto de dados CamNuvem, uma melhora de 2,6% em relação à linha de base. A segunda contribuição é outra tarefa pretexto de Aprendizado Autossupervisionado que utiliza apenas as posturas das pessoas em uma cena para prever suas posturas futuras, sem depender dos pixels brutos dos vídeos. Neste caso, no entanto, é necessário um passo de pré-processamento para detectar e identificar os indivíduos no vídeo. Entre os diversos cenários experimentais avaliados, o melhor resultado demonstrou uma melhora de 4,01% em AUC em relação ao baseline utilizando o conjunto de dados CamNuvem, ao mesmo tempo que exigiu significativamente menos dados e nenhuma anotação feita por humanos. Embora esses resultados mostrem benefícios ao usar a abordagem proposta, experimentos mostraram que não é possível afirmar que essa melhora é resultado direto da extração de relações interpessoais nos vídeos. Portanto, não foi possível confirmar a nossa hipótese: o uso de Aprendizado Autossupervisionado para extrair dinâmicas interpessoais a partir da postura humana é útil para melhorar a qualidade da detecção de roubos. Mesmo assim, as abordagens apresentadas neste trabalho podem ser aplicadas em qualquer tarefa contendo vídeos exibindo interações entre pessoas, e, no futuro, elas podem ser avaliadas em aplicações como análise de estratégias em esportes coletivos.

Descrição

Palavras-chave

Self-supervised learning, Video surveillance, Robbery detection, Deep learning, Video anomaly detection, Aprendizado autossupervisionado, Videomonitoramento, Detecção de roubos, Aprendizado profundo, Detecção de anomalias em vídeos

Idioma

Inglês

Citação

Itens relacionados

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação