Detecção de mudanças em imagens utilizando aprendizado residual de redes neurais convolucionais

Santos, Daniel Felipe Silva

Detecção de mudanças em imagens utilizando aprendizado residual de redes neurais convolucionais

Arquivos

santos_dfs_dr_bauru.pdf (31.79 MB)

Data

2024-01-05

Autores

Santos, Daniel Felipe Silva

Orientador

Papa, João Paulo

Coorientador

Marana, Aparecido Nilceu

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso aberto

Resumo

Resumo (português)

Detecção de mudanças em vídeos e imagens diz respeito ao processo de separar os conteúdos de primeiro plano da cena observada, do inglês \textit{foreground}, dos conteúdos de segundo plano, do inglês \textit{background}. Bons métodos de detecção de mudanças necessitam trabalhar de forma rápida e precisa sob condições adversas intrínsecas, relacionadas a falhas dos dispositivos de captura utilizados, e extrínsecas, relacionadas a alterações ambientais de clima e luminosidade capazes de induzir processos de detecção falso positivos e falso negativos. Para superar tais desafios propõe-se, num primeiro momento, o mecanismo denominado de atenção residual implícita, a ser avaliado pelas técnicas propostas de detecção de mudanças em vídeos denominadas Rede Neural Convolucional Residual em Cascata (CRCNN) e Rede Neural Convolucional em Cascata Multiescala (MCRCNN). Em um segundo momento propõe-se o mecanismo de atenção residual explícita, avaliado pelo método proposto denominado de Rede Leve de Atenção Temporal (TITAN). Resultados quantitativos produzidos pelas técnicas CRCNN e MCRCNN, calculados sobre a base de dados de Detecção de Mudanças 2014 (CD2014), indicaram ser vantajosa a utilização do mecanismo de atenção residual implícita, sendo a técnica MCRCNN superior à técnica CRCNN e a demais técnicas em estado da arte, como RTSegNet e DeepBS. Resultados quantitativos produzidos pela técnica TITAN, calculados sobre as bases de dados SZATAKI, Onera, LEVIR-CD e SYSU-CD, demonstraram ser vantajosa a utilização de mecanismo de atenção residual explícita. Para as mesmas bases de dados, a técnica TITAN também superou técnicas em estado da arte como FLS e STANet e equiparou-se com técnicas como DMINet e RSCDNet. Além disso, obteve resultados superiores ao de técnicas como FgSegNet\_S, FgSegNet\_M, RtSegNet, MUNets, DeepBS, SEUNet3 e MCRCNN sobre a base de vídeos CD2014, enquanto equiparou-se com técnicas como DMINet e FgSegNet\_v2, considerando a base de dados PetrobrasROUTES. Para quadros de dimensão $690 \times 520$, nos piores casos analisados, a técnica TITAN realizou $25,8 \times 10^9$ menos operações de ponto flutuante (FLOPs) e necessitou armazenar em memória $3,04 \times 10^6$ menos parâmetros, em comparação com a técnica DMINet. Também conseguiu superar a taxa de processamento de quadros por segundo (FPS) da técnica MU-Net1 em $20$ quadros.

Resumo (inglês)

Video and image change detection relates to the process of decomposing an observed scene into foreground and background contents. Good change detection methods need to work in a fast and precise way under intrinsic adverse conditions, related to failures of the used capture devices, and extrinsic ones, regarding to climate and luminosity environment changes capable of inducing false positive and false negative detections. To overcomes such challanges it is proposed, at first, a mechanism called implicit residual attention, to be evaluated using the poposed techniques named Cascade Residual Convolutional Neural Network (CRCNN) and Multiscale Cascade Residual Convolutional Neural Network (MCRCNN). In a second momment, it is proposed a mechanism of explicit residual attention, to be evaluated by the proposed method called LighTweIght Temporal Attention Network (TITAN). Quantitative results produced by CRCNN and MCRCNN techniques, computed over Change Detection 2014 dataset (CD2014), indicate that the implicit residual attention mechanism usage was advantegeous, in that MCRCNN technique surpassed CRCNN and other state-of-the-art techniques like RTSegNet and DeepBS. Quantitative results produced by TITAN technique, concerning SZATAKI, Onera, LEVIR-CD, and SYSU-CD datasets, shown that the explicit residual attention mechanism usage was advantegeous. For the same datasets, the TITAN technique also surpassed other state-of-the-art techniques like FLS and STANet, and was on par with techniques such as DMINet and RSCDNet. Besides, it acchieved on par results with DMInet and FgSegNet\_v2 regarding PetrobrasROUTES dataset. Considering frames of sizes $690 \times 520$, in the worst case scenarios, TITAN technique executes $25.8 \times 10^9$ less floating point operations (FLOPs) and needed to store $3.04 \times 10^6$ less parameters into memmory in comparison agaist DMINet technique. It also overcomed MU-Net1 frames per second processing rate by $20$ frames.

Palavras-chave

Detecção de mudanças, Atenção residual, Rede neural convolucional, Change detection, Residual attention, Convolutional neural network

Idioma

Português

Citação

SANTOS, D. F. S. Detecção de mudanças em imagens utilizando aprendizado residual de redes neurais convolucionais. 2024. 125 p. Tese (Doutorado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista "Júlio de Mesquita Filho", Bauru, 2024. Disponível em: https://hdl.handle.net/11449/253297. Acesso em: 15 de fev. 2024