Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo

Carregando...
Imagem de Miniatura

Data

2024-02-05

Orientador

Salvadeo, Denis Henrique Pinheiro

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.

Resumo (inglês)

Computer vision, especially in the field of image segmentation, has made significant contributions to advanced medical analysis, understanding complex scenes, design of autonomous systems, among other areas of possible applications. The emergence of deep learning techniques has enabled the advancement of architectures and models with a view to achieving the state-of-the-art in image segmentation. However, there are still significant obstacles to be overcome, particularly the simultaneous preservation of spatiality and maintaining a global view of the attribute map during the dimensionality reduction procedure inherent in the pooling layers of convolutional networks. Faced with this challenge, this work proposes the investigation and development of the Block-based Principal Component Analysis Pooling (BPCAPooling) method. Different from the conventional Max Pooling method, BPCAPooling is a PCA-based pooling method that seeks not only to locally preserve the spatial information of samples, but also to maintain a global view of attribute maps while reducing dimensionality. To evaluate the effectiveness of this method, it was first applied to the architecture of convolutional neural networks such as the Visual Geometry Group (VGG) with 16 weight layers, and later extended to more complex architectures with the challenge of image segmentation, namely U-Nets and its variants. The experiments showed that, although the application of BPCAPooling in classification models did not outperform traditional methods in terms of metrics such as accuracy and loss, visual differences were observed when compared with conventional pooling methods. Furthermore, in the semantic segmentation task, the method proved to be a viable alternative, reaching a score of 0.3333 in Mean Intersection over Union (mIoU), accuracy of 86.77% and loss of 0.6659.

Descrição

Idioma

Português

Como citar

Itens relacionados