Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo

Silva, Lucas de Brito

Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo

dc.contributor.advisor	Salvadeo, Denis Henrique Pinheiro [UNESP]
dc.contributor.author	Silva, Lucas de Brito
dc.date.accessioned	2024-03-27T15:32:10Z
dc.date.available	2024-03-27T15:32:10Z
dc.date.issued	2024-02-05
dc.description.abstract	A visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.	pt
dc.description.abstract	Computer vision, especially in the field of image segmentation, has made significant contributions to advanced medical analysis, understanding complex scenes, design of autonomous systems, among other areas of possible applications. The emergence of deep learning techniques has enabled the advancement of architectures and models with a view to achieving the state-of-the-art in image segmentation. However, there are still significant obstacles to be overcome, particularly the simultaneous preservation of spatiality and maintaining a global view of the attribute map during the dimensionality reduction procedure inherent in the pooling layers of convolutional networks. Faced with this challenge, this work proposes the investigation and development of the Block-based Principal Component Analysis Pooling (BPCAPooling) method. Different from the conventional Max Pooling method, BPCAPooling is a PCA-based pooling method that seeks not only to locally preserve the spatial information of samples, but also to maintain a global view of attribute maps while reducing dimensionality. To evaluate the effectiveness of this method, it was first applied to the architecture of convolutional neural networks such as the Visual Geometry Group (VGG) with 16 weight layers, and later extended to more complex architectures with the challenge of image segmentation, namely U-Nets and its variants. The experiments showed that, although the application of BPCAPooling in classification models did not outperform traditional methods in terms of metrics such as accuracy and loss, visual differences were observed when compared with conventional pooling methods. Furthermore, in the semantic segmentation task, the method proved to be a viable alternative, reaching a score of 0.3333 in Mean Intersection over Union (mIoU), accuracy of 86.77% and loss of 0.6659.	en
dc.description.sponsorship	Não recebi financiamento	pt
dc.identifier.lattes	5691716877053247
dc.identifier.orcid	0000-0001-6748-5100
dc.identifier.uri	https://hdl.handle.net/11449/254787
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Visão computacional	pt
dc.subject	Segmentação de imagens	pt
dc.subject	Redes neurais convolucionais	pt
dc.subject	Preservação de espacialidade	pt
dc.subject	Block-based Principal Component Analysis Pooling (BPCAPooling)	en
dc.subject	Computer vision	en
dc.subject	Image segmentation	en
dc.subject	Convolutional neural networks	en
dc.subject	Preservation of spatiality	en
dc.title	Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo	pt
dc.title.alternative	Semantic image segmentation with BPCAPooling: a deep learning-based approach	en
dc.type	Dissertação de mestrado	pt
unesp.campus	Universidade Estadual Paulista (Unesp), Instituto de Geociências e Ciências Exatas, Rio Claro	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2	pt
unesp.knowledgeArea	Computação aplicada	pt
unesp.researchArea	Inteligêcia computacional	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: silva_lb_me_rcla.pdf
Tamanho:: 137.73 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.99 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Instituto de Geociências e Ciências Exatas, Rio Claro