Segmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundo

dc.contributor.advisorSalvadeo, Denis Henrique Pinheiro [UNESP]
dc.contributor.authorSilva, Lucas de Brito
dc.date.accessioned2024-03-27T15:32:10Z
dc.date.available2024-03-27T15:32:10Z
dc.date.issued2024-02-05
dc.description.abstractA visão computacional, especialmente no âmbito de segmentação de imagens, tem promovido contribuições significativas para análises médicas avançadas, compreensão de cenas complexas, design de sistemas autônomos, entre outros domínios de possíveis aplicações. A emergência de técnicas de aprendizado profundo tem possibilitado o avanço de arquiteturas e modelos com vistas a alcançar primeiramente o estado-da-arte na segmentação de imagens. No entanto, ainda há obstáculos significativos a serem superados, particularmente a preservação simultânea da espacialidade e a manutenção de uma visão global do mapa de atributos durante o procedimento de redução de dimensionalidade inerente às camadas de pooling das redes convolucionais. Frente a esse desafio, este trabalho propõe a investigação e o desenvolvimento do método Block-based Principal Component Analysis Pooling (BPCAPooling). Diferente do método convencional Max Pooling, o BPCAPooling é um método de pooling baseado no PCA que busca não apenas preservar localmente a informação espacial das amostras, mas também manter uma visão global dos mapas de atributos enquanto reduz a dimensionalidade. Para avaliar a eficácia deste método, foi aplicado primeiramente na arquitetura de redes neurais convolucionais como a Visual Geometry Group (VGG) com 16 camadas de peso, e posteriormente estendido a arquiteturas mais complexas com o desafio de segmentação de imagens, nomeadamente as U-Nets e suas variantes. Os experimentos mostraram que, embora a aplicação do BPCAPooling em modelos de classificação não tenha superado os métodos tradicionais em termos de métricas como acurácia e loss, observaram-se diferenças visuais na comparação com os métodos de pooling convencionais. Além disso, na tarefa de segmentação semântica, o método mostrou-se como uma alternativa viável, atingindo uma pontuação de 0,3333 em Mean Intersection over Union (mIoU), acurácia de 86,77% e loss de 0,6659.pt
dc.description.abstractComputer vision, especially in the field of image segmentation, has made significant contributions to advanced medical analysis, understanding complex scenes, design of autonomous systems, among other areas of possible applications. The emergence of deep learning techniques has enabled the advancement of architectures and models with a view to achieving the state-of-the-art in image segmentation. However, there are still significant obstacles to be overcome, particularly the simultaneous preservation of spatiality and maintaining a global view of the attribute map during the dimensionality reduction procedure inherent in the pooling layers of convolutional networks. Faced with this challenge, this work proposes the investigation and development of the Block-based Principal Component Analysis Pooling (BPCAPooling) method. Different from the conventional Max Pooling method, BPCAPooling is a PCA-based pooling method that seeks not only to locally preserve the spatial information of samples, but also to maintain a global view of attribute maps while reducing dimensionality. To evaluate the effectiveness of this method, it was first applied to the architecture of convolutional neural networks such as the Visual Geometry Group (VGG) with 16 weight layers, and later extended to more complex architectures with the challenge of image segmentation, namely U-Nets and its variants. The experiments showed that, although the application of BPCAPooling in classification models did not outperform traditional methods in terms of metrics such as accuracy and loss, visual differences were observed when compared with conventional pooling methods. Furthermore, in the semantic segmentation task, the method proved to be a viable alternative, reaching a score of 0.3333 in Mean Intersection over Union (mIoU), accuracy of 86.77% and loss of 0.6659.en
dc.description.sponsorshipNão recebi financiamentopt
dc.identifier.lattes5691716877053247
dc.identifier.orcid0000-0001-6748-5100
dc.identifier.urihttps://hdl.handle.net/11449/254787
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectVisão computacionalpt
dc.subjectSegmentação de imagenspt
dc.subjectRedes neurais convolucionaispt
dc.subjectPreservação de espacialidadept
dc.subjectBlock-based Principal Component Analysis Pooling (BPCAPooling)en
dc.subjectComputer visionen
dc.subjectImage segmentationen
dc.subjectConvolutional neural networksen
dc.subjectPreservation of spatialityen
dc.titleSegmentação semântica de imagens com BPCAPooling: uma abordagem baseada em aprendizado profundopt
dc.title.alternativeSemantic image segmentation with BPCAPooling: a deep learning-based approachen
dc.typeDissertação de mestradopt
unesp.campusUniversidade Estadual Paulista (Unesp), Instituto de Geociências e Ciências Exatas, Rio Claropt
unesp.embargoOnlinept
unesp.examinationboard.typeBanca públicapt
unesp.graduateProgramCiência da Computação - FC/FCT/IBILCE/IGCE 33004153073P2pt
unesp.knowledgeAreaComputação aplicadapt
unesp.researchAreaInteligêcia computacionalpt

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
silva_lb_me_rcla.pdf
Tamanho:
137.73 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.99 KB
Formato:
Item-specific license agreed upon to submission
Descrição: