Integração de mecanismos de atenção em redes neurais convolucionais e híbridas no contexto de imagens histológicas
Carregando...
Data
Autores
Orientador
Neves, Leandro Alves 

Coorientador
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Modelos de aprendizado profundo para classificação de imagens histológicas carecem de interpretabilidade. Este trabalho propõe um framework modular, combinando attention branches e regularização por entropia (CAM Fostering) para aprimorar a explicabilidade do método Grad-CAM. A metodologia foi validada em sete backbones (ResNet-50, DenseNet-201, EfficientNet-b0, ResNext-50, ConvNext, CoatNet-small e Uniformer), em cinco datasets de imagens histológicas, a partir do uso de métricas quantitativas, sendo elas: complexidade (COM), coerência (CO), queda de confiança (QC) e média DCC (ADCC). Os resultados confirmaram ganhos consistentes no ADCC em seis dos sete modelos, destacando-se o ResNet-50 (63,21%) e o ResNeXt-50 (62,12%). Além disso, observou-se um ganho expressivo na estabilidade das explicações, no ConvNext, por exemplo, a QC média caiu de 19,58% para 5,91%, e modelos híbridos, como o Uniformer, também apresentaram melhorias relevantes, com ADCC de 54,81%. Esses ganhos de interpretabilidade não resultaram em perdas significativas de acurácia, de modo que o desempenho de classificação foi preservado e, em alguns casos, inclusive aprimorado, como no CoatNet-small, que alcançou uma F1-Score de 95,14%. Nos demais modelos backbone, as variações máximas permaneceram inferiores a 2,2%. Este trabalho oferece, portanto, uma solução capaz de aumentar a transparência do diagnóstico assistido por modelos de aprendizado profundo ao destacar regiões relevantes sem comprometer a acurácia.
Resumo (inglês)
Deep learning models for histological image classification lack interpretability. This work proposes a modular framework, combining attention branches and entropy regularization (CAM Fostering), to enhance the explainability of the Grad-CAM method. The methodology was validated across seven backbones (ResNet-50, DenseNet-201, EfficientNet-b0, ResNeXt-50, ConvNeXt, CoatNet-small, and Uniformer) on five histological image datasets, using quantitative metrics, namely: Complexity (COM), Coherence (CO), Confidence Drop (CD), and Average DCC (ADCC). Results confirmed consistent gains in ADCC in six out of the seven models, with ResNet-50 (63.21%) and ResNeXt-50 (62.12%) standing out. Furthermore, a significant gain in explanation stability was observed; in ConvNeXt, for instance, the average CD dropped from 19.58% to 5.91%, and hybrid models, such as Uniformer, also showed relevant improvements, reaching an ADCC of 54.81%. These interpretability gains did not result in significant accuracy losses; classification performance was preserved and, in some cases, even improved, as seen in CoatNet-small, which achieved an F1-Score of 95.14%. In the other backbone models, maximum variations remained below 2.2%. Therefore, this work offers a solution capable of increasing the transparency of deep learning-assisted diagnosis by highlighting relevant regions without compromising accuracy.
Descrição
Palavras-chave
Redes neurais convolucionais, Imagens histológicas, Attention branches, Cam fostering, Vision transformers, Grad-cam, Histological images
Idioma
Português
Citação
MIGUEL, Pedro Lucas. Integração de mecanismos de atenção em redes neurais convolucionais e híbridas no contexto de imagens histológicas. Dissertação (Mestrado em Ciência da Computação). 2026 – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2026.


