GANs e diffusion models para o aumento artificial de datasets histológicos H&E

A variabilidade morfológica dos tecidos e a complexidade dos padrões histológicos impõem desafios significativos à construção de modelos robustos de diagnóstico assistido por computador. Nesse contexto, a geração de imagens sintéticas surge como uma alternativa promissora para ampliar a diversidade e a qualidade das bases de treinamento, além de permitir análises controladas da sensibilidade dos modelos supervisionados. Neste trabalho, uma estrutura computacional voltada à geração, ao aumento e à avaliação quantitativa de imagens histológicas foi definida, investigando diferentes paradigmas de geração, incluindo GANs convencionais, variantes aprimoradas por explicabilidade (XGANs) e modelos de difusão, como DDIM e NCSN++. Nas XGANs, a estratégia foi fundamentada a partir de técnicas de Explainable Artificial Intelligence (XAI) incorporadas à função de perda do gerador, com o objetivo de aprimorar o realismo estrutural das imagens sintéticas. As imagens geradas foram utilizadas para expandir pequenos conjuntos de dados histológicos de tecidos colorretais, mamários e hepáticos, sendo posteriormente empregadas no treinamento de diferentes classificadores supervisionados. Foram avaliadas arquiteturas baseadas em Convolutional Neural Networks (CNNs) e Vision Transformer. No conjunto colorretal, por exemplo, a acurácia do ViT aumentou de 81,29% para 88,40% com o uso de imagens geradas pela StyleGAN3. Os modelos de difusão apresentaram os menores valores de FID, 33,36 (colorretal), 34,22 (hepático) e 40,86 (mamário), enquanto as XGANs e a StyleGAN3 obtiveram métricas KID e IS competitivas, indicando alta qualidade e diversidade na síntese. Esses resultados evidenciam a relevância da integração entre modelagem generativa e explicabilidade para aprimorar o aumento de dados e o desempenho dos classificadores em histopatologia, fornecendo subsídios importantes para o desenvolvimento e a avaliação de sistemas voltados à patologia computacional.

Resumo (inglês)

The morphological variability of tissues and the complexity of histological patterns represent significant challenges for the development of robust computer-aided diagnostic models. In this context, the generation of synthetic images emerges as a promising alternative to enhance the diversity and quality of training datasets while enabling controlled analyses of supervised model sensitivity. This work defines a computational framework for the generation, augmentation, and quantitative evaluation of histological images, exploring different paradigms of generative modeling, including conventional GANs, explainability-enhanced variants (XGANs), and diffusion models such as DDIM and NCSN++. In the XGAN formulation, strategies based on Explainable Artificial Intelligence (XAI) were incorporated into the generator loss function to improve the structural realism of synthetic images. The generated samples were used to expand small H&E datasets of colorectal, breast, and liver tissues, subsequently employed to train different supervised classifiers. Architectures based on Convolutional Neural Networks (CNNs) and the Vision Transformer (ViT) were evaluated. In the colorectal dataset, for instance, the ViT accuracy increased from 81.29% to 88.40% when trained with images generated by StyleGAN3. Diffusion models achieved the lowest FID scores, 33.36 (colorectal), 34.22 (hepatic), and 40.86 (breast), while XGANs and StyleGAN3 obtained competitive KID and IS metrics, indicating high quality and diversity in synthesis. These findings highlight the relevance of integrating generative modeling and explainability to improve data augmentation and classifier performance in histopathology, providing valuable insights for the development and evaluation of computational pathology systems.

Palavras-chave

redes neurais, modelos de difusão, redes adversárias generativas, visão por computador, histologia, neural networks, computer vision, diffusion models, generative adversarial networks, histology

Idioma

Português

Citação

GARCIA, Bianca Lançoni de Oliveira. Gans e diffusion para o aumento artificial de datasets histológicos H&E. 2025. Trabalho de Conclusão de Curso (Graduação em Ciências da Computação) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, São José do Rio Preto, 2025.