UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Instituto de Geociências e Ciências Exatas Programa de Pós-Graduação em Ciência da Computação Uemerson Pinheiro Junior Registro Não-Rígido de Imagens Médicas usando Block-Based Principal Component Analysis como Camada de Pooling Rio Claro - SP 2024 UNIVERSIDADE ESTADUAL PAULISTA "Júlio de Mesquita Filho" Instituto de Geociências e Ciências Exatas Câmpus de Rio Claro Uemerson Pinheiro Junior Registro Não-Rígido de Imagens Médicas usando Block-Based Principal Component Analysis como Camada de Pooling Dissertação de Mestrado apresentada ao Instituto de Geociências e Ciências Exatas do Câmpus de Rio Claro, da Universidade Estadual Paulista “Júlio de Mesquita Filho”, como parte dos requisitos para obtenção do título de Mestre no Programa de Pós-Graduação em Ciência da Computação. Orientador: Prof. Dr. Denis Henrique Pi- nheiro Salvadeo Rio Claro - SP 2024 P654r Pinheiro Junior, Uemerson Registro não-rígido de imagens médicas usando block-based principal component analysis como camada de pooling / Uemerson Pinheiro Junior. -- Rio Claro, 2024 92 p. : il., tabs. Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Instituto de Geociências e Ciências Exatas, Rio Claro Orientador: Denis Henrique Pinheiro Salvadeo 1. Registro Não-Rígido de Imagem. 2. Imagens Médicas. 3. Aprendizado Profundo. 4. Análise de Componentes Principais. 5. Block-Based Principal Component Analysis. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Universidade Estadual Paulista (UNESP), Instituto de Geociências e Ciências Exatas, Rio Claro. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. UNIVERSIDADE ESTADUAL PAULISTA "Júlio de Mesquita Filho" Instituto de Geociências e Ciências Exatas Câmpus de Rio Claro Uemerson Pinheiro Junior Registro Não-Rígido de Imagens Médicas usando Block-Based Principal Component Analysis como Camada de Pooling Dissertação de Mestrado apresentada ao Insti- tuto de Geociências e Ciências Exatas do Câm- pus de Rio Claro, da Universidade Estadual Pau- lista “Júlio de Mesquita Filho”, como parte dos requisitos para obtenção do título de Mestre no Programa de Pós-Graduação em Ciência da Computação. Comissão Examinadora Prof. Dr. Denis Henrique Pinheiro Salvadeo IGCE / UNESP / Rio Claro (SP) Orientador Prof. Dr. Wallace Correa de Oliveira Casaca IBILCE / UNESP / São José do Rio Preto (SP) Prof. Dr. Marcelo Zanchetta do Nascimento FACOM / UFU / Uberlândia (MG) Conceito: Aprovado. Rio Claro (SP), 04 de março de 2024 Agradeço a Deus e a Jesus, luz e guia em minha jornada, à minha amada família, pilar de amor incondicional, e aos meus queridos amigos, fontes constantes de alegrias. Agradecimentos Agradeço primeiramente a Deus e a Jesus por me permitirem chegar até aqui, concedendo- me força, sabedoria e perseverança ao longo desta jornada acadêmica. Sou imensamente grato por permitirem a realização deste sonho de concluir o mestrado. Expresso minha profunda gratidão aos meus pais, Uemerson Pinheiro e Gleicy Lane Oliveira Beirigo Pinheiro, e ao meu irmão Simon Oliveira Beirigo Pinheiro, que sempre estiveram ao meu lado, oferecendo amor incondicional, apoio emocional e encorajamento nos momentos desafiadores. Gostaria de expressar meus agradecimentos ao meu orientador, Denis Henrique Pinheiro Salvadeo, pela paciência, confiança e por me proporcionar o privilégio de aprender com ele. Sou muito grato pelo cuidado que ele teve comigo, onde, mesmo sem me conhecer previamente, entrou em contato, perguntando se estava tudo bem e quais motivos de não estar participando das aulas ministradas por ele, nas quais tinha me inscrito. Consequentemente, essa interação culminou em eu me tornar seu orientando e realizar este trabalho. Agradeço aos meus queridos amigos, Cryfort Stone, Gabriel Ferreira e Guilherme Ferreira, a quem considero como verdadeiros irmãos. Também expresso minha gratidão aos meus amigos Emanuel Silva Araujo, Leonardo Fonseca Ohashi, Teddy Roberto e Tércio Borges Ribeiro, bem como aos amigos que fiz no grupo PRISMA (Pattern Recognition, Image and Signal Processing, and Multimedia Applications), em especial, o Lucas de Brito Silva, que se tornou um grande amigo. Vocês foram pilares fundamentais em minha vida, proporcionando apoio, amizade e momentos memoráveis. Cada um de vocês contribuiu de maneira única para enriquecer minha jornada, e sou grato por ter amigos tão especiais ao meu lado. Agradeço sinceramente a todos os membros da comissão avaliadora por seu tempo e valiosa contribuição a este momento especial em minha jornada acadêmica. E por fim, serei eternamente grato a todos que, de alguma forma, contribuíram e apoiaram meu caminho. Vocês foram fundamentais e são parte essencial da minha jornada e da realização deste sonho. "...Amem uns aos outros. Como eu os amei, vocês devem amar uns aos outros." João 13:34 - Nova Versão Internacional Resumo O registro não-rígido de imagem é fundamental em muitas tarefas de análise em imagens médicas. O registro não-rígido visa estabelecer correspondências espaciais com o intuito de minimizar as diferenças entre a imagem fixa e a imagem móvel. As técnicas convencionais de registro de imagens, devido à abordagem iterativa, são lentas, mesmo se realizada com as melhores técnicas e com as melhores GPUs. Além disso, possui dificuldades com convergência ou estagnação prematura, principalmente com imagens multimodais. Desta forma, recentemente, foi introduzida na literatura a abordagem de registro de imagem com aprendizado profundo visando resolver os problemas de lentidão, de convergência ou estagnação prematura dos métodos convencionais. Algumas destas novas abordagens são baseadas na rede U-Net, utilizando camadas clássicas de pooling, tal como o Max Pooling, que não consideram a relação espacial para realizar uma compressão mais representativa dos dados. Por outro lado, outras técnicas perdem a relação espacial dos dados, como o uso da análise de componentes principais (PCA) global como pooling. Assim, o presente trabalho tem o objetivo de investigar a utilização da técnica PCA baseada em Blocos (Block-based PCA, i.e., BPCA) como técnica de pooling para ambas as etapas de subamostragem e reconstrução de uma U-Net aplicada ao problema de registro de imagens médicas. A fim de analisar a efetividade desse método, foram realizados experimentos nos conjuntos de dados OASIS e IXI, que são conjuntos de dados de imagens 3D de ressonância magnética ponderadas em T1 do cérebro. Os experimentos revelaram que o BPCA superou o Max Pooling no conjunto de dados IXI e apresentou desempenho equivalente no conjunto de dados de validação do OASIS, apresentando valores inferiores apenas no conjunto de testes do OASIS. Além disso, a combinação dos dois métodos, em que o BPCA é utilizado nas três camadas iniciais de pooling e, na última camada, o Max Pooling, superou os resultados dos outros experimentos na métrica Dice. Assim, com os resultados qualitativos e quantitativos, foi demonstrado que o método BPCA é uma alternativa viável para o registro não-rígido de imagens. Palavras-chave: Registro Não-Rígido de Imagem; Imagens Médicas; Aprendizado Profundo; Análise de Componentes Principais; Block-Based Principal Component Analysis. Abstract The non-rigid image registration is fundamental in many tasks of analysis in medical images. Non-rigid registration aims to establish spatial correspondences with the purpose of minimizing differences between the fixed and moving images. Conventional image registration techniques, due to their iterative approach, are slow, even when implemented with the best techniques and GPUs. Moreover, they encounter difficulties with convergence or premature stagnation, particularly with multimodal images. Thus, a recent introduction in the literature is the deep learning-based image registration approach, aiming to address the issues of slowness, convergence, or premature stagnation encountered by conventional methods. Some of these new approaches are based on the U-Net architecture, utilizing classical pooling layers such as Max Pooling, which do not consider spatial relationships for a more representative data compression. On the other hand, other techniques lose the spatial relationship of the data, such as the use of global Principal Component Analysis (PCA) as pooling. Therefore, the present study aims to investigate the use of Block-based PCA (BPCA) as a pooling technique for both downsampling and upsampling stages of a U-Net applied to the medical image registration problem. In order to analyze the effectiveness of this method, experiments were conducted on the OASIS and IXI datasets, which are datasets of 3D T1-weighted brain magnetic resonance images. The experiments revealed that BPCA outperformed Max Pooling in the IXI dataset and showed equivalent performance in the OASIS validation dataset, presenting lower values only in the OASIS test dataset. Furthermore, the combination of both methods, where BPCA is used in the initial three pooling layers and Max Pooling is applied in the final layer, surpassed the results of other experiments in the Dice metric. Thus, with qualitative and quantitative results, it was demonstrated that the BPCA method is a viable alternative for non-rigid image registration. Keywords: Non-rigid Image Registration; Medical Images; Deep Learning; Principal Component Analysis; Block-Based Principal Component Analysis. Lista de ilustrações Figura 1 – Perceptron de uma camada, possuindo as entradas que realizam o estímulo inicial, uma função de ativação que é responsável por realizar o aprendizado e uma saída que é o resultado predito. . . . . . . . . . . . . . . . . . . . . 22 Figura 2 – Exemplo de uma rede Multilayer Perceptron (MLP), com duas camadas intermediárias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Figura 3 – Arquitetura típica de uma Rede Neural Convolucional (CNN). . . . . . . . 26 Figura 4 – O mapa de características resultante da operação convolucional é represen- tado por I ∗ K, onde I representa uma imagem e K um kernel (filtro). . . 27 Figura 5 – Representação da camada de pooling utilizando a função de sumarização max pooling. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Figura 6 – Representação da arquitetura da rede FCN para realizar segmentação de imagens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 7 – Representação das etapas de max-pooling, max-locations e de unpooling . 29 Figura 8 – Representação da arquitetura da U-Net . . . . . . . . . . . . . . . . . . . 29 Figura 9 – Exemplo de uma arquitetura de Redes Adversárias Generativas típica para reconhecer e gerar dígitos escritos à mão. . . . . . . . . . . . . . . . . . . 30 Figura 10 – Fluxograma da estrutura de registro de imagens em algoritmos de otimização. 34 Figura 11 – Processo de registro de imagem na abordagem por Métricas de Similaridade Profunda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Figura 12 – Processo de treinamento da abordagem de Registro Supervisionado de Ponta a Ponta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Figura 13 – Processo de treinamento da abordagem por Aprendizado Profundo por Reforço. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Figura 14 – Processo de treinamento do paradigma de Registro Não Supervisionado de Ponta a Ponta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Figura 15 – Processo de registro de imagem por meio do paradigma de Registro Fraca- mente Semi-Supervisionado de Ponta a Ponta. . . . . . . . . . . . . . . . 39 Figura 16 – Gráfico de barras representando as principais métricas utilizadas para avaliar os registros de imagens, de acordo com o número de publicações em que foram utilizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Figura 17 – Visão geral do método proposto por Balakrishnan et al. (2019). . . . . . . 43 Figura 18 – Arquitetura convolucional U-Net proposta pelo framework VoxelMorph. Cada retângulo representa um volume 3D gerado a partir de convoluções 3D aplicadas no volume anterior. O tamanho dos filtros convolucionais estão dentro dos retângulos e abaixo deles é apresentada a resolução espacial de cada volume em relação à sua entrada. As setas representam as skip connections que concatenam características do codificador e decodificador. 44 Figura 19 – Arquitetura das redes (a) geradoras e (b) discriminadoras utilizadas em (MAHAPATRA et al., 2018). . . . . . . . . . . . . . . . . . . . . . . . . 45 Figura 20 – Representação esquemática do DLIR framework. . . . . . . . . . . . . . . 46 Figura 21 – Fluxo geral do registro de imagem da LungRegNet. . . . . . . . . . . . . . 47 Figura 22 – Arquitetura da rede proposta em (HU et al., 2020). . . . . . . . . . . . . 48 Figura 23 – Arquitetura da rede multi-resolução proposta. . . . . . . . . . . . . . . . . 50 Figura 24 – Diagrama da rede U-Net do framework VoxelMorph com adaptações a fim de utilizar o método BPCA como camada de pooling. . . . . . . . . . . . 54 Figura 25 – Diagrama de blocos do método BPCA. . . . . . . . . . . . . . . . . . . . 58 Figura 26 – Resultado do Max Pooling e BPCA aplicados em diferentes resoluções em uma imagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Figura 27 – Exemplos de imagens contidas no conjunto de dados OASIS. . . . . . . . . 60 Figura 28 – Exemplos de imagens contidas no conjunto de dados IXI. . . . . . . . . . . 61 Figura 29 – Dice Score obtido ao longo do treinamento no conjunto de validação do conjunto de dados OASIS. . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Figura 30 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do OASIS em uma visão sagital. . . . . . . . . . . . . . . . . . . . . 67 Figura 31 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do OASIS em visão sagital. . . . . . . 68 Figura 32 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do OASIS em uma visão coronal. . . . . . . . . . . . . . . . . . . . 69 Figura 33 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do OASIS em visão coronal. . . . . . . 70 Figura 34 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do OASIS em uma visão axial. . . . . . . . . . . . . . . . . . . . . . 71 Figura 35 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do OASIS em visão axial. . . . . . . . 72 Figura 36 – Dice Score obtido ao longo do treinamento no conjunto de validação do conjunto de dados IXI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Figura 37 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do IXI em uma visão sagital. . . . . . . . . . . . . . . . . . . . . . . 76 Figura 38 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do IXI em visão sagital. . . . . . . . . 77 Figura 39 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do IXI em uma visão coronal. . . . . . . . . . . . . . . . . . . . . . 78 Figura 40 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do IXI em visão coronal. . . . . . . . . 79 Figura 41 – Resultados dos registros obtidos nos experimentos no conjunto de dados de teste do IXI em uma visão axial. . . . . . . . . . . . . . . . . . . . . . . . 80 Figura 42 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas colunas. Marcações em vermelho destacam diferenças entre imagens nos experimentos do conjunto de dados do IXI em visão axial. . . . . . . . . . 81 Lista de tabelas Tabela 1 – Conjuntos de dados públicos disponíveis divididos entre tipos de órgãos, registros e modalidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tabela 2 – Tempo de treinamento de cada experimento no conjunto de dados OASIS, expressos em segundos e em horas. O número destacado em negrito indica o melhor tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Tabela 3 – Resultados fornecidos pelos organizadores do desafio do conjunto de dados de teste do OASIS, os números destacados em negrito indicam as melhores classificações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Tabela 4 – Resultados fornecidos pelos organizadores do desafio do conjunto de dados de validação do OASIS, as melhores classificações estão destacadas em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Tabela 5 – Tempo de treinamento de cada experimento no conjunto de dados IXI, expressos em segundos e em horas. O número destacado em negrito indica o melhor tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Tabela 6 – Resultados da média do Dice Score, a porcentagem de |Jϕ| ≤ 0 e o tempo médio gasto para realizar o registro na GPU em segundos, referentes a cada experimento realizado. As melhores classificações estão destacadas em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Lista de abreviaturas e siglas ANTs Advanced Normalization Tools BPCA Block-Based Principal Component Analysis CC Cross-correlation CNN Convolutional Neural Network CPU Central Processing Unit DBT Digital Breast Tomosynthesis DFV Deformation Vector Field DDF Dense Displacement Field DIR Deformable Image Registration DLIR Deep Learning Image Registration framework DRL Deep Reinforcement Learning DSC Dice Similarity Coefficient DSM Deep Similarity Metrics FCN Fully Convolutional Network GAN Generative Adversarial Network GC Gain Coefficient GPU Graphics Processing Unit GRU Gated Recurrent Units MI Mutual Information MLP Multilayer Percepton MSE Mean Squared Error PCA Principal Component Analysis ReLU Rectified Linear Unit RIR Rigid Image Registration RM Ressonância Magnética RNA Redes Neurais Artificiais SE2ER Supervised End-to-End Registration SNN Spiking Neural Networks SSIM Structural Similarity Index Measure SVD Singular Value Decomposition SyN Symmetric Normalization TC Tomografia Computadorizada TRE Target Registration Error UE2ER Unsupervised End-to-End Registration WSE2ER Weakly-Semi-Supervised End-to-End Registration XAI Explainable Artificial Intelligence Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.1.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2 Principais Contribuições do Trabalho . . . . . . . . . . . . . . . . . . 19 1.3 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2 REDES NEURAIS E APRENDIZADO PROFUNDO . . . . . . . . . 21 2.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Aprendizado Profundo . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 Rede Neural Convolucional . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Rede Completamente Convolucional . . . . . . . . . . . . . . . . . . . . . 28 2.2.3 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2.4 Redes Adversárias Generativas . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 31 3 REGISTRO DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . 32 3.1 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2 Registro de imagens com aprendizado profundo . . . . . . . . . . . . 33 3.3 Métricas utilizadas em registro de imagens . . . . . . . . . . . . . . . 40 3.4 Trabalhos correlacionados . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.5 Conjunto de dados públicos disponíveis . . . . . . . . . . . . . . . . . 51 3.6 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 53 4 UMA PROPOSTA METODOLÓGICA PARA O REGISTRO NÃO- RÍGIDO DE IMAGENS MÉDICAS . . . . . . . . . . . . . . . . . . . 54 4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . 56 4.3 Block-Based Principal Component Analysis . . . . . . . . . . . . . . 57 4.4 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.5 Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.6 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.7 Configurações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.1 Conjunto de dados OASIS . . . . . . . . . . . . . . . . . . . . . . . . 64 5.2 Conjunto de dados IXI . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.3 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 82 6 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 17 1 Introdução Nos últimos anos, com o crescimento dos recursos computacionais e o surgimento do aprendizado profundo (do inglês, Deep Learning), houve avanços significativos na performance de algoritmos para várias tarefas de visão computacional, incluindo registro de imagens. O registro não-rígido, também conhecido como registro de imagem deformável (DIR, do inglês Deformable Image Registration) tem sido um componente central de várias aplicações médicas nas últimas décadas, como em aplicações clínicas envolvendo diagnóstico de doenças e monitoramento, procedimentos cirúrgicos e radioterapia (CHEN et al., 2020; MANSILLA; MILONE; FERRANTE, 2020). Imagens médicas podem ser definidas como imagens que possibilitam visualizar partes (geralmente internas, mas também externas) do corpo de um organismo, permitindo visualizar estruturas anatômicas desses organismos. As imagens médicas são utilizadas em pesquisas e diagnósticos médicos. Existem diversos tipos de modalidades dessas imagens. A modalidade é o que determina qual foi a técnica utilizada para construir a imagem. Alguns tipos de modalidades são: ressonância magnética, radiografia, tomografia computadorizada, tomografia computadorizada por emissão de fóton único e tomografia por emissão de pósitrons (NIELSEN, 2003). As imagens médicas são utilizadas pelos profissionais da saúde em geral para auxiliar no diagnóstico e tratamento de pacientes. As análises dessas imagens são feitas pelos especialistas que utilizam principalmente sua interpretação visual e experiência, resultando em uma avaliação subjetiva, além de uma avaliação normalmente requerer muito foco e, consequentemente, o tempo desses profissionais (PATIL; DEORE, 2013). Essas limitações por parte dos especialistas podem resultar em diagnósticos divergentes ou com um tempo mais longo, prejudicando os pacientes. Desta forma, o ideal é que as análises de imagens médicas sejam realizadas por sistemas e algoritmos de máquinas precisos e eficientes, em conjunto com o especialista para corroborar ou confirmar o diagnóstico (PATIL; DEORE, 2013; KER et al., 2017). Os autores em Litjens et al. (2017) demonstram o uso do aprendizado profundo em imagens médicas, em tarefas de classificação de exames, diagnósticos ou lesões, detecção, segmentação, registro de imagens e entre outras, sendo aplicadas em várias áreas como neurologia, oftalmologia, mastologia, cardiologia, entre outras. Na maior parte dos procedimentos médicos, há uma série de casos em que algumas imagens médicas precisam ser adquiridas para diagnóstico, prognóstico, tratamento e acom- panhamento. As imagens médicas podem ser obtidas com variações em termos temporais, espaciais, dimensionais ou modalidade, sendo inevitável a necessidade de alinhamento para essas imagens tiradas em tempos e condições diferentes. O registro de imagem não-rígido em 18 aplicações médicas tem como objetivo encontrar uma transformação espacial que distorça a imagem móvel a fim de que a mesma fique o mais próximo possível da imagem de referência, também conhecida como imagem fixa (GOSHTASBY, 2017). O registro não-rígido é conside- rado um problema mal posto, pois, não há uma verdade absoluta disponível para a deformação desejada (CHEN et al., 2020). Um dos problemas no registro de imagem convencional é que o mesmo realiza o registro por meio de algoritmos de otimização iterativa. Resumidamente, em cada iteração, é utilizada uma medida de similaridade para alcançar um melhor alinhamento. O algoritmo termina de ser executado quando é verificado que não há possibilidade de realizar um registro superior ao melhor registro realizado ou quando algum outro critério de parada seja alcançado. A tarefa de registro de imagem utilizando um algoritmo convencional é tipicamente computacionalmente intensiva e demorada, mesmo com as melhores implementações e com os melhores hardwares, devido à sua execução iterativa (CHEN et al., 2020), o que inviabiliza o uso prático dos mesmos em operações clínicas em que é preciso obter o resultado em tempo real. Um desafio adicional surge na necessidade de realizar o registro para cada par de imagens novas, implicando na resolução repetida do problema de otimização sempre que novas entradas são apresentadas (CHEN et al., 2022). Além disso, a imprecisão das medidas de similaridade, especialmente no registro multimodal, faz com que os algoritmos de registro convencionais fiquem presos nos ótimos locais, impedindo-os de encontrar o ótimo global, que é o objetivo desejado, resultando em uma perda de eficiência e causando convergência ou estagnação prematura (BOVEIRI et al., 2020). Outro problema é a disponibilidade dos conjuntos de dados de imagens médicas. Ainda é muito escasso esse tipo de conjunto de dados quando comparados ao conjunto de dados de imagens gerais, devido à sensibilidade dos dados e ser necessário diagnósticos ou opiniões de especialistas para se obter as anotações desses dados (TAVARES, 2018). Por outro lado, a abordagem de utilizar o aprendizado profundo veio para tentar resolver os problemas de lentidão, de convergência ou estagnação prematura, com espaço ainda para ser explorado no contexto de registro de imagens médicas. A questão de falta de disponibilidade dos conjuntos de dados de imagens médicas com anotações pode ser resolvida com a aprendizagem profunda não supervisionada, na qual as redes desse tipo de aprendizagem não necessitam de conjuntos de dados com anotações para o seu treinamento. Além disso, na literatura de registro de imagens usando aprendizado profundo, uma das arquiteturas de redes neurais mais utilizadas é a U-Net, que se utiliza de camadas de pooling, especialmente para etapa de compressão dos mapas de atributos. As técnicas de pooling comumente empregadas nestes tipos de rede, tal como o Max Pooling e o PCA global, não consideram simultaneamente a relação espacial e a manutenção da estrutura espacial da imagem após a compressão, de tal forma que o resultado da compressão pode trazer muitas perdas de representatividade da estrutura geral da imagem, o que pode prejudicar o processo 19 de registro em encontrar pontos fortes de similaridade. Por sua vez, a técnica de extração de atributos PCA baseada em blocos (BPCA, do inglês Block-Based Principal Component Analysis) (SALVADEO et al., 2011) é capaz de atender estes critérios. Assim, vislumbrou-se a questão a ser investigada nesta pesquisa: A utilização de BPCA como camada de pooling seria adequada para o registro não-rígido de imagens médicas e qual a sua efetividade? 1.1 Objetivos O presente trabalho tem como objetivo geral adaptar a rede U-Net do framework VoxelMorph (BALAKRISHNAN et al., 2019) para utilizar o método estatístico BPCA (SALVA- DEO et al., 2011) para comprimir e reconstruir as imagens nos caminhos de subamostragem (downsampling) e reconstrução (upsampling), visando melhorar o desempenho do registro do framework. 1.1.1 Objetivos Específicos A fim de atingir o objetivo geral foram levantados os seguintes objetivos específicos: • Adaptar a rede U-Net do framework VoxelMorph para utilizar o método estatístico BPCA como camada de pooling; • Verificar o desempenho dos registros do framework com a a rede U-Net adaptada para utilizar o método estatístico BPCA como camada de pooling e também sem nenhuma adaptação, e comparar o desempenho de ambos os experimentos; • Misturar os métodos de pooling Max Pooling e o BPCA, alternando também a ordem desta mistura e comparar o desempenho destes experimentos; • Adaptar o caminho de reconstrução do framework para utilizar o BPCA inverso como unpooling, isto é, reverter o BPCA no caminho da reconstrução, e comparar o desempenho do registro com os outros experimentos; • Realizar os experimentos propostos nos conjunto de dados escolhidos. 1.2 Principais Contribuições do Trabalho Este trabalho propõe uma abordagem inovadora para o registro de imagens, introduzindo o uso da técnica de pooling Block-Based Principal Component Analysis. Além disso, o trabalho explora combinações de técnicas de pooling, como BPCA e Max Pooling. Adicionalmente, o trabalho introduz uma ideia inovadora ao propor a reversão do BPCA no caminho de reconstrução da rede U-net, denominado como BPCA inverso. 20 Por fim, com o objetivo de estimular colaborações, facilitar pesquisas futuras na área e promover o avanço do conhecimento na comunidade científica, todo o código fonte utilizado neste trabalho está disponível como open-source1. 1.3 Estrutura do Texto No Capítulo 1, a introdução apresentou a contextualização, o problema e o objetivo geral deste trabalho. Por sua vez, o restante do texto está organizado da seguinte forma. No Capítulo 2, sobre redes neurais e aprendizado profundo, é apresentado o referencial teórico do presente trabalho, que foi útil como fonte de pesquisa para o desenvolvimento do mesmo. No Capítulo 3, sobre o registro de imagens, é aprofundado o tema fundamental deste trabalho, detalhando também as métricas utilizadas para avaliar o desempenho do registro, os trabalhos correlacionados e os conjuntos de dados disponíveis para o registro de imagens médicas. No Capítulo 4, é apresentada a metodologia do trabalho, contendo a proposta, os experimentos a serem realizados, os conjuntos de dados, as métricas, experimentos e as configurações utilizadas. No Capítulo 5, penúltimo capítulo, os resultados dos experimentos realizados são expostos, bem como é feita uma análise destes resultados nas considerações finais do capítulo. E no Capítulo 6, último capítulo, são feitas as conclusões deste trabalho. 1 Repositório Github do projeto - https://github.com/Uemerson/masters-degree-in-computer-science-from- unesp https://github.com/Uemerson/masters-degree-in-computer-science-from-unesp https://github.com/Uemerson/masters-degree-in-computer-science-from-unesp 21 2 Redes Neurais e Aprendizado Profundo Neste capítulo é apresentado o referencial teórico deste trabalho, abordando as principais arquiteturas de redes neurais com aprendizado profundo encontradas na literatura de registro de imagens. 2.1 Redes Neurais Artificiais Redes Neurais Artificiais (RNA) são modelos computacionais inspirados na estrutura neural de seres vivos, sendo capazes de realizar as seguintes operações: aprendizado, associação, generalização e abstração, além de adquirir e manter o conhecimento baseado em informações. As RNAs podem ser definidas como um conjunto de unidades de processamento, definidas por neurônios artificiais, altamente interligadas por uma grande quantidade de interconexões, denominadas sinapses, efetuando operações simples, e transmitindo seus resultados às unidades de processamento vizinhas (SILVA; SPATTI; FLAUZINO, 2010; CUNHA, 2010). O principal componente das redes neurais artificiais é o neurônio artificial, que foi introduzido pela primeira vez por McCulloch e Pitts (1943). Utilizando os conceitos propostos por McCulloch e Pitts (1943) de neurônio artificial, Rosenblatt (1958) desenvolveu o primeiro modelo treinável de um neurônio artificial, denominado Perceptron. O Perceptron é constituído de apenas uma camada, conforme ilustrado na Figura 1, e em termos matemáticos pode ser descrito conforme a Equação 1: y = g ( n∑ i=1 xiwi + b ) , (1) em que x1, x2 ... xn representam os sinais das entradas formando o axônio, e w1, w2 ... wn representam os pesos sinápticos formando as sinapses, b representa o viés (bias), g é a função de ativação que modela a saída no neurônio. O somatório da multiplicação das entradas com os pesos é somado com o valor do viés e o resultado deste cálculo é utilizado pela função de ativação para ativar ou não o neurônio. As funções de ativações comumente usadas são: sigmóide, tangente hiperbólica e a ReLU (do inglês, Rectified Linear Unit), descritas em termos matemáticos da Equação 2 até a Equação 4 (MARCON, 2020; FERREIRA, 2019), respectivamente: ϕ(x) = 1 1 + e−x , (2) ϕ(x) = ex − e−x ex + e−x e (3) 22 ϕ(x) = x, x > 0 0, x ≤ 0 = max(0, x). (4) Nas Equações 2 a 4, a variável x é a entrada para a função de ativação. Atualmente, a função de ativação mais utilizada é a ReLU, devido à essa função transformar as entradas negativas em zero, simplificando e acelerando os cálculos e o treinamento. Ao transformar os valores negativos em zero, é possível evitar o problema da dissipação do gradiente e fornecer às redes, após serem treinadas, características esparsas (KRISTIADI; HEIN; HENNIG, 2020; LIN; SHEN, 2018; KER et al., 2017). Figura 1 – Perceptron de uma camada, possuindo as entradas que realizam o estímulo inicial, uma função de ativação que é responsável por realizar o aprendizado e uma saída que é o resultado predito. Fonte: (ANDRADE, 2020) O Perceptron com apenas uma camada é utilizado para solucionar problemas lineares. Ao se adicionar mais camadas intermediárias, é possível solucionar também problemas não lineares. A arquitetura com múltiplas camadas intermediárias ou também nomeadas camadas internas ou escondidas (do inglês, Hidden Layers) é conhecida como Multilayer Percepton (MLP) ou Perceptron de Múltiplas Camadas (ROSENBLATT, 1961). As MLPs também são conhecidas como feedforward neural network e são a estrutura base do aprendizado profundo (GOODFELLOW; BENGIO; COURVILLE, 2016; HAO, 2019). Cada camada possui diversos neurônios, sendo interligadas, porém os neurônios de uma mesma camada geralmente não são interligados entre si, conforme ilustrado na Figura 2. 23 Figura 2 – Exemplo de uma rede Multilayer Perceptron (MLP), com duas camadas interme- diárias. Fonte: Adaptado de (CUNHA, 2010) As camadas são conectadas por meio de pesos sinápticos e sinais de saídas. Os sinais de saída de cada camada são o resultado do processamento dos sinais de entrada da camada pela função de transferência não linear ou função de ativação. Cada camada sucessiva utiliza a saída da camada anterior como sinal de entrada. Se fosse utilizada uma função de transferência linear, então a MLP seria capaz de modelar apenas funções lineares (GARDNER; DORLING, 1998). O treinamento da MLP tem como objetivo encontrar a combinação de pesos sinápticos que resultam no menor erro possível. O algoritmo de retropropagação de erro (do inglês, error backpropagation) (RUMELHART; HINTON; WILLIAMS, 1986) é bem conhecido e utilizado para realizar o treinamento da MLP (HAYKIN, 2007). As redes MLP foram impulsionadas somente depois da criação do algoritmo de backpropagation. No primeiro passo, o algoritmo backpropagation propaga os sinais de entrada através da rede, camada por camada, iniciando pela camada de entrada indo até a camada de saída. No final da propagação é obtido como resposta real da rede um conjunto de saídas. No segundo passo, o sinal de erro (em geral, calculado com base na diferença da resposta real da rede com a resposta desejada) é propagado através da rede, contra a direção das conexões sinápticas, ou seja, de trás para frente (direção das saídas para as entradas), ajustando os pesos sinápticos de modo que a resposta da rede se mova para mais perto da resposta desejada (SANTOS; PORSANI; HIRATA, 2010; HAYKIN, 2007). A ideia básica é que pesos sejam ajustados com base na sua contribuição para o erro. As arquiteturas de redes neurais são projetadas para seguir algum tipo de treinamento, de acordo com o problema em questão. Os três principais tipos de aprendizado de máquina podem ser categorizados em: aprendizado supervisionado (do inglês, supervised learning), aprendizado semi-supervisionado (do inglês, semi-supervised learning) e aprendizado não supervisionado (do inglês, unsupervised learning) (HAO, 2019). O aprendizado supervisionado necessita que o conjunto de dados de treinamento estejam rotulados com sua classe correspondente ou saída desejada, desta forma, os algoritmos de 24 aprendizado supervisionado são guiados a aprenderem um conjunto de padrões com base no conhecimento fornecido pelos dados e seus rótulos. No aprendizado não supervisionado não há necessidade de um conjunto de dados com rótulos, pois os algoritmos de aprendizado não supervisionado aprendem os padrões a partir de uma caracterização de similaridade contida no conjunto de dados, ou seja, não há necessidade de guiar o aprendizado para esses algoritmos. Os algoritmos de aprendizado semi-supervisionado utilizam tanto do aprendizado supervisionado quanto do aprendizado não supervisionado, ou seja, aprendem a partir de exemplos rotulados e não rotulados, sendo bastante útil quando existe um pequeno número disponível de exemplos no conjunto de dados rotulados (SANCHES, 2003). 2.2 Aprendizado Profundo O aprendizado de máquina (do inglês, machine learning) vem sendo muito utilizado no mundo contemporâneo, estando presente cada vez mais no dia a dia, podendo ser utilizado em tarefas como: identificar objetos em imagens, transformar áudio em texto, buscar recomendações relevantes em plataformas de streaming ou em sites de vendas utilizando informações dos usuários, filtrar conteúdos específicos nas redes sociais, entre outras tarefas (LECUN; BENGIO; HINTON, 2015). O aprendizado profundo (do inglês, deep learning) é uma das subáreas do campo de aprendizado de máquina, surgindo de pesquisas relacionadas especialmente a redes neurais artificiais. O aprendizado profundo pertence à categoria de algoritmos das redes neurais artificiais, pois utiliza conceitos derivados das redes neurais artificiais (OISHI; YAGAWA, 2017; BUDIHARTO et al., 2018), que tem uma base de modelagem em estruturas de dados de grafos. O crescente aumento do poder computacional obtido por meio das unidades de proces- samento gráfico (GPUs - Graphics Processing Units) e a disponibilidade de grandes volumes de dados impulsionaram o aprendizado profundo, tornando a sua utilização mais ativa. O aprendizado profundo provou ser uma solução robusta para diversas tarefas como segmenta- ção de imagens, classificação de imagens, processamento de linguagem natural, entre outras (BIZOPOULOS; KOUTSOURIS, 2018). O aprendizado profundo no campo de visão computacional se tornou popular quando um trabalho utilizando uma abordagem de aprendizado profundo com base em uma rede neural convolucional (LECUN et al., 1998; KRIZHEVSKY; SUTSKEVER; HINTON, 2012) ganhou de forma esmagadora no final de 2012 a competição mundial de visão computacional conhecida como ImageNet Classification (SUZUKI, 2017), passando a ser dominante em quase todas as abordagens para tarefas de reconhecimento e detecção (LECUN; BENGIO; HINTON, 2015). Um dos benefícios que o aprendizado profundo tem quando comparado com os métodos tradicionais de aprendizado de máquina é não precisar de ter muito conhecimento do domínio 25 do problema a ser resolvido. Além disso, as redes neurais profundas são melhores para problemas que escalam, pois, ao aumentar o conjunto de dados, as redes neurais profundas geralmente aumentam a precisão nos resultados obtidos (BIZOPOULOS; KOUTSOURIS, 2018). Existem algumas limitações que os métodos de aprendizado profundo possuem quando comparados com outros métodos de aprendizado de máquina. Em geral, ainda não é possível abstrair o processo das redes neurais profundas, ou seja, não se sabe justificar como as redes neurais funcionam, esse problema é conhecido como caixa preta (do inglês, black box). No entanto, com o objetivo de superar o desafio da caixa preta, a área de pesquisa em Inteligência Artificial Explicável (XAI, do inglês Explainable Artificial Intelligence) tem como objetivo desenvolver modelos de inteligência artificial que sejam facilmente interpretáveis e compreensíveis para os seres humanos (REDDY; KUMAR, 2023). Muitos métodos de aprendizado de máquina superam os métodos de redes neurais profundas quando os conjuntos de dados são escassos. Desta forma, é necessário um grande conjunto de dados para treinar as redes neurais profundas, em geral. Outro problema encontrado é selecionar a rede neural profunda certa para cada problema, pois existem inúmeras arquiteturas de redes neurais profundas disponíveis, de tal modo que selecionar a apropriada para resolver um problema específico é uma tarefa árdua. E, por fim, as redes neurais profundas necessitam de um grande poder computacional para serem treinadas, porém não é necessário muito poder computacional após serem treinadas (MAMOSHINA et al., 2016). A seguir, são introduzidas algumas arquiteturas de redes neurais profundas, que dentre outras tarefas são utilizadas também em tarefas de visão computacional e processamento digital de imagens, incluindo o registro de imagem. 2.2.1 Rede Neural Convolucional A Rede Neural Convolucional (CNN ou ConvNet, do inglês Convolutional Neural Network) introduzida por Lecun et al. (1998) e suas derivações têm sido aplicadas com sucesso em aplicações de detecção, segmentação e reconhecimento de objetos em imagens. A CNN é projetada para processar dados de entrada que possuem a topologia em forma de grade, ou seja, dados que vem em forma de matrizes. Alguns exemplos de dados de matrizes são: 1D para sinais e sequências, incluindo linguagem, 2D para imagens ou espectrogramas de áudio e 3D para vídeo ou imagens volumétricas (LECUN; BENGIO; HINTON, 2015; GOODFELLOW; BENGIO; COURVILLE, 2016). Em geral, a arquitetura da CNN é composta de diversas camadas. Essas camadas podem ser divididas em três tipos, sendo: o primeiro tipo, a camada convolucional; o segundo, a camada de subamostragem (pooling) e; o terceiro tipo, a camada totalmente conectada. Na Figura 3, onde está ilustrada a arquitetura de uma CNN. É possível visualizar esses tipos de camadas. Cada camada é responsável por extrair características dos dados de entrada. A saída 26 de uma camada é utilizada como entrada para a camada seguinte. A ideia é ir abstraindo a representação das características de acordo com a progressão através das camadas (MARCON, 2020; LECUN; BENGIO; HINTON, 2015). Figura 3 – Arquitetura típica de uma Rede Neural Convolucional (CNN). Fonte: Adaptado de (LECUN; KAVUKCUOGLU; FARABET, 2010) A camada convolucional é composta de filtros treináveis. Os filtros possuem uma área pequena (por exemplo, um tamanho de 3x3, 5x5 ou 7x7 de pixels) e percorrem os dados de entrada. Dada uma imagem como entrada, esses pequenos filtros vão percorrendo a imagem e detectando as características mais marcantes dela, obtendo um mapa de ativação (ou mapa de características). Cada neurônio de cada camada está conectado apenas com os neurônios próximos da camada anterior. As camadas compartilham os pesos entre seus neurônios conduzindo os filtros a aprenderem os padrões frequentes que ocorrem em qualquer parte da imagem, por exemplo, uma borda da imagem (MARCON, 2020; HAFEMANN, 2014). A operação convolucional consiste em deslizar os filtros sobre a entrada. Dada uma imagem como exemplo de entrada, para cada local que o filtro está passando, os pixels da imagem definidos sobrepostos pela janela do filtro são multiplicados com os pesos correspondentes contidos no filtro e, no final, é feita uma somatória do resultado das multiplicações, resultando em um saída de mapa de características. Essa operação é ilustrada de forma visual na Figura 4 (MARCON, 2020). 27 Figura 4 – O mapa de características resultante da operação convolucional é representado por I ∗ K, onde I representa uma imagem e K um kernel (filtro). Fonte: Adaptado de (MARCON, 2020) A camada de subamostragem (pooling) é utilizada para simplificar saídas da camada anterior. Observa-se que, no exemplo da Figura 5, a área da camada de pooling é de tamanho 2x2. Esta área vai ser utilizada para percorrer por toda a saída da camada anterior resumindo a informação daquela área em um valor único. Uma das formas de sumarizar a saída da camada anterior é utilizar o método de ativação máxima (max-pooling), no qual pega-se apenas o valor máximo dentro da vizinhaça da área da camada de pooling. Existem outras funções de pooling, por exemplo, funções que usam a média, mediana, norma L2 de uma região retangular e entre outras, porém a mais utilizada é a max-pooling (MARCON, 2020; LECUN; BENGIO; HINTON, 2015). Figura 5 – Representação da camada de pooling utilizando a função de sumarização max pooling. Fonte: Adaptado de (YANI et al., 2019) Ao finalizar os processos de convolução e pooling, no final da rede, é adicionada uma ou mais camadas totalmente conectadas (normalmente, correspondente a uma MLP tradicional), que utiliza a saída da camada anterior como entrada e tem como função realizar a classificação dos padrões de entrada por exemplo (FERREIRA, 2019). 28 2.2.2 Rede Completamente Convolucional A Rede Completamente Convolucional (FCN, do inglês Fully Convolutional Network), introduzida por Long, Shelhamer e Darrell (2015), é muito similiar à CNN, porém, a arquitetura da FCN não utiliza a camada totalmente conectada, que é geralmente utilizada para realizar a classificação. Na FCN, a camada totalmente conectada é substituída por uma camada convolucional, permitindo que a rede resulte em uma saída do tamanho da imagem de entrada. Essa camada convolucional é utilizada para tarefas como classificar, segmentar e entre outras pixel por pixel da imagem de entrada (SKEIKA, 2019; FERREIRA, 2019). A arquitetura da rede FCN é composta por diversas camadas convolucionais, que assim como na CNN produzirão diferentes mapas de características de diferentes profundidades. No final da rede fica a camada convolucional que irá realizar a predição, conforme ilustrado na Figura 6. Figura 6 – Representação da arquitetura da rede FCN para realizar segmentação de imagens. Fonte: Adaptado de (LONG; SHELHAMER; DARRELL, 2015) Observa-se na Figura 6 que, no final da rede FCN, existe uma cada convolucional denominada predição por pixels. Essa camada é responsável por realizar a predição pixel por pixel, ou seja, para cada pixel da imagem é atribuida a sua respectiva classe. Conforme a Figura 6, o tamanho final da predição por pixels foi determinado pela quantidade de classes distintas contidas no conjunto de dados (SKEIKA, 2019). A FCN utiliza dois caminhos para a redução da dimensão da entrada e a expansão da mesma no final da rede, denominados downsampling e upsampling, respectivamente. No caminho de downsampling, a dimensão da entrada é reduzida por meio da etapa de pooling, enquanto no caminho de upsampling, a dimensão da entrada que foi reduzida ao longo das camadas é expandida novamente (SKEIKA, 2019). Não é possível reverter completamente a operação de max-pooling realizada durante a etapa de pooling, portanto, o resultado da reversão desta operação na etapa de unpooling é aproximado (ZEILER; FERGUS, 2014). 29 Figura 7 – Representação das etapas de max-pooling, max-locations e de unpooling Fonte: (DAVID; NETANYAHU, 2016) Conforme ilustrados na Figura 7 durante a operação de max-pooling (caminho de downsampling), as localizações dos máximos (max-locations) são armazenadas para serem usadas durante o unpooling (caminho de upsampling), onde os valores aproximados são restaurados para os seus locais exatos e os locais restantes (vizinhos) são preenchidos com zero (DAVID; NETANYAHU, 2016). 2.2.3 U-Net A U-Net é uma Rede Neural estendida das FCNs e foi proposta por Ronneberger, Fischer e Brox (2015), desenvolvida com o objetivo de realizar com precisão a segmentação de imagens biológicas com um conjunto de dados de treino pequeno (SKEIKA, 2019). Conforme ilustrada na Figura 8, a arquitetura da U-Net possui dois caminhos: o caminho de contração, representado na figura pelo lado esquerdo (downsample), no qual a entrada tem sua dimensão reduzida; e o caminho de expansão simétrico, representado na figura pelo lado direito (upsample), onde a entrada tem sua dimensão recuperada. Figura 8 – Representação da arquitetura da U-Net Fonte: (LIU et al., 2021) 30 O caminho de contração tem a mesma arquitetura tradicional de uma CNN, com várias aplicações repetidas de convoluções, com cada uma acompanhada por uma função de ativação ReLU e subamostragem com a operação de max-pooling, reduzindo a dimensão da entrada. Em cada etapa de redução da entrada (pooling) é duplicado o número de canais de características. No caminho de expansão, em cada etapa é seguido por upsampling do mapa de características e deconvolução, que reduz pela metade o número de canais de características. No fim, é feita uma concatenação com o mapa de características correspondente do caminho de contração (FERREIRA, 2019; LIU et al., 2021). A U-Net combina os mapas de características do caminho de contração (codificador) com seus mapas de características correspondentes simétricos do caminho de expansão (decodi- ficador) em todas as etapas, formando uma estrutura em forma de "U". Concatenar as etapas permite que o decodificador para cada etapa aprenda as características relevantes perdidas ao se agrupar no codificador e também é o que diferencia a U-Net das outras arquiteturas FCN (FERREIRA, 2019). 2.2.4 Redes Adversárias Generativas As Redes Adversárias Generativas (GANs, do inglês Generative Adversarial Networks) foram propostas por Goodfellow et al. (2014) e é um modelo composto por duas redes neurais artificiais, sendo uma rede neural geradora e uma rede neural discriminadora, que ficam competindo entre si. A rede neural geradora tem como objetivo gerar novas amostras de dados com base nos dados reais de treinamento, de tal modo que as amostras falsas geradas tentam ser o mais próximo possível dos dados verdadeiros. Enquanto a rede neural discriminadora tem como objetivo aprender a diferenciar as amostras de dados geradas pela rede geradora das amostras de dados reais (FERREIRA, 2019; KER et al., 2017). Figura 9 – Exemplo de uma arquitetura de Redes Adversárias Generativas típica para reco- nhecer e gerar dígitos escritos à mão. Fonte: Adaptado de (LOYOLA-GONZALEZ, 2019) Observa-se na Figura 9 que a rede neural discriminadora tenta identificar entre os 31 exemplos reais e os exemplos gerados pela rede neural geradora quais exemplos são verdadeiros e quais são falsos. Neste exemplo, tanto a rede rede neural geradora quanto a rede neural discriminadora são treinadas utilizando o backpropagation (LOYOLA-GONZALEZ, 2019). Durante o treinamento, os pesos de ambas as redes são atualizados para que o desempenho delas melhore. Desta forma, a rede geradora é atualizada para que ela gere exemplos que consigam enganar a rede discriminadora, enquanto que a rede discriminadora é atualizada para melhorar a capacidade da mesma de distinguir os exemplos falsos dos exemplos verdadeiros (FERREIRA, 2019). A convergência se dá quando a rede discriminadora não é capaz de distinguir o que é uma amostra gerada ou uma amostra real. Desta forma, o discriminador pode ser descartado ou não, podendo ser utilizado para classificar os exemplos, e a rede geradora está pronta para ser utilizada como geradora de exemplos (GOODFELLOW; BENGIO; COURVILLE, 2016). 2.3 Considerações Finais do Capítulo Neste capítulo foram apresentados os conceitos de redes neurais artificias e do apren- dizado profundo. Após foi apresentado em detalhes a CNN, FCN, a U-Net e, por fim, as GANs. No próximo capítulo serão abordadas técnicas de registro de imagens com aprendizado profundo, que se utilizam nas arquiteturas de redes neurais apresentadas aqui. 32 3 Registro de imagens Neste capítulo são apresentados os conceitos, processos e os tipos de métodos de registro de imagem, assim como, apresenta o registro de imagens com aprendizado profundo, expondo também algumas métricas utilizadas no registro de imagem. Por fim, são apresentados alguns trabalhos correlacionados e conjuntos de dados públicos disponíveis para o registro de imagem. 3.1 Conceitos Iniciais É inevitável a falta de alinhamento entre imagens adquiridas de pontos de vista diferentes, em tempos diferentes, em condições diferentes ou de modalidades diferentes. Um exemplo de imagens com essas características são as imagens médicas, capturadas para diagnóstico, prognóstico, tratamento e acompanhamento. Desta forma, para resolver esse problema é utilizada uma técnica de registro de imagens. O registro de imagens é um processo de alinhamento de imagens com base em um sistema de coordenadas geométricas semelhantes (BOVEIRI et al., 2020). No processo de registro de imagem, um par de imagens é mapeado (também conhecido como registro de pares) ou um conjunto de imagens é mapeado (conhecido como registro de grupo). Durante o mapeamento, é detectada uma transformação geométrica de coordenadas em comum entre as imagens, a fim de realizar um alinhamento ideal (CHEN et al., 2020). O processo de registro de duas imagens sem a utilização de aprendizado profundo pode ser definido como um problema de otimização (LIU et al., 2021), podendo ser expresso pela Equação 5: T̂ = arg min T S (F, T (M)), (5) em que F denota a imagem fixa de referência e M denota a imagem em movimento (desalinhada) a ser registrada. T denota a transformação geométrica desejada que mapeia as coordenadas em comum entre F e M . Por sua vez, S representa uma função de custo que mede o quanto a imagem fixa e a imagem em movimento mapeada por T estão desalinhadas. O registro de imagens acontece de forma iterativa, melhorando a estimativa de T de tal forma que a função de custo S seja minimizada (CHEN et al., 2020; VOS et al., 2019). Com base na transformação geométrica desejada, os métodos de registro de imagem podem ser classificados como registro rígido, registro afim e registro não-rígido, também conhecido como registro de imagem deformável (CHEN et al., 2020; FU et al., 2020a). 33 O registro rígido considera apenas a translação ao longo das coordenadas x, y e z e a rotação em torno dos eixos x, y e z. Desta forma, esse tipo de transformação pode ser modelada usando 6 parâmetros ou graus de liberdade, por meio da combinação dos 3 parâmetros de rotação e os 3 parâmetros de translação. O registro afim adiciona 6 novos graus de liberdade, sendo eles: o alongamento (escala) ao longo dos eixos x, y e z e a inclinação ou distorção (cisalhamento) nos planos xy, yz, e xz (BOVEIRI et al., 2020; CRUM; HARTKENS; HILL, 2004). Quando a imagem apresenta deformações elásticas é necessário aplicar o registro não- rígido para realizar o alinhamento ideal. O registro rígido possibilita uma quantidade baixa de graus de liberdade, enquanto o registro não-rígido possibilita um número maior de deformações (RODRIGUES, 2010; WRANGSJÖ; PETTERSSON; KNUTSSON, 2005). Enquanto os métodos de registro rígido e afim lidam apenas com diferenças globais como translação, rotação e escala, o registro não-rígido lida com as diferenças locais entre as imagens. Diferenças adquiridas por meio da deformação de scanner, movimento dos pacientes, intervenções cirúrgicas ou anatomias diferentes (FORNEFETT; ROHR; STIEHL, 2001). No registro rígido (RIR, do inglês Rigid Image Registration), todos os pixels da imagem são transladados e/ou rotacionados uniformemente de forma que toda relação pixel a pixel permanece a mesma antes e depois da transformação. No registro não-rígido, a relação pixel a pixel não se mantém a mesma após a transformação (OH; KIM, 2017). A seguir, é apresentado o funcionamento do registro de imagens utilizando o aprendizado profundo, bem como suas vantagens sobre os métodos tradicionais de registro de imagens. 3.2 Registro de imagens com aprendizado profundo Até recentemente, o registro de imagens médicas ainda era feito de forma manual por especialistas, tornando essa tarefa bastante desafiadora e a qualidade dos registros altamente dependente da experiência desses profissionais. Para resolver esses problemas, que clinicamente são altamente prejudiciais, o registro automático foi desenvolvido (HASKINS; KRUGER; YAN, 2020). Ainda que os métodos de registro automático tenham sido amplamente utilizados antes, durante e depois do surgimento das redes neurais profundas, após o surgimento delas, vários métodos de registro de imagens utilizando aprendizado profundo tem sido propostos, atingindo os melhores desempenhos (HASKINS; KRUGER; YAN, 2020). O processo de registro de imagem em geral tem os seguintes passos. O primeiro passo é escolher um modelo de transformação (rígido, afim ou não-rígido) adequado ao problema e inicializar os parâmetros no modelo de transformação escolhido. O segundo passo é utilizar o modelo de transformação para distorcer a imagem em movimento. No terceiro passo ocorre a 34 avaliação da dissimilaridade entre a imagem em movimento distorcida com a imagem fixa. No quarto passo é utilizado um algoritmo de otimização adequado para atualizar os parâmetros no modelo de transformação, por meio da otimização da função de custo, que é formulada utilizando a métrica de dissimilaridade. É realizada uma iteração do segundo passo até o quarto passo enquanto um critério de convergência apropriado não for atendido (CHEN et al., 2020). Normalmente, os algoritmos convencionais de registro de imagens são compostos por três componentes distintos: o modelo de transformação, a métrica de similaridade e um algoritmo de otimização, conforme é ilustrado na Figura 10. Figura 10 – Fluxograma da estrutura de registro de imagens em algoritmos de otimização. Fonte: Adaptado de (CHEN et al., 2020) Um dos problemas no processo iterativo, que os algoritmos convencionais de registro de imagens usam, é a lentidão, chegando a levar dezenas de minutos, mesmo com uma implementa- ção eficiente nas melhores GPUs contemporâneas. Desta forma, esses algoritmos convencionais são normalmente intensivos, requerindo um poder de processamento computacional muito alto. É desvantajoso utilizar esses algoritmos em operações clínicas que acontecem em tempo real, onde qualquer perda de tempo prolongada não é bem vista (BOVEIRI et al., 2020; CHEN et al., 2020). Outro problema dos algoritmos convencionais de registro de imagens que usam métodos de otimização é o fato deles serem ineficientes por causa da convergência ou estagnação prematura, devido às medidas de similaridade terem muitos ótimos locais em torno do ótimo global, especialmente em imagens de diferentes modalidades (registro de imagens multimodais) (CHEN et al., 2020). 35 No registro de imagens com aprendizado profundo, diferente dos métodos tradicionais de registro iterativos, se realiza o registro em apenas um passo, deixando o custo principalmente para a etapa de treinamento dos modelos. Ou seja, o processo de otimização ocorre durante o treinamento, não sendo necessário repeti-lo a cada conjunto de imagens diferentes. Desta forma, é possível realizar o registro de imagens em tempo real, sendo uma das primeiras vantagens de se utilizar o aprendizado profundo para esta tarefa. Além disso, as técnicas de registro com aprendizado profundo não sofrem de convergência ou estagnação (BOVEIRI et al., 2020). Ainda, o aprendizado profundo eliminou as tarefas de escolher, reduzir, selecionar, e normalizar características dos métodos convencionais. Sendo essas tarefas essenciais para se obter o melhor desempenho no problema de registro (BOVEIRI et al., 2020). Segundo Boveiri et al. (2020), o registro de imagens médicas com aprendizado profundo pode ser dividido em cinco abordagens, sendo elas: Métricas de Similaridade Profunda (DSM, do inglês Deep Similarity Metrics), Registro Supervisionado de Ponta a Ponta (SE2ER, do inglês Supervised End-to-End Registration), Aprendizado Profundo por Reforço (DRL, do inglês Deep Reinforcement Learning), Registro Não Supervisionado de Ponta a Ponta (UE2ER, do inglês Unsupervised End-to-End Registration), Registro Fracamente Semi-Supervisionado de Ponta a Ponta (WSE2ER, do inglês Weakly-Semi-Supervised End-to-End Registration). Este trabalho adota uma abordagem de Registro Não Supervisionado de Ponta a Ponta, visto que o framework Voxelmorph, utilizado para auxiliar no processo de registro de imagem não-rígida, segue esta abordagem de registro. A abordagem por Métricas de Similaridade Profunda (BOVEIRI et al., 2020) utiliza diferentes tipos de redes neurais profundas para aprenderem as métricas de similaridade por meio de um grande conjunto de dados com anotações (ground-truth). Após o treinamento, as redes são aptas em modelar de forma precisa e significativa as diferenças estruturais entre as entradas de pares de imagens ou pares de patches. Essa abordagem combina o uso das redes neurais profundas e as abordagens de otimização iterativas convencionais. Desta forma, a rede treinada fornece frequentemente as métricas aprendidas para os algoritmos de otimização convencionais, a fim de produzir os parâmetros de transformação. Esse processo está ilustrado na Figura 11. Esta abordagem foi capaz de superar as métricas dos métodos convencionais, principalmente no registro multimodal, no qual os métodos convencionais não foram muito eficazes. As desvantagens desta abordagem são a necessidade de um grande conjunto de dados, o que é dificultoso para imagens médicas que não existem muitos conjuntos de dados públicos disponíveis, e a dependência de abordagens convencionais baseadas em iterações, o que torna essa aborgagem lenta e inutilizável para uso clínico (BOVEIRI et al., 2020; HASKINS; KRUGER; YAN, 2020). 36 Figura 11 – Processo de registro de imagem na abordagem por Métricas de Similaridade Profunda. Fonte: Adaptado de (HASKINS; KRUGER; YAN, 2020) Na Figura 11, observa-se que o fluxo da abordagem de registro de imagem por Métricas de Similaridade Profunda inicia-se com as entradas da imagem fixa e da imagem em movimento na rede. Depois, a rede gera um parâmetro de transformação que é então enviado para um algoritmo de otimização (similar ao convencional) que avalia esse parâmetro. Ao verificar que o parâmetro pode ser melhorado, o processo inicia novamente desde o começo, as iterações acabam quando o parâmetro não poder ser mais melhorado. Quando a iteração acaba o melhor parâmetro de transformação gerado é utilizado para realizar o registro de imagens (HASKINS; KRUGER; YAN, 2020; BOVEIRI et al., 2020). O processo de treinamento do Registro Supervisionado de Ponta a Ponta (BOVEIRI et al., 2020) é bastante similiar ao da abordagem por Métricas de Similaridade Profunda, porém não utiliza nenhum método de otimização iterativo convencional para realizar o registro de imagem, conforme é ilustrado na Figura 12. Desta forma, ao eliminar a abordagem convencional baseada em iteração, o registro pode ser feito em um único passo, permitindo utilizar o registro com essa abordagem em ambiente clínico e ser realizado em tempo real. Um problema do Registro Supervisionado de Ponta a Ponta é a necessidade de um grande conjunto de dados com anotações (ground-truth) para o treinamento das redes. Para o registro afim e rígido, as técnicas predominantes são CNN e U-Net (BOVEIRI et al., 2020). Figura 12 – Processo de treinamento da abordagem de Registro Supervisionado de Ponta a Ponta. Fonte: Adaptado de (BOVEIRI et al., 2020) 37 Observa-se na Figura 12 que durante o treinamento a abordagem por Registro Supervi- sionado de Ponta a Ponta utiliza conjunto de dados com anotações para produzir parâmetros de transformação em um único passo. A imagem fixa e em movimento são enviadas para a rede como entrada. Após, a rede gera um parâmetro de transformação usado para distorcer a imagem em movimento. A imagem distorcida é utilizada para melhorar a rede ao ser comparada sua similaridade com as anotações verdadeiras. Após a rede ser treinada, o registro de imagens é realizado em um único passo, ou seja, sem a necessidade de repetir o processo de otimização para cada conjunto de imagens diferente (BOVEIRI et al., 2020). No paradigma de registro de imagem por Aprendizado Profundo por Reforço (BOVEIRI et al., 2020), o aprendizado das redes treinadas se dão por reforço, ou seja, é fornecida uma recompensa ou uma punição para cada ação de registro realizada, com o objetivo de maximizar o parâmetro de transformação gerado pelas redes. O processo de registro por reforço é ilustrado na Figura 13. Um dos desafios desta abordagem é lidar com campos de deformação de alta resolução e ser um pouco mais lento quando comparado com método de registro Supervisionado de Ponta a Ponta. Essa abordagem ainda é mais rápida que os métodos tradicionais no registro de imagens médicas (HASKINS; KRUGER; YAN, 2020; CHEN et al., 2020). Figura 13 – Processo de treinamento da abordagem por Aprendizado Profundo por Reforço. Fonte: Adaptado de (HASKINS; KRUGER; YAN, 2020) Na Figura 13 observa-se a necessidade um agente para a abordagem de registro de imagens por Aprendizado Profundo por Reforço. O agente aprende a mapear os estados em ações segundo as recompensas que vai recebendo do ambiente. A recompensa é relativa ao desempenho obtido do registro por meio das ações fornecidas pelo agente. Desta forma, as ações geradas pelo agente são fornecidas e melhoradas em cada iteração, com base nas recompensas recebidas pelo ambiente (HASKINS; KRUGER; YAN, 2020; BOVEIRI et al., 2020). Os conjuntos de dados médicos, especialmente para a tarefa de registro, geralmente são pequenos, o que os tornam inapropriados para o aprendizado profundo baseado em grandes volumes de dados. Essa limitação foi um grande motivador para o surgimento do Registro Não Supervisionado de Ponta a Ponta (BOVEIRI et al., 2020), onde diferentes redes profundas são treinadas sem a necessidade de um conjunto de dados com anotações (ground-truth) e realizam o registro em um único passo. Técnicas de aumento de dados (do inglês, data augmentation) podem ser utilizadas para aumentar o conjunto de dados de treinamento, e o 38 processo de aprendizagem é guiado por meio de uma medida ou uma combinação de medidas de similaridade tradicionais, que são empregadas como função de custo (BOVEIRI et al., 2020). Não são necessários conjuntos de dados com anotações, o que evita outro problema, que é o modelo treinado ser dependente da qualidade das anotações. A abordagem de registro não supervisionado é ilustrada na Figura 14. As medidas utilizadas como função de custo para treinar as redes para o registro multimodal são ineficientes, portanto essa abordagem não supervisionada herda essa ineficiência (BOVEIRI et al., 2020; CHEN et al., 2020). Figura 14 – Processo de treinamento do paradigma de Registro Não Supervisionado de Ponta a Ponta. Fonte: Adaptado de (BOVEIRI et al., 2020) Observa-se na Figura 14 que o fluxo do processo de Registro Não Supervisionado de Ponta a Ponta inicia-se com a imagem fixa e em movimento sendo enviadas para a rede como uma entrada. Então a rede gera uma transformação de parâmetros utilizada no registro da imagem em movimento, que é utilizada para gerar a imagem deformada. Em seguida, a imagem deformada é utilizada em uma métrica de similaridade e o resultado é utilizado para melhorar a rede durante o treinamento, que consequentemente irá melhorar a transformação de parâmetro. Depois que a rede é treinada, o registro de imagens acontece de uma vez só, sem precisar repetir o processo de otimização para cada conjunto de imagens diferente (BOVEIRI et al., 2020). Segundo (BOVEIRI et al., 2020), o Registro Fracamente Semi-Supervisionado de Ponta a Ponta pode ser considerado como a melhor abordagem atualmente. Existem duas principais categorias diferentes para esta abordagem. Na primeira categoria é utilizado um conjunto de dados pequeno, mas totalmente anotado, com o máximo de pontos de referência possível e cada um desses pontos recebe um rótulo de classe diferente. A rede treinada aprende a detectar os pontos de referência em qualquer par de imagens usadas como entrada e realizar o registro. Pode ser utilizada também a medida de Erro de Registro do Alvo (TRE, do inglês Target Registration Error)(BOVEIRI et al., 2020) como função de custo para treinar as redes, porém não é uma tarefa simples. Ao detectar os pontos de referência, os modelos se tornam mais eficientes e aumentam a sua precisão. Na segunda categoria são utilizadas 39 as GANs, onde o gerador utiliza as entradas da imagem fixa e a imagem em movimento e tenta produzir parâmetros de transformação de modo que a imagem móvel, ao ser distorcida com o parâmetros de transformação produzido, não seja detectada (discriminada) como uma falsa pelo discriminador usando a anotação (ground-truth). As GANs também permitem o treinamento com um pequeno conjunto de dados. O processo de registro de imagens por meio desta abordagem é ilustrado na Figura 15. Essa abordagem mescla os pontos fortes das abordagens de registro supervisionado e não supervisionado, ao mesmo tempo que evita as deficiências das mesmas (BOVEIRI et al., 2020; CHEN et al., 2020). Figura 15 – Processo de registro de imagem por meio do paradigma de Registro Fracamente Semi-Supervisionado de Ponta a Ponta. Fonte: Adaptado de (HU et al., 2018) Na Figura 15, a parte superior representa o fluxo de treinamento na abordagem de Registro Fracamente Semi-Supervisionado de Ponta a Ponta. Observa-se que, no treinamento, é utilizado um conjunto de dados com anotações. O fluxo é similar ao da abordagem de Registro Não Supervisionado de Ponta a Ponta com a principal diferença que a rede usa a similaridade entre as anotações da imagem fixa e em movimento para melhorar a regularização de deformação, desta forma, melhorando o campo de deslocamento denso (DDF, do inglês Dense Displacement Field), utilizado para deformar a imagem em movimento. Na parte inferior, após a rede ser treinada, é necessário apenas um par de imagens, onde a rede prevê o DDF sem a necessidade de imagens com anotações (HU et al., 2018). Segundo Chen et al. (2020), o foco das pesquisas futuras serão em precisão, generaliza- ção, deformação realista e suave. Ainda, os autores esperam que com o aumento dos conjuntos 40 de dados públicos multimodais, o foco de pesquisas utilizando aprendizado profundo para o registro com esse tipo de conjunto de dados aumente. Por sua vez, os autores em Boveiri et al. (2020) acreditam que as próximas tendências e contribuições futuras estarão relacionadas à evolução dos campos de visão computacional e aprendizado de máquina. Os novos modelos advidos desta evolução, por exemplo, os Modelos de Disparos Neuronais (SNN, do inglês Spiking Neural Networks) (MAASS, 1997) e Unidades Recorrentes (GRU, do inglês Gated Recurrent Units) (CHO et al., 2014), possuem alto potencial de contribuição para as pesquisas futuras. A seguir, são descritos os principais métodos encontrados na literatura para medir de maneira quantitativa o resultado do processo de registro de imagens. 3.3 Métricas utilizadas em registro de imagens Ao realizar o processo de registro, seja utilizando técnicas tradicionais ou utilizando aprendizado profundo, aplicar métricas que quantifiquem e qualifiquem o procedimento realizado são importantes. Na literatura, observa-se o uso das seguintes métricas para avaliar o procedi- mento de registro: Correlação Cruzada (CC, do inglês Cross-correlation), Informação mútua (MI, do inglês Mutual Information), Erro de Registro do Alvo (TRE, do inglês Target Registration Error) e Coeficiente de Similaridade Dice (DSC, do inglês Dice Similarity Coefficient). No trabalho de revisão de registro de imagens usando aprendizado profundo dos autores Boveiri et al. (2020), no capítulo da revisão da literatura, as métricas mais utilizadas em relação ao número de publicações são representadas em um gráfico de barras, conforme ilustrado na Figura 16. 41 Figura 16 – Gráfico de barras representando as principais métricas utilizadas para avaliar os registros de imagens, de acordo com o número de publicações em que foram utilizadas. Fonte: (BOVEIRI et al., 2020) Observa-se na Figura 16 que a métrica mais utilizada é Dice, logo em seguinda vem o TRE. Liu et al. (2021) reforça que as duas métricas mais utilizadas para avaliar o desempenho do registro de imagens são Dice e MSE. O Coeficiente de Similaridade Dice (DICE, 1945) é uma métrica utilizada para quantificar a similiaridade entre duas regiões, sendo representada matematicamente na Equação 6: DSC = 2 |A ∩ B| |A| + |B| , (6) em que A representa a primeira região, que podem ser as máscaras da imagem fixa rotulada com a verdade fundamental (do inglês, ground-truth) no caso de registro de imagens. E B representa a região predita pela rede, que podem ser as máscaras preditas da imagem em movimento (imagem registrada). Cada pixel da primeira região é comparado com apenas o pixel correspondente na mesma posição da segunda região. A interseção corresponde aos pixels simultaneamente iguais em ambas regiões. O valor resultante da Equação 6 é entre 0 e 1, onde 0 indica que não há nenhuma correspondência entre as regiões (sem sobreposição) e 1 indica total correspondência entre as regiões (TAVARES, 2018; PATIL; DEORE, 2013; BOVEIRI et al., 2020). A métrica de Erro de Registro do Alvo utiliza pontos anatômicos conhecidos entre duas imagens para quantificar a precisão na correspondência entre esses pontos, representado matematicamente na Equação 7 (BOVEIRI et al., 2020): 42 TRE = i∑ n ∣∣∣lA i − lB i ∣∣∣ , (7) em que lA 1 , lA 2 ... lA n são os pontos de referências da imagem A e lB 1 , lB 2 ... lB n são os pontos de referências da imagem B. O TRE é uma das métricas de desempenho mais bem aceita, tendo como desvantagem a necessidade de determinar os pontos de referência manualmente por um especialista, porém é possível utilizar técnicas para automatizar ou semi automatizar os pontos de referência correspondentes (BOVEIRI et al., 2020; HOU et al., 2011). A métrica do Erro Quadrático Médio (MSE, do inglês Mean Squared Error) é utilizada para verificar a diferença simétrica entre a imagem de referência e a imagem registrada (alvo), representada matematicamente na Equação 8 (CHEN et al., 2020): MSE = 1 NM M∑ x N∑ y [I(x, y) − I ′(x, y)]2, (8) em que I(x, y) é a imagem de referência e I ′(x, y) é a imagem alvo, enquanto M e N são as dimensões das imagens. Quanto menor o valor resultante da equação significa um erro menor de similaridade e uma similaridade maior entre as imagens (JOSHI, 2012). Na próxima seção são descritos trabalhos correlacionados com o tema registro de imagens utilizando aprendizado profundo. 3.4 Trabalhos correlacionados O trabalho Balakrishnan et al. (2019) propôs um framework de aprendizado profundo não supervisionado que utiliza uma arquitetura CNN similiar à U-Net para realizar em par o registro não-rígido de imagens médicas 3D, denominado VoxelMorph. Foram realizados experimentos em oito conjuntos de dados públicos diferentes de ressonância magnética do cérebro: OASIS, ABIDE, ADHD200, MCIC, PPMI, HABS, FreeSurfer Buckner40 e Harvard GSP. Os resultados obtidos demonstram que a aborgadem proposta atingiu resultados no registro de imagens, em termos de Dice Score, comparáveis aos métodos tradicionais em estado da arte NiftyReg e o Symmetric Normalization (SyN) (AVANTS et al., 2008), onde a implementação deste método foi obtida por meio dos pacotes públicos do software ANTs (AVANTS et al., 2011). Além disso, o método proposto reduziu o tempo de registro de horas para minutos em uma CPU e para menos de um segundo em uma GPU, em comparação com os métodos tradicionais em estado da arte. Na Figura 17 é ilustrada uma visão geral do método proposto por Balakrishnan et al. (2019). A imagem de referência f e a imagem em movimento m são utilizadas como entrada para a rede g, utilizando um conjunto de parâmetros θ. A rede gera como resultado o campo de registro ϕ, também conhecido como campo de deformação. O destaque em azul indica o 43 bloco opcional que pode ser incluído durante a pipeline de treinamento, onde são incluídas informações auxiliares, como mapas de segmentação anatômica, elaborados por especialistas humanos ou algoritmos. A função de perda não supervisionada da rede é composta por dois componentes sendo uma métrica de similaridade Lsim e um regularizador Lsmooth. Foram conduzidos experimentos utilizando tanto a métrica MSE quanto a Cross-correlation como medidas de similaridade. Ao incorporar informações auxiliares durante o treinamento, como as segmentações da imagem fixa sf e as segmentações da imagem em movimento sm, um componente adicional Lseg é introduzido na função de perda para calcular o Dice Score entre a segmentações movida (sm ◦ ϕ), obtida ao aplicar sm e ϕ na função de transformação espacial, e sf . Figura 17 – Visão geral do método proposto por Balakrishnan et al. (2019). Fonte: Adaptado de (BALAKRISHNAN et al., 2019) Conforme ilustrado na Figura 18, a arquitetura proposta por Balakrishnan et al. (2019) é baseada na arquitetura da rede U-Net. As entradas m e f são concatenadas, resultando em uma imagem 3D de 2 canais, formando uma entrada única para a rede. Na etapa de codificação a dimensão espacial de cada camada é reduzida pela metade ao alterar o tamanho do stride. Na etapa de decodificação é alternado entre upsampling, convoluções e skip connections que propagam características aprendidas na etapa de codificação diretamente para as camadas que geram o registro. Cada camada convolucional é seguida por uma camada de ativação LeakyReLU. As camadas convolucionais extraem as características necessárias para estimar ϕ, que é aplicado junto com m em uma função de transformação espacial baseada em uma Spatial Transformer Networks (JADERBERG et al., 2015), obtendo a imagem movida (m ◦ ϕ). 44 Figura 18 – Arquitetura convolucional U-Net proposta pelo framework VoxelMorph. Cada retângulo representa um volume 3D gerado a partir de convoluções 3D aplicadas no volume anterior. O tamanho dos filtros convolucionais estão dentro dos retângulos e abaixo deles é apresentada a resolução espacial de cada volume em relação à sua entrada. As setas representam as skip connections que concatenam características do codificador e decodificador. Fonte: Adaptado de (BALAKRISHNAN et al., 2019) No trabalho de Mahapatra et al. (2018) foi proposto o uso do aprendizado profundo com o uso das Redes Adversárias Generativas (GANs) para realizar o registro deformável de imagens médicas multimodais. O uso das GANs eliminou a necessidade de métodos iterativos demorados e permitiu o registro de imagem diretamente com o campo de deformação. Na Figura 19 é possível visualizar a arquitetura proposta. Os experimentos são realizados em dois conjuntos de dados diferentes. O primeiro conjunto de dados é composto de imagens coloridas do fundo da retina e imagens de angiografia de fluorescência. Já o segundo conjunto é composto de ressonâncias magnéticas cardíacas adquiridas no Sunnybrook. Os experimentos foram realizados em ambos os conjuntos de dados, comparando o método proposto com o método tradicional Elastix (KLEIN et al., 2010) e o método de aprendizado profundo DIRNet (VOS et al., 2017). Os resultados obtidos nos experimentos demonstraram que o método proposto performou melhor que o método convencional e o método de aprendizagem profunda que utiliza uma abordagem de transformação tradicional. 45 Figura 19 – Arquitetura das redes (a) geradoras e (b) discriminadoras utilizadas em (MAHA- PATRA et al., 2018). Fonte: Adaptado de (MAHAPATRA et al., 2018) A rede geradora, Figura 19 (a), recebe a imagem fixa e a imagem em movimento (flutuante) como entrada e produz a imagem registrada e o campo de deformação. A rede geradora é formada por camadas convolucionais 3 × 3, seguida por batch normalization e ativação ReLU. A rede discriminadora, Figura 19 (b), possui oito camadas convolucionais, onde os tamanhos dos kernels são progressivamente aumentados, iniciando com 64 e alcançando 512 ao longo da rede. A função de ativação utilizada pela rede é a LeakyReLU e o tamanho do stride nas convoluções é utilizado para reduzir as dimensões da imagem. Por último, são inseridas duas camadas densas, seguidas por uma função de ativação sigmóide, a fim de gerar o mapa de probabilidades. O objetivo da rede discriminadora é avaliar a similaridade da distribuição de intensidade entre a imagem registrada e a imagem fixa, e o erro entre o campo de deformação gerado e o de referência. As redes utilizam como função de perda a combinação da perda de conteúdo, que garante que a imagem gerada tenha características desejadas, e a perda adversarial. A perda de conteúdo é formada por três componentes: informação mútua normalizada (NMI), métrica de índice de similaridade estrutural (SSIM), e a distância L2 entre duas imagens. O trabalho Vos et al. (2019) propôs um framework para o registro afim e deformável de imagens utilizando aprendizado profundo não supervisionado, denominado Deep Learning Image Registration (DLIR) framework. O DLIR é composto de ConvNets treinadas utilizando uma técnica similiar às utilizadas nos registros de imagens convencionais baseados em intensidade, sem a necessidade de um conjunto de dados rotulados. Na Figura 20 é ilustrado o esquema do DLIR. Os experimentos foram realizados nos seguintes conjuntos de dados: tomografias 46 computadorizadas de tórax de baixa dose obtidas no National Lung Screening Trial (NLST), ressonâncias magnéticas cardíacas obtidas no Sunnybrook, e tomografias computadorizadadas do tórax em 4D realizadas em dez momentos diferentes, obtidas no DIR-Lab. Os resultados demonstraram que o registro de imagens do método proposto é equiparável a outros métodos como por exemplo o SimpleElastix (MARSTAL et al., 2016). Na comparação em termos de tempo de execução do registro, o método proposto foi muito mais rápido que o convencional. As principais dificuldades encontradas foram o conjunto de dados pequeno para treinar as ConvNets, o que prejudicou o desempenho dos resultados. As limitações de hardware podem ter parcialmente prejudicado os resultados, pois a arquitetura escolhida para a ConvNet foi abaixo do que se é desejado devido a esses limites. Os autores ainda afirmam que o trabalho proposto pode ser estendido com outros métodos de registros tradicionais ou registros usando aprendizado profundo e, desta forma, obter resultados ainda melhores. Figura 20 – Representação esquemática do DLIR framework. Fonte: Adaptado de (VOS et al., 2019) Observa-se na Figura 20 que o processo de treinamento do framework DLIR é similiar ao dos métodos convencionais de registro. Porém, ao adicionar a ConvNet, o método proposto passa a permitir o treinamento não supervisionado para o registro de imagem. Diferente dos métodos convencionais, onde a atualização da transformação de parâmetro é feita de forma iterativa usando a similaridade da imagem (representado pela seta azul grande), o DLIR utiliza a similaridade da imagem para atualizar os pesos da ConvNet usando o backpropagation (representado pela seta vermelha grande), permitindo o registro de imagem em um único passo. Por sua vez, foi proposto no trabalho de Fu et al. (2020b), um método de aprendizado profundo não supervisionado para o registro de imagem deformável de tomografia computa- dorizada pulmonar, denominado LungRegNet. A LungRegNet é composta de duas sub-redes, CoarseNet e FineNet, sendo que ambas as redes possuem um gerador e um discriminador. A CoarseNet é responsável por prever um grande movimento pulmonar em uma imagem em escala grosseira, enquanto a FineNet prevê o movimento pulmonar local em uma imagem em escala fina. Na Figura 21 é ilustrado o fluxo geral do registro de ambas sub-redes. Os 47 experimentos foram realizados em dez diferentes tipos de conjuntos de dados públicos em tomografia computadorizada pulmonar 4D obtidos do DIR-Lab. Os resultados obtidos nos experimentos mostraram que o método proposto foi superior aos outros métodos de aprendizado profundo e teve um desempenho comparável com os métodos convencionais em estado da arte. Figura 21 – Fluxo geral do registro de imagem da LungRegNet. Fonte: (FU et al., 2020b) Conforme ilustrado na Figura 21, o processo de registro da LungRegNet inicia com a etapa de pré-processamento da imagem. Nesta etapa, é feita a extração das estruturas vasculares pulmonares, aumentando o contraste da imagem de pequenas estruturas vasculares. Na próxima etapa é realizado o treinamento das redes CoarseNet e FineNet. O gerador de ambas as redes é treinado para prever o campo vetorial de deformação (DFV, do inglês Deformation Vector Field), que é utilizado para deformar a imagem em movimento usando uma transformação espacial. O discriminador de ambas as redes é treinado para distinguir as imagens deformadas das imagens originais e o objetivo do mesmo é regularizar a DVF, evitando que as imagens deformadas não fiquem realísticas. Na última etapa, a de inferência, os patches das imagens são regularizados e fundidos. Ao fundir os patches, é obtida a imagem inteira de referência e em movimento. Essas imagens são aplicadas em ambas as redes treinadas e então é feito o registro da imagem. No trabalho de Hu et al. (2020) foi proposto um aprendizado restrito por pontos de referências (landmarks) utilizando uma CNN. A maioria dos métodos de registro de imagens médicas por aprendizado profundo aprendem o campo de deformação por meio da intensidade 48 da similaridade, ignorando a importância de alinhar os pontos de referências anatômicos, por exemplo, os pontos de ramificação das vias aéreas e vasos. A CNN utilizada foi estendida para utilizar o registro probabilístico difeomórfico, o que permitiu grandes deformações. Além disso, foi adicionada a restrição por pontos de referências para a aprendizagem, o que permitiu um registro com precisão em estruturas anatômicas finas. O método proposto é semi-supervisionado, pois precisa de pontos de referências definidos por especialistas para o treinamento da rede, e não é necessário nenhum ponto de referência para realizar o registro. Na Figura 22 é ilustrada a arquitetura da rede proposta pelos autores. Os experimentos foram realizados em quarenta imagens de tomografia computadorizada de pulmão em adultos saudáveis, sendo que em cada imagem existem onze anotações de especialistas com pontos de referências. Os resultados demonstraram que o registro de imagem do método proposto foi superior aos métodos em estado da arte tradicionais e o método de registro de imagem com aprendizado profundo VoxelMorph. O pacote de software Elastix com a métrica de informação mútua e a transformação espacial BSpline e o pacote de software ANTs com normalização simétrica (SyN, do inglês Symmetric Normalization) foram os métodos tradicionais comparados. O método de aprendizado profundo foi o VoxelMorph, que também foi utilizado como linha de base e estendido para criar o método proposto pelos autores. O registro de imagens limitada por pontos de referência mostrou ser eficaz e superior aos métodos comparados e ser mais rápido, além de garantir um alinhamento melhor dos principais pontos de referência anatomicamente significativos. O método proposto também pode ser aplicado em outros conjuntos de dados. Figura 22 – Arquitetura da rede proposta em (HU et al., 2020). Fonte: Adaptado de (HU et al., 2020) Na Figura 22 observa-se que a rede proposta pelos autores possui uma estrutura semelhante à U-Net e todas as ativações da rede são LeakyReLU. A imagem fixa é representada 49 por f , m representa a entrada da imagem em movimento e v o campo de velocidade. A rede é composta de quatro camadas convolucionais com subamostragem, três camadas convolucionais com superamostragem e três skip connections com operação de cópia. Na camada de transfor- mação é realizado o registro, onde os pontos de referências da imagem fixa são utilizados para gerar o campo de deformação a ser aplicado na imagem em movimento. No trabalho de Fechter e Baltas (2020) foi proposta uma abordagem de aprendizado profundo não supervisionado para o registro de imagens em um conjunto de dados públicos 3D e 4D contendo imagens em movimentos periódicos. Foi empregada uma U-Net combinada com uma abordagem de registro grosseiro para fino com um módulo de transformação espacial diferencial. Para o conjunto de dados em 4D é necessária uma grande quantidade de memória. Desta forma, foi necessário dividir esse conjunto de dados em pequenos patches não sobrepostos. A rede é treinada até a convergência com cada um desses patches e, por fim, são montados os patches de campo vetorial. Os resultados demonstraram que o método proposto conseguiu realizar o registro das imagens em movimentos periódicos de forma concorrente aos métodos em estado da arte comparados. A arquitetura do método proposto pelos autores é ilustrada na Figura 23. Os experimentos foram realizados nos seguintes conjuntos de dados: DIR-Lab, que consiste em conjunto de dados de tomografias computadorizadadas do tórax em 4D realizadas em dez momentos diferentes; Popi, que é um conjunto de dados de tomografias computadorizadadas do pulmão e; o conjunto de dados Sunnybrook, que é composto de ressonâncias magnéticas cardíacas. O método proposto demonstrou que não foi necessário treinamento para se obter bons resultados. No registro do conjunto de dados 3D são calculados ao mesmo tempo o campo de deformação vetorial e uma aproximação do seu inverso. O método obteve bons resultados no registro, independente do local do órgão ou modalidade. Durante o registro, não foi utilizada uma imagem de referência, como é comum nas outras abordagens. Foi utilizada a imagem vizinha próxima da imagem a ser registrada. Alguns experimentos demonstram que a rede obteve resultados melhores no registro de imagens com pequenas deformações. Os métodos convencionais obtiveram resultados superiores ao método proposto, devido nos testes executados pelo método proposto serem utilizados os mesmos parâmetros em todos os conjuntos de dados que foram utilizados nos experimentos. Comparado com os outros métodos de aprendizagem profunda, o método proposto por estes autores teve um tempo de computação mais longo no registro. Essa desvantagem pode ser reduzida significativamente quando usado um pequeno conjunto de dados e com uma etapa de ajuste fino, onde o desempenho do registro não é muito reduzido. Os principais benefícios do método proposto são a sua capacidade de generalizar, o que permite ser usado em diferentes modalidades e diferentes regiões do corpo, além de não ser necessário nenhum dado de treinamento com antecedência. O método proposto pode ser aplicado em dois casos, quando o treinamento de uma rede não é possível devido à falta de conjuntos de dados ou os conjuntos de dados são muito heterogêneos (FECHTER; BALTAS, 2020). 50 Figura 23 – Arquitetura da rede multi-resolução proposta. Fonte: Adaptado de (FECHTER; BALTAS, 2020) Conforme ilustrado na Figura 23, os retângulos sombreados de cinza representam o processamento dos dados de entrada de imagens com diferentes resoluções. A U-Net é treinada com o conjunto de dados de entrada que é reduzido (downsampled) por duas vezes até a convergência, de forma que seja possível calcular as grandes deformações, representadas em vermelho na imagem de saída. As deformações médias e pequenas, representadas por amarelo e verde, respectivamente, são calculadas treinando a rede com uma redução (downsampled) simples também com o conjunto de entradas. A arquitetura da U-Net se mantém a mesma, independente da resolução da imagem. Na próxima seção, são abordados os conjuntos de dados públicos disponíveis para realizar o registro de imagens médicas encontrados na literatura. 51 3.5 Conjunto de dados públicos disponíveis Para o registro de imagens médicas, o trabalho de Chen et al. (2020) teve o esforço de sumarizar os principais conjuntos de dados públicos disponíveis, dividindo-os entre as modalidades e órgãos. Na Tabela 1 estão os conjuntos de dados divididos pelos órgãos e modalidades. Tabela 1 – Conjuntos de dados públicos disponíveis divididos entre tipos de órgãos, registros e modalidades. Órgão Tipo de registro Conjunto de dados Modalidade Cérebro Monomodal ADNI RM IXI RM OASIS RM BRATS2015 RM LPBA40 RM IBIS RM IBSR18 RM MGH10 RM CUMC12 RM ABIDE RM ADHD200 RM MCIC RM PPMI RM HABS RM Harvard GSP RM FreeSurfer Buckner40 RM Mindboggle101 RM BraTS2017 RM BrainWeb RM Simulada Multi-modal RIRE TM, RM Simulada BITE Ultrassom, RM Simu- lada RESECT Ultrassom, RM Simu- lada Coração Monomodal Sunnybrook Sequência de Imagens (Cine) de RM ACDC Sequência de Imagens (Cine) de RM Continua na próxima página http://adni.loni.usc.edu/ https://brain-development.org/ixi-dataset/ https://sites.google.com/site/braintumorsegmentation/home/brats2015 https://www.loni.usc.edu/research/atlases https://www.loni.usc.edu/research/atlases https://ibis.loris.ca/ https://www.nitrc.org/projects/ibsr https://continuousregistration.grand-challenge.org/rules/ https://continuousregistration.grand-challenge.org/rules/ http://fcon_1000.projects.nitrc.org/indi/abide/ http://fcon_1000.projects.nitrc.org/indi/adhd200/ https://central.xnat.org/data/projects/MCIC https://www.ppmi-info.org/access-data-specimens/download-data/ https://habs.mgh.harvard.edu/ https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/25833 https://surfer.nmr.mgh.harvard.edu/fswiki/Buckner40Adni60Testing https://mindboggle.info/data.html https://www.med.upenn.edu/sbia/brats2017/data.html https://brainweb.bic.mni.mcgill.ca/brainweb/ https://www.insight-journal.org/midas/community/view/16 http://nist.mni.mcgill.ca/?page_id%5C%5Cprotect_%24%5C%5Crelax_=%24672 https://curious2018.grand-challenge.org/Data/ https://www.cardiacatlas.org/studies/sunnybrook-cardiac-data/ https://acdc.creatis.insa-lyon.fr/description/databases.html 52 Tabela 1 – continuação da página anterior Órgão Tipo de registro Conjunto de dados Modalidade Multi-modal MM-WHS TM, RM Simulada Joelho Multi-modal OAI RM Simulada, Raio X Fígado Monomodal MICCAI 2007 Grand Chal- lenge TM MSD TM SLIVER TM LiTS TM Tórax Monomodal COPDGen TM NLST TM, Raio X DIR-Lab-COPDgen TM DIR-Lab-4DCT TM SPARE TM, TM de Feixe Cô- nico POPI TM LIDC-IDRI TM Empire 10 lung datasets TM NIH ChestXray14 dataset Raio X JSRT Raio X Montgomery County x-ray database Raio X Shenzhen Hospital x-ray database Raio X Vários órgãos Multi-modal UK Biobank Imaging Study RM Todo o corpo Multi-modal VISCERAL Anatomy3 TM, RM Fonte: (CHEN et al., 2020) No trabalho de Boveiri et al. (2020) são identificados os conjuntos de dados que são frequentemente utilizados baseado no número de publicações. Segundo os autores, os conjuntos de dados frequentemente usados são: privados, ANDI, LONI, IXI, OASIS e DIRLAB. Sendo que cada um destes conjuntos de dados foram usados em mais de cinco trabalhos. Ainda, os autores listaram outros conjuntos de dados frequentemente usados: Sunnybrook, ACDC, MCIC, MGH10, XEF, Harvard GSP, HABS, PPMI, CUMC12, IBSR18, BrainWeb, SmartTarget, http://www.sdspeople.fudan.edu.cn/zhuangxiahai/0/mmwhs/ https://nda.nih.gov/oai/ http://mbi.dkfz-heidelberg.de/grand-challenge2007/sites/data.htm http://mbi.dkfz-heidelberg.de/grand-challenge2007/sites/data.htm https://decathlon-10.grand-challenge.org/ https://sliver07.grand-challenge.org/Home/ https://competitions.codalab.org/competitions/17094 http://www.copdgene.org/ https://cdas.cancer.gov/datasets/nlst/ https://www.dir-lab.com/Downloads.html https://www.dir-lab.com/Downloads.html https://image-x.sydney.edu.au/research/spare-challenge/ https://www.creatis.insa-lyon.fr/rio/popi-model/ https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI#a2b592e6fba14f949f6e23bb1b7804cc https://empire10.grand-challenge.org/ https://nihcc.app.box.com/v/ChestXray-NIHCC http://db.jsrt.or.jp/eng.php https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/imaging-data https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/imaging-data https://visceral.eu/benchmarks/anatomy3-open/ 53 ADHD200, ABIDE, TKA, e VIPS. É importante citar que os conjuntos de dados privados não estavam disponíveis publicamente até a data que o artigo foi publicado. 3.6 Considerações Finais do Capítulo Neste capítulo foi apresentado em detalhes o processo do registro de imagens com métodos tradicionais e aprendizado profundo, também foi levantado os principais tipos de registro de imagens com aprendizado profundo. Foram apresentadas também as principais métricas utilizadas para quantificar o desempenho do registro de imagens, os trabalhos correlatos sendo úteis como fonte de pesquisa para este trabalho e, por fim, foram levantados os conjuntos de dados públicos de imagens médicas utilizados em tarefas de registro de imagens. Com base no levantamento realizado neste capítulo, este documento apresenta uma proposta para o registro de imagens médicas, que está descrita no próximo capítulo. 54 4 Uma proposta metodológica para o registro não-rígido de imagens médicas Neste capítulo são apresentados a metodologia deste trabalho, os conjuntos de dados, as métricas a serem utilizadas, os experimentos a serem realizados e as configurações utilizadas. 4.1 Metodologia Conforme apontado no Capítulo 1, este trabalho visa investigar a utilização do método de extração de atributos Block-Based PCA (BPCA) (mais detalhes sobre o método podem ser encontrados na Seção 4.3) como uma camada de pooling em uma rede U-Net para fins de registro de imagens, ou seja, considerando um método estatístico para compressão, mas que mantém a relação espacial e considera toda a informação redundante na imagem. Desde modo, considerando que o VoxelMorph é um framework de registro de imagem não-rígido baseado em uma arquitetura U-Net, além de ser um dos principais métodos de registro baseados em aprendizado profundo, a metodologia básica deste trab