UNIVERSIDADE ESTADUAL PAULISTA
"JÚLIO DE MESQUITA FILHO"

Instituto de Geociências e Ciências Exatas

Programa de Pós-Graduação em Ciência da Computação

Uemerson Pinheiro Junior

Registro Não-Rígido de Imagens Médicas
usando Block-Based Principal Component

Analysis como Camada de Pooling

Rio Claro - SP
2024


UNIVERSIDADE ESTADUAL PAULISTA
"Júlio de Mesquita Filho"

Instituto de Geociências e Ciências Exatas
Câmpus de Rio Claro

Uemerson Pinheiro Junior

Registro Não-Rígido de Imagens Médicas usando
Block-Based Principal Component Analysis como Camada

de Pooling

Dissertação de Mestrado apresentada ao
Instituto de Geociências e Ciências Exatas do
Câmpus de Rio Claro, da Universidade Estadual
Paulista “Júlio de Mesquita Filho”, como
parte dos requisitos para obtenção do título
de Mestre no Programa de Pós-Graduação em
Ciência da Computação.

Orientador: Prof. Dr. Denis Henrique Pi-
nheiro Salvadeo

Rio Claro - SP
2024


P654r
Pinheiro Junior, Uemerson

    Registro não-rígido de imagens médicas usando block-based

principal component analysis como camada de pooling / Uemerson

Pinheiro Junior. -- Rio Claro, 2024

    92 p. : il., tabs.

    Dissertação (mestrado) - Universidade Estadual Paulista (UNESP),

Instituto de Geociências e Ciências Exatas, Rio Claro

    Orientador: Denis Henrique Pinheiro Salvadeo

    1. Registro Não-Rígido de Imagem. 2. Imagens Médicas. 3.

Aprendizado Profundo. 4. Análise de Componentes Principais. 5.

Block-Based Principal Component Analysis. I. Título.

Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Universidade
Estadual Paulista (UNESP), Instituto de Geociências e Ciências Exatas, Rio Claro. Dados

fornecidos pelo autor(a).

Essa ficha não pode ser modificada.


UNIVERSIDADE ESTADUAL PAULISTA
"Júlio de Mesquita Filho"

Instituto de Geociências e Ciências Exatas
Câmpus de Rio Claro

Uemerson Pinheiro Junior

Registro Não-Rígido de Imagens Médicas usando
Block-Based Principal Component Analysis como Camada

de Pooling

Dissertação de Mestrado apresentada ao Insti-
tuto de Geociências e Ciências Exatas do Câm-
pus de Rio Claro, da Universidade Estadual Pau-
lista “Júlio de Mesquita Filho”, como parte dos
requisitos para obtenção do título de Mestre
no Programa de Pós-Graduação em Ciência da
Computação.

Comissão Examinadora

Prof. Dr. Denis Henrique Pinheiro Salvadeo
IGCE / UNESP / Rio Claro (SP)
Orientador

Prof. Dr. Wallace Correa de Oliveira Casaca
IBILCE / UNESP / São José do Rio Preto (SP)

Prof. Dr. Marcelo Zanchetta do Nascimento
FACOM / UFU / Uberlândia (MG)

Conceito: Aprovado.

Rio Claro (SP), 04 de março de 2024


Agradeço a Deus e a Jesus, luz e guia em minha jornada, à minha amada família, pilar de
amor incondicional, e aos meus queridos amigos, fontes constantes de alegrias.


Agradecimentos

Agradeço primeiramente a Deus e a Jesus por me permitirem chegar até aqui, concedendo-
me força, sabedoria e perseverança ao longo desta jornada acadêmica. Sou imensamente grato
por permitirem a realização deste sonho de concluir o mestrado.

Expresso minha profunda gratidão aos meus pais, Uemerson Pinheiro e Gleicy Lane
Oliveira Beirigo Pinheiro, e ao meu irmão Simon Oliveira Beirigo Pinheiro, que sempre estiveram
ao meu lado, oferecendo amor incondicional, apoio emocional e encorajamento nos momentos
desafiadores.

Gostaria de expressar meus agradecimentos ao meu orientador, Denis Henrique Pinheiro
Salvadeo, pela paciência, confiança e por me proporcionar o privilégio de aprender com ele. Sou
muito grato pelo cuidado que ele teve comigo, onde, mesmo sem me conhecer previamente,
entrou em contato, perguntando se estava tudo bem e quais motivos de não estar participando
das aulas ministradas por ele, nas quais tinha me inscrito. Consequentemente, essa interação
culminou em eu me tornar seu orientando e realizar este trabalho.

Agradeço aos meus queridos amigos, Cryfort Stone, Gabriel Ferreira e Guilherme Ferreira,
a quem considero como verdadeiros irmãos. Também expresso minha gratidão aos meus amigos
Emanuel Silva Araujo, Leonardo Fonseca Ohashi, Teddy Roberto e Tércio Borges Ribeiro, bem
como aos amigos que fiz no grupo PRISMA (Pattern Recognition, Image and Signal Processing,
and Multimedia Applications), em especial, o Lucas de Brito Silva, que se tornou um grande
amigo. Vocês foram pilares fundamentais em minha vida, proporcionando apoio, amizade e
momentos memoráveis. Cada um de vocês contribuiu de maneira única para enriquecer minha
jornada, e sou grato por ter amigos tão especiais ao meu lado.

Agradeço sinceramente a todos os membros da comissão avaliadora por seu tempo e
valiosa contribuição a este momento especial em minha jornada acadêmica.

E por fim, serei eternamente grato a todos que, de alguma forma, contribuíram e
apoiaram meu caminho. Vocês foram fundamentais e são parte essencial da minha jornada e
da realização deste sonho.


"...Amem uns aos outros. Como eu os amei, vocês devem amar uns aos outros."
João 13:34 - Nova Versão Internacional


Resumo
O registro não-rígido de imagem é fundamental em muitas tarefas de análise em imagens
médicas. O registro não-rígido visa estabelecer correspondências espaciais com o intuito de
minimizar as diferenças entre a imagem fixa e a imagem móvel. As técnicas convencionais
de registro de imagens, devido à abordagem iterativa, são lentas, mesmo se realizada com as
melhores técnicas e com as melhores GPUs. Além disso, possui dificuldades com convergência ou
estagnação prematura, principalmente com imagens multimodais. Desta forma, recentemente, foi
introduzida na literatura a abordagem de registro de imagem com aprendizado profundo visando
resolver os problemas de lentidão, de convergência ou estagnação prematura dos métodos
convencionais. Algumas destas novas abordagens são baseadas na rede U-Net, utilizando
camadas clássicas de pooling, tal como o Max Pooling, que não consideram a relação espacial
para realizar uma compressão mais representativa dos dados. Por outro lado, outras técnicas
perdem a relação espacial dos dados, como o uso da análise de componentes principais (PCA)
global como pooling. Assim, o presente trabalho tem o objetivo de investigar a utilização da
técnica PCA baseada em Blocos (Block-based PCA, i.e., BPCA) como técnica de pooling para
ambas as etapas de subamostragem e reconstrução de uma U-Net aplicada ao problema de
registro de imagens médicas. A fim de analisar a efetividade desse método, foram realizados
experimentos nos conjuntos de dados OASIS e IXI, que são conjuntos de dados de imagens 3D
de ressonância magnética ponderadas em T1 do cérebro. Os experimentos revelaram que o
BPCA superou o Max Pooling no conjunto de dados IXI e apresentou desempenho equivalente
no conjunto de dados de validação do OASIS, apresentando valores inferiores apenas no
conjunto de testes do OASIS. Além disso, a combinação dos dois métodos, em que o BPCA é
utilizado nas três camadas iniciais de pooling e, na última camada, o Max Pooling, superou os
resultados dos outros experimentos na métrica Dice. Assim, com os resultados qualitativos e
quantitativos, foi demonstrado que o método BPCA é uma alternativa viável para o registro
não-rígido de imagens.

Palavras-chave: Registro Não-Rígido de Imagem; Imagens Médicas; Aprendizado Profundo;
Análise de Componentes Principais; Block-Based Principal Component Analysis.


Abstract
The non-rigid image registration is fundamental in many tasks of analysis in medical images.
Non-rigid registration aims to establish spatial correspondences with the purpose of minimizing
differences between the fixed and moving images. Conventional image registration techniques,
due to their iterative approach, are slow, even when implemented with the best techniques
and GPUs. Moreover, they encounter difficulties with convergence or premature stagnation,
particularly with multimodal images. Thus, a recent introduction in the literature is the
deep learning-based image registration approach, aiming to address the issues of slowness,
convergence, or premature stagnation encountered by conventional methods. Some of these
new approaches are based on the U-Net architecture, utilizing classical pooling layers such
as Max Pooling, which do not consider spatial relationships for a more representative data
compression. On the other hand, other techniques lose the spatial relationship of the data, such
as the use of global Principal Component Analysis (PCA) as pooling. Therefore, the present
study aims to investigate the use of Block-based PCA (BPCA) as a pooling technique for both
downsampling and upsampling stages of a U-Net applied to the medical image registration
problem. In order to analyze the effectiveness of this method, experiments were conducted on
the OASIS and IXI datasets, which are datasets of 3D T1-weighted brain magnetic resonance
images. The experiments revealed that BPCA outperformed Max Pooling in the IXI dataset
and showed equivalent performance in the OASIS validation dataset, presenting lower values
only in the OASIS test dataset. Furthermore, the combination of both methods, where BPCA
is used in the initial three pooling layers and Max Pooling is applied in the final layer, surpassed
the results of other experiments in the Dice metric. Thus, with qualitative and quantitative
results, it was demonstrated that the BPCA method is a viable alternative for non-rigid image
registration.

Keywords: Non-rigid Image Registration; Medical Images; Deep Learning; Principal Component
Analysis; Block-Based Principal Component Analysis.


Lista de ilustrações

Figura 1 – Perceptron de uma camada, possuindo as entradas que realizam o estímulo
inicial, uma função de ativação que é responsável por realizar o aprendizado
e uma saída que é o resultado predito. . . . . . . . . . . . . . . . . . . . . 22

Figura 2 – Exemplo de uma rede Multilayer Perceptron (MLP), com duas camadas
intermediárias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Figura 3 – Arquitetura típica de uma Rede Neural Convolucional (CNN). . . . . . . . 26
Figura 4 – O mapa de características resultante da operação convolucional é represen-

tado por I ∗ K, onde I representa uma imagem e K um kernel (filtro). . . 27
Figura 5 – Representação da camada de pooling utilizando a função de sumarização

max pooling. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 6 – Representação da arquitetura da rede FCN para realizar segmentação de

imagens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 7 – Representação das etapas de max-pooling, max-locations e de unpooling . 29
Figura 8 – Representação da arquitetura da U-Net . . . . . . . . . . . . . . . . . . . 29
Figura 9 – Exemplo de uma arquitetura de Redes Adversárias Generativas típica para

reconhecer e gerar dígitos escritos à mão. . . . . . . . . . . . . . . . . . . 30
Figura 10 – Fluxograma da estrutura de registro de imagens em algoritmos de otimização. 34
Figura 11 – Processo de registro de imagem na abordagem por Métricas de Similaridade

Profunda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 12 – Processo de treinamento da abordagem de Registro Supervisionado de Ponta

a Ponta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 13 – Processo de treinamento da abordagem por Aprendizado Profundo por

Reforço. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 14 – Processo de treinamento do paradigma de Registro Não Supervisionado de

Ponta a Ponta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 15 – Processo de registro de imagem por meio do paradigma de Registro Fraca-

mente Semi-Supervisionado de Ponta a Ponta. . . . . . . . . . . . . . . . 39
Figura 16 – Gráfico de barras representando as principais métricas utilizadas para avaliar

os registros de imagens, de acordo com o número de publicações em que
foram utilizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Figura 17 – Visão geral do método proposto por Balakrishnan et al. (2019). . . . . . . 43


Figura 18 – Arquitetura convolucional U-Net proposta pelo framework VoxelMorph. Cada
retângulo representa um volume 3D gerado a partir de convoluções 3D
aplicadas no volume anterior. O tamanho dos filtros convolucionais estão
dentro dos retângulos e abaixo deles é apresentada a resolução espacial
de cada volume em relação à sua entrada. As setas representam as skip
connections que concatenam características do codificador e decodificador. 44

Figura 19 – Arquitetura das redes (a) geradoras e (b) discriminadoras utilizadas em
(MAHAPATRA et al., 2018). . . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 20 – Representação esquemática do DLIR framework. . . . . . . . . . . . . . . 46
Figura 21 – Fluxo geral do registro de imagem da LungRegNet. . . . . . . . . . . . . . 47
Figura 22 – Arquitetura da rede proposta em (HU et al., 2020). . . . . . . . . . . . . 48
Figura 23 – Arquitetura da rede multi-resolução proposta. . . . . . . . . . . . . . . . . 50
Figura 24 – Diagrama da rede U-Net do framework VoxelMorph com adaptações a fim

de utilizar o método BPCA como camada de pooling. . . . . . . . . . . . 54
Figura 25 – Diagrama de blocos do método BPCA. . . . . . . . . . . . . . . . . . . . 58
Figura 26 – Resultado do Max Pooling e BPCA aplicados em diferentes resoluções em

uma imagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 27 – Exemplos de imagens contidas no conjunto de dados OASIS. . . . . . . . . 60
Figura 28 – Exemplos de imagens contidas no conjunto de dados IXI. . . . . . . . . . . 61
Figura 29 – Dice Score obtido ao longo do treinamento no conjunto de validação do

conjunto de dados OASIS. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Figura 30 – Resultados dos registros obtidos nos experimentos no conjunto de dados de

teste do OASIS em uma visão sagital. . . . . . . . . . . . . . . . . . . . . 67
Figura 31 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas

colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do OASIS em visão sagital. . . . . . . 68

Figura 32 – Resultados dos registros obtidos nos experimentos no conjunto de dados de
teste do OASIS em uma visão coronal. . . . . . . . . . . . . . . . . . . . 69

Figura 33 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas
colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do OASIS em visão coronal. . . . . . . 70

Figura 34 – Resultados dos registros obtidos nos experimentos no conjunto de dados de
teste do OASIS em uma visão axial. . . . . . . . . . . . . . . . . . . . . . 71

Figura 35 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas
colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do OASIS em visão axial. . . . . . . . 72

Figura 36 – Dice Score obtido ao longo do treinamento no conjunto de validação do
conjunto de dados IXI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73


Figura 37 – Resultados dos registros obtidos nos experimentos no conjunto de dados de
teste do IXI em uma visão sagital. . . . . . . . . . . . . . . . . . . . . . . 76

Figura 38 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas
colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do IXI em visão sagital. . . . . . . . . 77

Figura 39 – Resultados dos registros obtidos nos experimentos no conjunto de dados de
teste do IXI em uma visão coronal. . . . . . . . . . . . . . . . . . . . . . 78

Figura 40 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas
colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do IXI em visão coronal. . . . . . . . . 79

Figura 41 – Resultados dos registros obtidos nos experimentos no conjunto de dados de
teste do IXI em uma visão axial. . . . . . . . . . . . . . . . . . . . . . . . 80

Figura 42 – Regiões de interesse ampliadas nos retângulos verde, azul e rosa, nas últimas
colunas. Marcações em vermelho destacam diferenças entre imagens nos
experimentos do conjunto de dados do IXI em visão axial. . . . . . . . . . 81


Lista de tabelas

Tabela 1 – Conjuntos de dados públicos disponíveis divididos entre tipos de órgãos,
registros e modalidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Tabela 2 – Tempo de treinamento de cada experimento no conjunto de dados OASIS,
expressos em segundos e em horas. O número destacado em negrito indica
o melhor tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Tabela 3 – Resultados fornecidos pelos organizadores do desafio do conjunto de dados
de teste do OASIS, os números destacados em negrito indicam as melhores
classificações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Tabela 4 – Resultados fornecidos pelos organizadores do desafio do conjunto de dados
de validação do OASIS, as melhores classificações estão destacadas em
negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Tabela 5 – Tempo de treinamento de cada experimento no conjunto de dados IXI,
expressos em segundos e em horas. O número destacado em negrito indica
o melhor tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Tabela 6 – Resultados da média do Dice Score, a porcentagem de |Jϕ| ≤ 0 e o tempo
médio gasto para realizar o registro na GPU em segundos, referentes a
cada experimento realizado. As melhores classificações estão destacadas em
negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74


Lista de abreviaturas e siglas

ANTs Advanced Normalization Tools

BPCA Block-Based Principal Component Analysis

CC Cross-correlation

CNN Convolutional Neural Network

CPU Central Processing Unit

DBT Digital Breast Tomosynthesis

DFV Deformation Vector Field

DDF Dense Displacement Field

DIR Deformable Image Registration

DLIR Deep Learning Image Registration framework

DRL Deep Reinforcement Learning

DSC Dice Similarity Coefficient

DSM Deep Similarity Metrics

FCN Fully Convolutional Network

GAN Generative Adversarial Network

GC Gain Coefficient

GPU Graphics Processing Unit

GRU Gated Recurrent Units

MI Mutual Information

MLP Multilayer Percepton

MSE Mean Squared Error

PCA Principal Component Analysis

ReLU Rectified Linear Unit


RIR Rigid Image Registration

RM Ressonância Magnética

RNA Redes Neurais Artificiais

SE2ER Supervised End-to-End Registration

SNN Spiking Neural Networks

SSIM Structural Similarity Index Measure

SVD Singular Value Decomposition

SyN Symmetric Normalization

TC Tomografia Computadorizada

TRE Target Registration Error

UE2ER Unsupervised End-to-End Registration

WSE2ER Weakly-Semi-Supervised End-to-End Registration

XAI Explainable Artificial Intelligence


Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.1.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Principais Contribuições do Trabalho . . . . . . . . . . . . . . . . . . 19
1.3 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 REDES NEURAIS E APRENDIZADO PROFUNDO . . . . . . . . . 21
2.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Aprendizado Profundo . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Rede Neural Convolucional . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Rede Completamente Convolucional . . . . . . . . . . . . . . . . . . . . . 28
2.2.3 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.4 Redes Adversárias Generativas . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 31

3 REGISTRO DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . 32
3.1 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Registro de imagens com aprendizado profundo . . . . . . . . . . . . 33
3.3 Métricas utilizadas em registro de imagens . . . . . . . . . . . . . . . 40
3.4 Trabalhos correlacionados . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Conjunto de dados públicos disponíveis . . . . . . . . . . . . . . . . . 51
3.6 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 53

4 UMA PROPOSTA METODOLÓGICA PARA O REGISTRO NÃO-
RÍGIDO DE IMAGENS MÉDICAS . . . . . . . . . . . . . . . . . . . 54

4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Block-Based Principal Component Analysis . . . . . . . . . . . . . . 57
4.4 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.7 Configurações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.1 Conjunto de dados OASIS . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2 Conjunto de dados IXI . . . . . . . . . . . . . . . . . . . . . . . . . . . 73


5.3 Considerações Finais do Capítulo . . . . . . . . . . . . . . . . . . . . 82

6 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85


17

1 Introdução

Nos últimos anos, com o crescimento dos recursos computacionais e o surgimento do
aprendizado profundo (do inglês, Deep Learning), houve avanços significativos na performance de
algoritmos para várias tarefas de visão computacional, incluindo registro de imagens. O registro
não-rígido, também conhecido como registro de imagem deformável (DIR, do inglês Deformable
Image Registration) tem sido um componente central de várias aplicações médicas nas últimas
décadas, como em aplicações clínicas envolvendo diagnóstico de doenças e monitoramento,
procedimentos cirúrgicos e radioterapia (CHEN et al., 2020; MANSILLA; MILONE; FERRANTE,
2020).

Imagens médicas podem ser definidas como imagens que possibilitam visualizar partes
(geralmente internas, mas também externas) do corpo de um organismo, permitindo visualizar
estruturas anatômicas desses organismos. As imagens médicas são utilizadas em pesquisas e
diagnósticos médicos. Existem diversos tipos de modalidades dessas imagens. A modalidade
é o que determina qual foi a técnica utilizada para construir a imagem. Alguns tipos de
modalidades são: ressonância magnética, radiografia, tomografia computadorizada, tomografia
computadorizada por emissão de fóton único e tomografia por emissão de pósitrons (NIELSEN,
2003).

As imagens médicas são utilizadas pelos profissionais da saúde em geral para auxiliar no
diagnóstico e tratamento de pacientes. As análises dessas imagens são feitas pelos especialistas
que utilizam principalmente sua interpretação visual e experiência, resultando em uma avaliação
subjetiva, além de uma avaliação normalmente requerer muito foco e, consequentemente, o
tempo desses profissionais (PATIL; DEORE, 2013). Essas limitações por parte dos especialistas
podem resultar em diagnósticos divergentes ou com um tempo mais longo, prejudicando os
pacientes. Desta forma, o ideal é que as análises de imagens médicas sejam realizadas por
sistemas e algoritmos de máquinas precisos e eficientes, em conjunto com o especialista para
corroborar ou confirmar o diagnóstico (PATIL; DEORE, 2013; KER et al., 2017).

Os autores em Litjens et al. (2017) demonstram o uso do aprendizado profundo em
imagens médicas, em tarefas de classificação de exames, diagnósticos ou lesões, detecção,
segmentação, registro de imagens e entre outras, sendo aplicadas em várias áreas como
neurologia, oftalmologia, mastologia, cardiologia, entre outras.

Na maior parte dos procedimentos médicos, há uma série de casos em que algumas
imagens médicas precisam ser adquiridas para diagnóstico, prognóstico, tratamento e acom-
panhamento. As imagens médicas podem ser obtidas com variações em termos temporais,
espaciais, dimensionais ou modalidade, sendo inevitável a necessidade de alinhamento para
essas imagens tiradas em tempos e condições diferentes. O registro de imagem não-rígido em


18

aplicações médicas tem como objetivo encontrar uma transformação espacial que distorça a
imagem móvel a fim de que a mesma fique o mais próximo possível da imagem de referência,
também conhecida como imagem fixa (GOSHTASBY, 2017). O registro não-rígido é conside-
rado um problema mal posto, pois, não há uma verdade absoluta disponível para a deformação
desejada (CHEN et al., 2020).

Um dos problemas no registro de imagem convencional é que o mesmo realiza o registro
por meio de algoritmos de otimização iterativa. Resumidamente, em cada iteração, é utilizada
uma medida de similaridade para alcançar um melhor alinhamento. O algoritmo termina de
ser executado quando é verificado que não há possibilidade de realizar um registro superior ao
melhor registro realizado ou quando algum outro critério de parada seja alcançado.

A tarefa de registro de imagem utilizando um algoritmo convencional é tipicamente
computacionalmente intensiva e demorada, mesmo com as melhores implementações e com os
melhores hardwares, devido à sua execução iterativa (CHEN et al., 2020), o que inviabiliza o
uso prático dos mesmos em operações clínicas em que é preciso obter o resultado em tempo
real. Um desafio adicional surge na necessidade de realizar o registro para cada par de imagens
novas, implicando na resolução repetida do problema de otimização sempre que novas entradas
são apresentadas (CHEN et al., 2022). Além disso, a imprecisão das medidas de similaridade,
especialmente no registro multimodal, faz com que os algoritmos de registro convencionais
fiquem presos nos ótimos locais, impedindo-os de encontrar o ótimo global, que é o objetivo
desejado, resultando em uma perda de eficiência e causando convergência ou estagnação
prematura (BOVEIRI et al., 2020).

Outro problema é a disponibilidade dos conjuntos de dados de imagens médicas. Ainda
é muito escasso esse tipo de conjunto de dados quando comparados ao conjunto de dados de
imagens gerais, devido à sensibilidade dos dados e ser necessário diagnósticos ou opiniões de
especialistas para se obter as anotações desses dados (TAVARES, 2018).

Por outro lado, a abordagem de utilizar o aprendizado profundo veio para tentar resolver
os problemas de lentidão, de convergência ou estagnação prematura, com espaço ainda para ser
explorado no contexto de registro de imagens médicas. A questão de falta de disponibilidade dos
conjuntos de dados de imagens médicas com anotações pode ser resolvida com a aprendizagem
profunda não supervisionada, na qual as redes desse tipo de aprendizagem não necessitam de
conjuntos de dados com anotações para o seu treinamento.

Além disso, na literatura de registro de imagens usando aprendizado profundo, uma
das arquiteturas de redes neurais mais utilizadas é a U-Net, que se utiliza de camadas de
pooling, especialmente para etapa de compressão dos mapas de atributos. As técnicas de
pooling comumente empregadas nestes tipos de rede, tal como o Max Pooling e o PCA global,
não consideram simultaneamente a relação espacial e a manutenção da estrutura espacial da
imagem após a compressão, de tal forma que o resultado da compressão pode trazer muitas
perdas de representatividade da estrutura geral da imagem, o que pode prejudicar o processo


19

de registro em encontrar pontos fortes de similaridade. Por sua vez, a técnica de extração
de atributos PCA baseada em blocos (BPCA, do inglês Block-Based Principal Component
Analysis) (SALVADEO et al., 2011) é capaz de atender estes critérios. Assim, vislumbrou-se a
questão a ser investigada nesta pesquisa: A utilização de BPCA como camada de pooling seria
adequada para o registro não-rígido de imagens médicas e qual a sua efetividade?

1.1 Objetivos
O presente trabalho tem como objetivo geral adaptar a rede U-Net do framework

VoxelMorph (BALAKRISHNAN et al., 2019) para utilizar o método estatístico BPCA (SALVA-
DEO et al., 2011) para comprimir e reconstruir as imagens nos caminhos de subamostragem
(downsampling) e reconstrução (upsampling), visando melhorar o desempenho do registro do
framework.

1.1.1 Objetivos Específicos
A fim de atingir o objetivo geral foram levantados os seguintes objetivos específicos:

• Adaptar a rede U-Net do framework VoxelMorph para utilizar o método estatístico BPCA
como camada de pooling;

• Verificar o desempenho dos registros do framework com a a rede U-Net adaptada para
utilizar o método estatístico BPCA como camada de pooling e também sem nenhuma
adaptação, e comparar o desempenho de ambos os experimentos;

• Misturar os métodos de pooling Max Pooling e o BPCA, alternando também a ordem
desta mistura e comparar o desempenho destes experimentos;

• Adaptar o caminho de reconstrução do framework para utilizar o BPCA inverso como
unpooling, isto é, reverter o BPCA no caminho da reconstrução, e comparar o desempenho
do registro com os outros experimentos;

• Realizar os experimentos propostos nos conjunto de dados escolhidos.

1.2 Principais Contribuições do Trabalho
Este trabalho propõe uma abordagem inovadora para o registro de imagens, introduzindo

o uso da técnica de pooling Block-Based Principal Component Analysis. Além disso, o trabalho
explora combinações de técnicas de pooling, como BPCA e Max Pooling. Adicionalmente,
o trabalho introduz uma ideia inovadora ao propor a reversão do BPCA no caminho de
reconstrução da rede U-net, denominado como BPCA inverso.


20

Por fim, com o objetivo de estimular colaborações, facilitar pesquisas futuras na área e
promover o avanço do conhecimento na comunidade científica, todo o código fonte utilizado
neste trabalho está disponível como open-source1.

1.3 Estrutura do Texto
No Capítulo 1, a introdução apresentou a contextualização, o problema e o objetivo

geral deste trabalho. Por sua vez, o restante do texto está organizado da seguinte forma. No
Capítulo 2, sobre redes neurais e aprendizado profundo, é apresentado o referencial teórico do
presente trabalho, que foi útil como fonte de pesquisa para o desenvolvimento do mesmo. No
Capítulo 3, sobre o registro de imagens, é aprofundado o tema fundamental deste trabalho,
detalhando também as métricas utilizadas para avaliar o desempenho do registro, os trabalhos
correlacionados e os conjuntos de dados disponíveis para o registro de imagens médicas. No
Capítulo 4, é apresentada a metodologia do trabalho, contendo a proposta, os experimentos a
serem realizados, os conjuntos de dados, as métricas, experimentos e as configurações utilizadas.
No Capítulo 5, penúltimo capítulo, os resultados dos experimentos realizados são expostos,
bem como é feita uma análise destes resultados nas considerações finais do capítulo. E no
Capítulo 6, último capítulo, são feitas as conclusões deste trabalho.

1 Repositório Github do projeto - https://github.com/Uemerson/masters-degree-in-computer-science-from-
unesp

https://github.com/Uemerson/masters-degree-in-computer-science-from-unesp
https://github.com/Uemerson/masters-degree-in-computer-science-from-unesp


21

2 Redes Neurais e Aprendizado Profundo

Neste capítulo é apresentado o referencial teórico deste trabalho, abordando as principais
arquiteturas de redes neurais com aprendizado profundo encontradas na literatura de registro
de imagens.

2.1 Redes Neurais Artificiais
Redes Neurais Artificiais (RNA) são modelos computacionais inspirados na estrutura

neural de seres vivos, sendo capazes de realizar as seguintes operações: aprendizado, associação,
generalização e abstração, além de adquirir e manter o conhecimento baseado em informações.
As RNAs podem ser definidas como um conjunto de unidades de processamento, definidas
por neurônios artificiais, altamente interligadas por uma grande quantidade de interconexões,
denominadas sinapses, efetuando operações simples, e transmitindo seus resultados às unidades
de processamento vizinhas (SILVA; SPATTI; FLAUZINO, 2010; CUNHA, 2010).

O principal componente das redes neurais artificiais é o neurônio artificial, que foi
introduzido pela primeira vez por McCulloch e Pitts (1943). Utilizando os conceitos propostos
por McCulloch e Pitts (1943) de neurônio artificial, Rosenblatt (1958) desenvolveu o primeiro
modelo treinável de um neurônio artificial, denominado Perceptron. O Perceptron é constituído
de apenas uma camada, conforme ilustrado na Figura 1, e em termos matemáticos pode ser
descrito conforme a Equação 1:

y = g

(
n∑

i=1
xiwi + b

)
, (1)

em que x1, x2 ... xn representam os sinais das entradas formando o axônio, e w1, w2 ... wn

representam os pesos sinápticos formando as sinapses, b representa o viés (bias), g é a função
de ativação que modela a saída no neurônio. O somatório da multiplicação das entradas com
os pesos é somado com o valor do viés e o resultado deste cálculo é utilizado pela função
de ativação para ativar ou não o neurônio. As funções de ativações comumente usadas são:
sigmóide, tangente hiperbólica e a ReLU (do inglês, Rectified Linear Unit), descritas em
termos matemáticos da Equação 2 até a Equação 4 (MARCON, 2020; FERREIRA, 2019),
respectivamente:

ϕ(x) = 1
1 + e−x

, (2)

ϕ(x) = ex − e−x

ex + e−x
e (3)


22

ϕ(x) =

x, x > 0
0, x ≤ 0

= max(0, x). (4)

Nas Equações 2 a 4, a variável x é a entrada para a função de ativação. Atualmente,
a função de ativação mais utilizada é a ReLU, devido à essa função transformar as entradas
negativas em zero, simplificando e acelerando os cálculos e o treinamento. Ao transformar os
valores negativos em zero, é possível evitar o problema da dissipação do gradiente e fornecer às
redes, após serem treinadas, características esparsas (KRISTIADI; HEIN; HENNIG, 2020; LIN;
SHEN, 2018; KER et al., 2017).

Figura 1 – Perceptron de uma camada, possuindo as entradas que realizam o estímulo inicial,
uma função de ativação que é responsável por realizar o aprendizado e uma saída
que é o resultado predito.

Fonte: (ANDRADE, 2020)

O Perceptron com apenas uma camada é utilizado para solucionar problemas lineares.
Ao se adicionar mais camadas intermediárias, é possível solucionar também problemas não
lineares. A arquitetura com múltiplas camadas intermediárias ou também nomeadas camadas
internas ou escondidas (do inglês, Hidden Layers) é conhecida como Multilayer Percepton
(MLP) ou Perceptron de Múltiplas Camadas (ROSENBLATT, 1961). As MLPs também são
conhecidas como feedforward neural network e são a estrutura base do aprendizado profundo
(GOODFELLOW; BENGIO; COURVILLE, 2016; HAO, 2019). Cada camada possui diversos
neurônios, sendo interligadas, porém os neurônios de uma mesma camada geralmente não são
interligados entre si, conforme ilustrado na Figura 2.


23

Figura 2 – Exemplo de uma rede Multilayer Perceptron (MLP), com duas camadas interme-
diárias.

Fonte: Adaptado de (CUNHA, 2010)

As camadas são conectadas por meio de pesos sinápticos e sinais de saídas. Os sinais
de saída de cada camada são o resultado do processamento dos sinais de entrada da camada
pela função de transferência não linear ou função de ativação. Cada camada sucessiva utiliza a
saída da camada anterior como sinal de entrada. Se fosse utilizada uma função de transferência
linear, então a MLP seria capaz de modelar apenas funções lineares (GARDNER; DORLING,
1998).

O treinamento da MLP tem como objetivo encontrar a combinação de pesos sinápticos
que resultam no menor erro possível. O algoritmo de retropropagação de erro (do inglês, error
backpropagation) (RUMELHART; HINTON; WILLIAMS, 1986) é bem conhecido e utilizado
para realizar o treinamento da MLP (HAYKIN, 2007). As redes MLP foram impulsionadas
somente depois da criação do algoritmo de backpropagation.

No primeiro passo, o algoritmo backpropagation propaga os sinais de entrada através da
rede, camada por camada, iniciando pela camada de entrada indo até a camada de saída. No
final da propagação é obtido como resposta real da rede um conjunto de saídas. No segundo
passo, o sinal de erro (em geral, calculado com base na diferença da resposta real da rede com
a resposta desejada) é propagado através da rede, contra a direção das conexões sinápticas, ou
seja, de trás para frente (direção das saídas para as entradas), ajustando os pesos sinápticos
de modo que a resposta da rede se mova para mais perto da resposta desejada (SANTOS;
PORSANI; HIRATA, 2010; HAYKIN, 2007). A ideia básica é que pesos sejam ajustados com
base na sua contribuição para o erro.

As arquiteturas de redes neurais são projetadas para seguir algum tipo de treinamento, de
acordo com o problema em questão. Os três principais tipos de aprendizado de máquina podem
ser categorizados em: aprendizado supervisionado (do inglês, supervised learning), aprendizado
semi-supervisionado (do inglês, semi-supervised learning) e aprendizado não supervisionado (do
inglês, unsupervised learning) (HAO, 2019).

O aprendizado supervisionado necessita que o conjunto de dados de treinamento estejam
rotulados com sua classe correspondente ou saída desejada, desta forma, os algoritmos de


24

aprendizado supervisionado são guiados a aprenderem um conjunto de padrões com base no
conhecimento fornecido pelos dados e seus rótulos. No aprendizado não supervisionado não
há necessidade de um conjunto de dados com rótulos, pois os algoritmos de aprendizado não
supervisionado aprendem os padrões a partir de uma caracterização de similaridade contida no
conjunto de dados, ou seja, não há necessidade de guiar o aprendizado para esses algoritmos. Os
algoritmos de aprendizado semi-supervisionado utilizam tanto do aprendizado supervisionado
quanto do aprendizado não supervisionado, ou seja, aprendem a partir de exemplos rotulados e
não rotulados, sendo bastante útil quando existe um pequeno número disponível de exemplos
no conjunto de dados rotulados (SANCHES, 2003).

2.2 Aprendizado Profundo
O aprendizado de máquina (do inglês, machine learning) vem sendo muito utilizado no

mundo contemporâneo, estando presente cada vez mais no dia a dia, podendo ser utilizado em
tarefas como: identificar objetos em imagens, transformar áudio em texto, buscar recomendações
relevantes em plataformas de streaming ou em sites de vendas utilizando informações dos
usuários, filtrar conteúdos específicos nas redes sociais, entre outras tarefas (LECUN; BENGIO;
HINTON, 2015).

O aprendizado profundo (do inglês, deep learning) é uma das subáreas do campo de
aprendizado de máquina, surgindo de pesquisas relacionadas especialmente a redes neurais
artificiais. O aprendizado profundo pertence à categoria de algoritmos das redes neurais
artificiais, pois utiliza conceitos derivados das redes neurais artificiais (OISHI; YAGAWA, 2017;
BUDIHARTO et al., 2018), que tem uma base de modelagem em estruturas de dados de
grafos.

O crescente aumento do poder computacional obtido por meio das unidades de proces-
samento gráfico (GPUs - Graphics Processing Units) e a disponibilidade de grandes volumes
de dados impulsionaram o aprendizado profundo, tornando a sua utilização mais ativa. O
aprendizado profundo provou ser uma solução robusta para diversas tarefas como segmenta-
ção de imagens, classificação de imagens, processamento de linguagem natural, entre outras
(BIZOPOULOS; KOUTSOURIS, 2018).

O aprendizado profundo no campo de visão computacional se tornou popular quando
um trabalho utilizando uma abordagem de aprendizado profundo com base em uma rede neural
convolucional (LECUN et al., 1998; KRIZHEVSKY; SUTSKEVER; HINTON, 2012) ganhou de
forma esmagadora no final de 2012 a competição mundial de visão computacional conhecida
como ImageNet Classification (SUZUKI, 2017), passando a ser dominante em quase todas as
abordagens para tarefas de reconhecimento e detecção (LECUN; BENGIO; HINTON, 2015).

Um dos benefícios que o aprendizado profundo tem quando comparado com os métodos
tradicionais de aprendizado de máquina é não precisar de ter muito conhecimento do domínio


25

do problema a ser resolvido. Além disso, as redes neurais profundas são melhores para problemas
que escalam, pois, ao aumentar o conjunto de dados, as redes neurais profundas geralmente
aumentam a precisão nos resultados obtidos (BIZOPOULOS; KOUTSOURIS, 2018).

Existem algumas limitações que os métodos de aprendizado profundo possuem quando
comparados com outros métodos de aprendizado de máquina. Em geral, ainda não é possível
abstrair o processo das redes neurais profundas, ou seja, não se sabe justificar como as
redes neurais funcionam, esse problema é conhecido como caixa preta (do inglês, black box).
No entanto, com o objetivo de superar o desafio da caixa preta, a área de pesquisa em
Inteligência Artificial Explicável (XAI, do inglês Explainable Artificial Intelligence) tem como
objetivo desenvolver modelos de inteligência artificial que sejam facilmente interpretáveis
e compreensíveis para os seres humanos (REDDY; KUMAR, 2023). Muitos métodos de
aprendizado de máquina superam os métodos de redes neurais profundas quando os conjuntos
de dados são escassos. Desta forma, é necessário um grande conjunto de dados para treinar
as redes neurais profundas, em geral. Outro problema encontrado é selecionar a rede neural
profunda certa para cada problema, pois existem inúmeras arquiteturas de redes neurais
profundas disponíveis, de tal modo que selecionar a apropriada para resolver um problema
específico é uma tarefa árdua. E, por fim, as redes neurais profundas necessitam de um grande
poder computacional para serem treinadas, porém não é necessário muito poder computacional
após serem treinadas (MAMOSHINA et al., 2016).

A seguir, são introduzidas algumas arquiteturas de redes neurais profundas, que dentre
outras tarefas são utilizadas também em tarefas de visão computacional e processamento
digital de imagens, incluindo o registro de imagem.

2.2.1 Rede Neural Convolucional
A Rede Neural Convolucional (CNN ou ConvNet, do inglês Convolutional Neural

Network) introduzida por Lecun et al. (1998) e suas derivações têm sido aplicadas com sucesso
em aplicações de detecção, segmentação e reconhecimento de objetos em imagens.

A CNN é projetada para processar dados de entrada que possuem a topologia em forma
de grade, ou seja, dados que vem em forma de matrizes. Alguns exemplos de dados de matrizes
são: 1D para sinais e sequências, incluindo linguagem, 2D para imagens ou espectrogramas
de áudio e 3D para vídeo ou imagens volumétricas (LECUN; BENGIO; HINTON, 2015;
GOODFELLOW; BENGIO; COURVILLE, 2016).

Em geral, a arquitetura da CNN é composta de diversas camadas. Essas camadas
podem ser divididas em três tipos, sendo: o primeiro tipo, a camada convolucional; o segundo,
a camada de subamostragem (pooling) e; o terceiro tipo, a camada totalmente conectada. Na
Figura 3, onde está ilustrada a arquitetura de uma CNN. É possível visualizar esses tipos de
camadas. Cada camada é responsável por extrair características dos dados de entrada. A saída


26

de uma camada é utilizada como entrada para a camada seguinte. A ideia é ir abstraindo a
representação das características de acordo com a progressão através das camadas (MARCON,
2020; LECUN; BENGIO; HINTON, 2015).

Figura 3 – Arquitetura típica de uma Rede Neural Convolucional (CNN).

Fonte: Adaptado de (LECUN; KAVUKCUOGLU; FARABET, 2010)

A camada convolucional é composta de filtros treináveis. Os filtros possuem uma
área pequena (por exemplo, um tamanho de 3x3, 5x5 ou 7x7 de pixels) e percorrem os
dados de entrada. Dada uma imagem como entrada, esses pequenos filtros vão percorrendo a
imagem e detectando as características mais marcantes dela, obtendo um mapa de ativação
(ou mapa de características). Cada neurônio de cada camada está conectado apenas com
os neurônios próximos da camada anterior. As camadas compartilham os pesos entre seus
neurônios conduzindo os filtros a aprenderem os padrões frequentes que ocorrem em qualquer
parte da imagem, por exemplo, uma borda da imagem (MARCON, 2020; HAFEMANN, 2014).

A operação convolucional consiste em deslizar os filtros sobre a entrada. Dada uma
imagem como exemplo de entrada, para cada local que o filtro está passando, os pixels da imagem
definidos sobrepostos pela janela do filtro são multiplicados com os pesos correspondentes
contidos no filtro e, no final, é feita uma somatória do resultado das multiplicações, resultando
em um saída de mapa de características. Essa operação é ilustrada de forma visual na Figura 4
(MARCON, 2020).


27

Figura 4 – O mapa de características resultante da operação convolucional é representado
por I ∗ K, onde I representa uma imagem e K um kernel (filtro).

Fonte: Adaptado de (MARCON, 2020)

A camada de subamostragem (pooling) é utilizada para simplificar saídas da camada
anterior. Observa-se que, no exemplo da Figura 5, a área da camada de pooling é de tamanho
2x2. Esta área vai ser utilizada para percorrer por toda a saída da camada anterior resumindo a
informação daquela área em um valor único. Uma das formas de sumarizar a saída da camada
anterior é utilizar o método de ativação máxima (max-pooling), no qual pega-se apenas o valor
máximo dentro da vizinhaça da área da camada de pooling. Existem outras funções de pooling,
por exemplo, funções que usam a média, mediana, norma L2 de uma região retangular e entre
outras, porém a mais utilizada é a max-pooling (MARCON, 2020; LECUN; BENGIO; HINTON,
2015).

Figura 5 – Representação da camada de pooling utilizando a função de sumarização max
pooling.

Fonte: Adaptado de (YANI et al., 2019)

Ao finalizar os processos de convolução e pooling, no final da rede, é adicionada uma ou
mais camadas totalmente conectadas (normalmente, correspondente a uma MLP tradicional),
que utiliza a saída da camada anterior como entrada e tem como função realizar a classificação
dos padrões de entrada por exemplo (FERREIRA, 2019).


28

2.2.2 Rede Completamente Convolucional
A Rede Completamente Convolucional (FCN, do inglês Fully Convolutional Network),

introduzida por Long, Shelhamer e Darrell (2015), é muito similiar à CNN, porém, a arquitetura
da FCN não utiliza a camada totalmente conectada, que é geralmente utilizada para realizar
a classificação. Na FCN, a camada totalmente conectada é substituída por uma camada
convolucional, permitindo que a rede resulte em uma saída do tamanho da imagem de entrada.
Essa camada convolucional é utilizada para tarefas como classificar, segmentar e entre outras
pixel por pixel da imagem de entrada (SKEIKA, 2019; FERREIRA, 2019).

A arquitetura da rede FCN é composta por diversas camadas convolucionais, que assim
como na CNN produzirão diferentes mapas de características de diferentes profundidades. No
final da rede fica a camada convolucional que irá realizar a predição, conforme ilustrado na
Figura 6.

Figura 6 – Representação da arquitetura da rede FCN para realizar segmentação de imagens.

Fonte: Adaptado de (LONG; SHELHAMER; DARRELL, 2015)

Observa-se na Figura 6 que, no final da rede FCN, existe uma cada convolucional
denominada predição por pixels. Essa camada é responsável por realizar a predição pixel por
pixel, ou seja, para cada pixel da imagem é atribuida a sua respectiva classe. Conforme a Figura
6, o tamanho final da predição por pixels foi determinado pela quantidade de classes distintas
contidas no conjunto de dados (SKEIKA, 2019).

A FCN utiliza dois caminhos para a redução da dimensão da entrada e a expansão
da mesma no final da rede, denominados downsampling e upsampling, respectivamente. No
caminho de downsampling, a dimensão da entrada é reduzida por meio da etapa de pooling,
enquanto no caminho de upsampling, a dimensão da entrada que foi reduzida ao longo das
camadas é expandida novamente (SKEIKA, 2019).

Não é possível reverter completamente a operação de max-pooling realizada durante a
etapa de pooling, portanto, o resultado da reversão desta operação na etapa de unpooling é
aproximado (ZEILER; FERGUS, 2014).


29

Figura 7 – Representação das etapas de max-pooling, max-locations e de unpooling

Fonte: (DAVID; NETANYAHU, 2016)

Conforme ilustrados na Figura 7 durante a operação de max-pooling (caminho de
downsampling), as localizações dos máximos (max-locations) são armazenadas para serem
usadas durante o unpooling (caminho de upsampling), onde os valores aproximados são
restaurados para os seus locais exatos e os locais restantes (vizinhos) são preenchidos com
zero (DAVID; NETANYAHU, 2016).

2.2.3 U-Net
A U-Net é uma Rede Neural estendida das FCNs e foi proposta por Ronneberger,

Fischer e Brox (2015), desenvolvida com o objetivo de realizar com precisão a segmentação de
imagens biológicas com um conjunto de dados de treino pequeno (SKEIKA, 2019).

Conforme ilustrada na Figura 8, a arquitetura da U-Net possui dois caminhos: o caminho
de contração, representado na figura pelo lado esquerdo (downsample), no qual a entrada tem
sua dimensão reduzida; e o caminho de expansão simétrico, representado na figura pelo lado
direito (upsample), onde a entrada tem sua dimensão recuperada.

Figura 8 – Representação da arquitetura da U-Net

Fonte: (LIU et al., 2021)


30

O caminho de contração tem a mesma arquitetura tradicional de uma CNN, com várias
aplicações repetidas de convoluções, com cada uma acompanhada por uma função de ativação
ReLU e subamostragem com a operação de max-pooling, reduzindo a dimensão da entrada. Em
cada etapa de redução da entrada (pooling) é duplicado o número de canais de características.
No caminho de expansão, em cada etapa é seguido por upsampling do mapa de características
e deconvolução, que reduz pela metade o número de canais de características. No fim, é feita
uma concatenação com o mapa de características correspondente do caminho de contração
(FERREIRA, 2019; LIU et al., 2021).

A U-Net combina os mapas de características do caminho de contração (codificador)
com seus mapas de características correspondentes simétricos do caminho de expansão (decodi-
ficador) em todas as etapas, formando uma estrutura em forma de "U". Concatenar as etapas
permite que o decodificador para cada etapa aprenda as características relevantes perdidas ao
se agrupar no codificador e também é o que diferencia a U-Net das outras arquiteturas FCN
(FERREIRA, 2019).

2.2.4 Redes Adversárias Generativas
As Redes Adversárias Generativas (GANs, do inglês Generative Adversarial Networks)

foram propostas por Goodfellow et al. (2014) e é um modelo composto por duas redes
neurais artificiais, sendo uma rede neural geradora e uma rede neural discriminadora, que ficam
competindo entre si.

A rede neural geradora tem como objetivo gerar novas amostras de dados com base
nos dados reais de treinamento, de tal modo que as amostras falsas geradas tentam ser o
mais próximo possível dos dados verdadeiros. Enquanto a rede neural discriminadora tem como
objetivo aprender a diferenciar as amostras de dados geradas pela rede geradora das amostras
de dados reais (FERREIRA, 2019; KER et al., 2017).

Figura 9 – Exemplo de uma arquitetura de Redes Adversárias Generativas típica para reco-
nhecer e gerar dígitos escritos à mão.

Fonte: Adaptado de (LOYOLA-GONZALEZ, 2019)

Observa-se na Figura 9 que a rede neural discriminadora tenta identificar entre os


31

exemplos reais e os exemplos gerados pela rede neural geradora quais exemplos são verdadeiros
e quais são falsos. Neste exemplo, tanto a rede rede neural geradora quanto a rede neural
discriminadora são treinadas utilizando o backpropagation (LOYOLA-GONZALEZ, 2019).

Durante o treinamento, os pesos de ambas as redes são atualizados para que o
desempenho delas melhore. Desta forma, a rede geradora é atualizada para que ela gere
exemplos que consigam enganar a rede discriminadora, enquanto que a rede discriminadora é
atualizada para melhorar a capacidade da mesma de distinguir os exemplos falsos dos exemplos
verdadeiros (FERREIRA, 2019).

A convergência se dá quando a rede discriminadora não é capaz de distinguir o que é
uma amostra gerada ou uma amostra real. Desta forma, o discriminador pode ser descartado
ou não, podendo ser utilizado para classificar os exemplos, e a rede geradora está pronta para
ser utilizada como geradora de exemplos (GOODFELLOW; BENGIO; COURVILLE, 2016).

2.3 Considerações Finais do Capítulo
Neste capítulo foram apresentados os conceitos de redes neurais artificias e do apren-

dizado profundo. Após foi apresentado em detalhes a CNN, FCN, a U-Net e, por fim, as
GANs. No próximo capítulo serão abordadas técnicas de registro de imagens com aprendizado
profundo, que se utilizam nas arquiteturas de redes neurais apresentadas aqui.


32

3 Registro de imagens

Neste capítulo são apresentados os conceitos, processos e os tipos de métodos de
registro de imagem, assim como, apresenta o registro de imagens com aprendizado profundo,
expondo também algumas métricas utilizadas no registro de imagem. Por fim, são apresentados
alguns trabalhos correlacionados e conjuntos de dados públicos disponíveis para o registro de
imagem.

3.1 Conceitos Iniciais
É inevitável a falta de alinhamento entre imagens adquiridas de pontos de vista diferentes,

em tempos diferentes, em condições diferentes ou de modalidades diferentes. Um exemplo
de imagens com essas características são as imagens médicas, capturadas para diagnóstico,
prognóstico, tratamento e acompanhamento. Desta forma, para resolver esse problema é
utilizada uma técnica de registro de imagens.

O registro de imagens é um processo de alinhamento de imagens com base em um
sistema de coordenadas geométricas semelhantes (BOVEIRI et al., 2020). No processo de
registro de imagem, um par de imagens é mapeado (também conhecido como registro de
pares) ou um conjunto de imagens é mapeado (conhecido como registro de grupo). Durante o
mapeamento, é detectada uma transformação geométrica de coordenadas em comum entre as
imagens, a fim de realizar um alinhamento ideal (CHEN et al., 2020).

O processo de registro de duas imagens sem a utilização de aprendizado profundo pode
ser definido como um problema de otimização (LIU et al., 2021), podendo ser expresso pela
Equação 5:

T̂ = arg min
T

S (F, T (M)), (5)

em que F denota a imagem fixa de referência e M denota a imagem em movimento (desalinhada)
a ser registrada. T denota a transformação geométrica desejada que mapeia as coordenadas
em comum entre F e M . Por sua vez, S representa uma função de custo que mede o quanto
a imagem fixa e a imagem em movimento mapeada por T estão desalinhadas. O registro de
imagens acontece de forma iterativa, melhorando a estimativa de T de tal forma que a função
de custo S seja minimizada (CHEN et al., 2020; VOS et al., 2019).

Com base na transformação geométrica desejada, os métodos de registro de imagem
podem ser classificados como registro rígido, registro afim e registro não-rígido, também
conhecido como registro de imagem deformável (CHEN et al., 2020; FU et al., 2020a).


33

O registro rígido considera apenas a translação ao longo das coordenadas x, y e z e a
rotação em torno dos eixos x, y e z. Desta forma, esse tipo de transformação pode ser modelada
usando 6 parâmetros ou graus de liberdade, por meio da combinação dos 3 parâmetros de
rotação e os 3 parâmetros de translação. O registro afim adiciona 6 novos graus de liberdade,
sendo eles: o alongamento (escala) ao longo dos eixos x, y e z e a inclinação ou distorção
(cisalhamento) nos planos xy, yz, e xz (BOVEIRI et al., 2020; CRUM; HARTKENS; HILL,
2004).

Quando a imagem apresenta deformações elásticas é necessário aplicar o registro não-
rígido para realizar o alinhamento ideal. O registro rígido possibilita uma quantidade baixa de
graus de liberdade, enquanto o registro não-rígido possibilita um número maior de deformações
(RODRIGUES, 2010; WRANGSJÖ; PETTERSSON; KNUTSSON, 2005).

Enquanto os métodos de registro rígido e afim lidam apenas com diferenças globais
como translação, rotação e escala, o registro não-rígido lida com as diferenças locais entre as
imagens. Diferenças adquiridas por meio da deformação de scanner, movimento dos pacientes,
intervenções cirúrgicas ou anatomias diferentes (FORNEFETT; ROHR; STIEHL, 2001).

No registro rígido (RIR, do inglês Rigid Image Registration), todos os pixels da imagem
são transladados e/ou rotacionados uniformemente de forma que toda relação pixel a pixel
permanece a mesma antes e depois da transformação. No registro não-rígido, a relação pixel a
pixel não se mantém a mesma após a transformação (OH; KIM, 2017).

A seguir, é apresentado o funcionamento do registro de imagens utilizando o aprendizado
profundo, bem como suas vantagens sobre os métodos tradicionais de registro de imagens.

3.2 Registro de imagens com aprendizado profundo
Até recentemente, o registro de imagens médicas ainda era feito de forma manual por

especialistas, tornando essa tarefa bastante desafiadora e a qualidade dos registros altamente
dependente da experiência desses profissionais. Para resolver esses problemas, que clinicamente
são altamente prejudiciais, o registro automático foi desenvolvido (HASKINS; KRUGER; YAN,
2020).

Ainda que os métodos de registro automático tenham sido amplamente utilizados antes,
durante e depois do surgimento das redes neurais profundas, após o surgimento delas, vários
métodos de registro de imagens utilizando aprendizado profundo tem sido propostos, atingindo
os melhores desempenhos (HASKINS; KRUGER; YAN, 2020).

O processo de registro de imagem em geral tem os seguintes passos. O primeiro passo
é escolher um modelo de transformação (rígido, afim ou não-rígido) adequado ao problema e
inicializar os parâmetros no modelo de transformação escolhido. O segundo passo é utilizar o
modelo de transformação para distorcer a imagem em movimento. No terceiro passo ocorre a


34

avaliação da dissimilaridade entre a imagem em movimento distorcida com a imagem fixa. No
quarto passo é utilizado um algoritmo de otimização adequado para atualizar os parâmetros
no modelo de transformação, por meio da otimização da função de custo, que é formulada
utilizando a métrica de dissimilaridade. É realizada uma iteração do segundo passo até o quarto
passo enquanto um critério de convergência apropriado não for atendido (CHEN et al., 2020).
Normalmente, os algoritmos convencionais de registro de imagens são compostos por três
componentes distintos: o modelo de transformação, a métrica de similaridade e um algoritmo
de otimização, conforme é ilustrado na Figura 10.

Figura 10 – Fluxograma da estrutura de registro de imagens em algoritmos de otimização.

Fonte: Adaptado de (CHEN et al., 2020)

Um dos problemas no processo iterativo, que os algoritmos convencionais de registro de
imagens usam, é a lentidão, chegando a levar dezenas de minutos, mesmo com uma implementa-
ção eficiente nas melhores GPUs contemporâneas. Desta forma, esses algoritmos convencionais
são normalmente intensivos, requerindo um poder de processamento computacional muito alto.
É desvantajoso utilizar esses algoritmos em operações clínicas que acontecem em tempo real,
onde qualquer perda de tempo prolongada não é bem vista (BOVEIRI et al., 2020; CHEN et
al., 2020).

Outro problema dos algoritmos convencionais de registro de imagens que usam métodos
de otimização é o fato deles serem ineficientes por causa da convergência ou estagnação
prematura, devido às medidas de similaridade terem muitos ótimos locais em torno do ótimo
global, especialmente em imagens de diferentes modalidades (registro de imagens multimodais)
(CHEN et al., 2020).


35

No registro de imagens com aprendizado profundo, diferente dos métodos tradicionais
de registro iterativos, se realiza o registro em apenas um passo, deixando o custo principalmente
para a etapa de treinamento dos modelos. Ou seja, o processo de otimização ocorre durante o
treinamento, não sendo necessário repeti-lo a cada conjunto de imagens diferentes. Desta forma,
é possível realizar o registro de imagens em tempo real, sendo uma das primeiras vantagens de
se utilizar o aprendizado profundo para esta tarefa. Além disso, as técnicas de registro com
aprendizado profundo não sofrem de convergência ou estagnação (BOVEIRI et al., 2020).

Ainda, o aprendizado profundo eliminou as tarefas de escolher, reduzir, selecionar, e
normalizar características dos métodos convencionais. Sendo essas tarefas essenciais para se
obter o melhor desempenho no problema de registro (BOVEIRI et al., 2020).

Segundo Boveiri et al. (2020), o registro de imagens médicas com aprendizado profundo
pode ser dividido em cinco abordagens, sendo elas: Métricas de Similaridade Profunda (DSM,
do inglês Deep Similarity Metrics), Registro Supervisionado de Ponta a Ponta (SE2ER, do
inglês Supervised End-to-End Registration), Aprendizado Profundo por Reforço (DRL, do inglês
Deep Reinforcement Learning), Registro Não Supervisionado de Ponta a Ponta (UE2ER, do
inglês Unsupervised End-to-End Registration), Registro Fracamente Semi-Supervisionado de
Ponta a Ponta (WSE2ER, do inglês Weakly-Semi-Supervised End-to-End Registration). Este
trabalho adota uma abordagem de Registro Não Supervisionado de Ponta a Ponta, visto que o
framework Voxelmorph, utilizado para auxiliar no processo de registro de imagem não-rígida,
segue esta abordagem de registro.

A abordagem por Métricas de Similaridade Profunda (BOVEIRI et al., 2020) utiliza
diferentes tipos de redes neurais profundas para aprenderem as métricas de similaridade por
meio de um grande conjunto de dados com anotações (ground-truth). Após o treinamento,
as redes são aptas em modelar de forma precisa e significativa as diferenças estruturais entre
as entradas de pares de imagens ou pares de patches. Essa abordagem combina o uso das
redes neurais profundas e as abordagens de otimização iterativas convencionais. Desta forma, a
rede treinada fornece frequentemente as métricas aprendidas para os algoritmos de otimização
convencionais, a fim de produzir os parâmetros de transformação. Esse processo está ilustrado
na Figura 11. Esta abordagem foi capaz de superar as métricas dos métodos convencionais,
principalmente no registro multimodal, no qual os métodos convencionais não foram muito
eficazes. As desvantagens desta abordagem são a necessidade de um grande conjunto de
dados, o que é dificultoso para imagens médicas que não existem muitos conjuntos de dados
públicos disponíveis, e a dependência de abordagens convencionais baseadas em iterações, o
que torna essa aborgagem lenta e inutilizável para uso clínico (BOVEIRI et al., 2020; HASKINS;
KRUGER; YAN, 2020).


36

Figura 11 – Processo de registro de imagem na abordagem por Métricas de Similaridade
Profunda.

Fonte: Adaptado de (HASKINS; KRUGER; YAN, 2020)

Na Figura 11, observa-se que o fluxo da abordagem de registro de imagem por Métricas
de Similaridade Profunda inicia-se com as entradas da imagem fixa e da imagem em movimento
na rede. Depois, a rede gera um parâmetro de transformação que é então enviado para um
algoritmo de otimização (similar ao convencional) que avalia esse parâmetro. Ao verificar que
o parâmetro pode ser melhorado, o processo inicia novamente desde o começo, as iterações
acabam quando o parâmetro não poder ser mais melhorado. Quando a iteração acaba o melhor
parâmetro de transformação gerado é utilizado para realizar o registro de imagens (HASKINS;
KRUGER; YAN, 2020; BOVEIRI et al., 2020).

O processo de treinamento do Registro Supervisionado de Ponta a Ponta (BOVEIRI et
al., 2020) é bastante similiar ao da abordagem por Métricas de Similaridade Profunda, porém
não utiliza nenhum método de otimização iterativo convencional para realizar o registro de
imagem, conforme é ilustrado na Figura 12. Desta forma, ao eliminar a abordagem convencional
baseada em iteração, o registro pode ser feito em um único passo, permitindo utilizar o registro
com essa abordagem em ambiente clínico e ser realizado em tempo real. Um problema do
Registro Supervisionado de Ponta a Ponta é a necessidade de um grande conjunto de dados
com anotações (ground-truth) para o treinamento das redes. Para o registro afim e rígido, as
técnicas predominantes são CNN e U-Net (BOVEIRI et al., 2020).

Figura 12 – Processo de treinamento da abordagem de Registro Supervisionado de Ponta a
Ponta.

Fonte: Adaptado de (BOVEIRI et al., 2020)


37

Observa-se na Figura 12 que durante o treinamento a abordagem por Registro Supervi-
sionado de Ponta a Ponta utiliza conjunto de dados com anotações para produzir parâmetros
de transformação em um único passo. A imagem fixa e em movimento são enviadas para a
rede como entrada. Após, a rede gera um parâmetro de transformação usado para distorcer a
imagem em movimento. A imagem distorcida é utilizada para melhorar a rede ao ser comparada
sua similaridade com as anotações verdadeiras. Após a rede ser treinada, o registro de imagens
é realizado em um único passo, ou seja, sem a necessidade de repetir o processo de otimização
para cada conjunto de imagens diferente (BOVEIRI et al., 2020).

No paradigma de registro de imagem por Aprendizado Profundo por Reforço (BOVEIRI
et al., 2020), o aprendizado das redes treinadas se dão por reforço, ou seja, é fornecida uma
recompensa ou uma punição para cada ação de registro realizada, com o objetivo de maximizar
o parâmetro de transformação gerado pelas redes. O processo de registro por reforço é ilustrado
na Figura 13. Um dos desafios desta abordagem é lidar com campos de deformação de alta
resolução e ser um pouco mais lento quando comparado com método de registro Supervisionado
de Ponta a Ponta. Essa abordagem ainda é mais rápida que os métodos tradicionais no registro
de imagens médicas (HASKINS; KRUGER; YAN, 2020; CHEN et al., 2020).

Figura 13 – Processo de treinamento da abordagem por Aprendizado Profundo por Reforço.

Fonte: Adaptado de (HASKINS; KRUGER; YAN, 2020)

Na Figura 13 observa-se a necessidade um agente para a abordagem de registro de
imagens por Aprendizado Profundo por Reforço. O agente aprende a mapear os estados em
ações segundo as recompensas que vai recebendo do ambiente. A recompensa é relativa ao
desempenho obtido do registro por meio das ações fornecidas pelo agente. Desta forma, as ações
geradas pelo agente são fornecidas e melhoradas em cada iteração, com base nas recompensas
recebidas pelo ambiente (HASKINS; KRUGER; YAN, 2020; BOVEIRI et al., 2020).

Os conjuntos de dados médicos, especialmente para a tarefa de registro, geralmente
são pequenos, o que os tornam inapropriados para o aprendizado profundo baseado em grandes
volumes de dados. Essa limitação foi um grande motivador para o surgimento do Registro Não
Supervisionado de Ponta a Ponta (BOVEIRI et al., 2020), onde diferentes redes profundas
são treinadas sem a necessidade de um conjunto de dados com anotações (ground-truth)
e realizam o registro em um único passo. Técnicas de aumento de dados (do inglês, data
augmentation) podem ser utilizadas para aumentar o conjunto de dados de treinamento, e o


38

processo de aprendizagem é guiado por meio de uma medida ou uma combinação de medidas
de similaridade tradicionais, que são empregadas como função de custo (BOVEIRI et al., 2020).
Não são necessários conjuntos de dados com anotações, o que evita outro problema, que é o
modelo treinado ser dependente da qualidade das anotações. A abordagem de registro não
supervisionado é ilustrada na Figura 14. As medidas utilizadas como função de custo para
treinar as redes para o registro multimodal são ineficientes, portanto essa abordagem não
supervisionada herda essa ineficiência (BOVEIRI et al., 2020; CHEN et al., 2020).

Figura 14 – Processo de treinamento do paradigma de Registro Não Supervisionado de Ponta
a Ponta.

Fonte: Adaptado de (BOVEIRI et al., 2020)

Observa-se na Figura 14 que o fluxo do processo de Registro Não Supervisionado de
Ponta a Ponta inicia-se com a imagem fixa e em movimento sendo enviadas para a rede como
uma entrada. Então a rede gera uma transformação de parâmetros utilizada no registro da
imagem em movimento, que é utilizada para gerar a imagem deformada. Em seguida, a imagem
deformada é utilizada em uma métrica de similaridade e o resultado é utilizado para melhorar a
rede durante o treinamento, que consequentemente irá melhorar a transformação de parâmetro.
Depois que a rede é treinada, o registro de imagens acontece de uma vez só, sem precisar
repetir o processo de otimização para cada conjunto de imagens diferente (BOVEIRI et al.,
2020).

Segundo (BOVEIRI et al., 2020), o Registro Fracamente Semi-Supervisionado de Ponta
a Ponta pode ser considerado como a melhor abordagem atualmente. Existem duas principais
categorias diferentes para esta abordagem. Na primeira categoria é utilizado um conjunto de
dados pequeno, mas totalmente anotado, com o máximo de pontos de referência possível
e cada um desses pontos recebe um rótulo de classe diferente. A rede treinada aprende a
detectar os pontos de referência em qualquer par de imagens usadas como entrada e realizar
o registro. Pode ser utilizada também a medida de Erro de Registro do Alvo (TRE, do
inglês Target Registration Error)(BOVEIRI et al., 2020) como função de custo para treinar
as redes, porém não é uma tarefa simples. Ao detectar os pontos de referência, os modelos
se tornam mais eficientes e aumentam a sua precisão. Na segunda categoria são utilizadas


39

as GANs, onde o gerador utiliza as entradas da imagem fixa e a imagem em movimento e
tenta produzir parâmetros de transformação de modo que a imagem móvel, ao ser distorcida
com o parâmetros de transformação produzido, não seja detectada (discriminada) como uma
falsa pelo discriminador usando a anotação (ground-truth). As GANs também permitem o
treinamento com um pequeno conjunto de dados. O processo de registro de imagens por
meio desta abordagem é ilustrado na Figura 15. Essa abordagem mescla os pontos fortes das
abordagens de registro supervisionado e não supervisionado, ao mesmo tempo que evita as
deficiências das mesmas (BOVEIRI et al., 2020; CHEN et al., 2020).

Figura 15 – Processo de registro de imagem por meio do paradigma de Registro Fracamente
Semi-Supervisionado de Ponta a Ponta.

Fonte: Adaptado de (HU et al., 2018)

Na Figura 15, a parte superior representa o fluxo de treinamento na abordagem de
Registro Fracamente Semi-Supervisionado de Ponta a Ponta. Observa-se que, no treinamento,
é utilizado um conjunto de dados com anotações. O fluxo é similar ao da abordagem de
Registro Não Supervisionado de Ponta a Ponta com a principal diferença que a rede usa a
similaridade entre as anotações da imagem fixa e em movimento para melhorar a regularização
de deformação, desta forma, melhorando o campo de deslocamento denso (DDF, do inglês
Dense Displacement Field), utilizado para deformar a imagem em movimento. Na parte inferior,
após a rede ser treinada, é necessário apenas um par de imagens, onde a rede prevê o DDF
sem a necessidade de imagens com anotações (HU et al., 2018).

Segundo Chen et al. (2020), o foco das pesquisas futuras serão em precisão, generaliza-
ção, deformação realista e suave. Ainda, os autores esperam que com o aumento dos conjuntos


40

de dados públicos multimodais, o foco de pesquisas utilizando aprendizado profundo para o
registro com esse tipo de conjunto de dados aumente.

Por sua vez, os autores em Boveiri et al. (2020) acreditam que as próximas tendências
e contribuições futuras estarão relacionadas à evolução dos campos de visão computacional e
aprendizado de máquina. Os novos modelos advidos desta evolução, por exemplo, os Modelos
de Disparos Neuronais (SNN, do inglês Spiking Neural Networks) (MAASS, 1997) e Unidades
Recorrentes (GRU, do inglês Gated Recurrent Units) (CHO et al., 2014), possuem alto potencial
de contribuição para as pesquisas futuras.

A seguir, são descritos os principais métodos encontrados na literatura para medir de
maneira quantitativa o resultado do processo de registro de imagens.

3.3 Métricas utilizadas em registro de imagens
Ao realizar o processo de registro, seja utilizando técnicas tradicionais ou utilizando

aprendizado profundo, aplicar métricas que quantifiquem e qualifiquem o procedimento realizado
são importantes. Na literatura, observa-se o uso das seguintes métricas para avaliar o procedi-
mento de registro: Correlação Cruzada (CC, do inglês Cross-correlation), Informação mútua (MI,
do inglês Mutual Information), Erro de Registro do Alvo (TRE, do inglês Target Registration
Error) e Coeficiente de Similaridade Dice (DSC, do inglês Dice Similarity Coefficient).

No trabalho de revisão de registro de imagens usando aprendizado profundo dos autores
Boveiri et al. (2020), no capítulo da revisão da literatura, as métricas mais utilizadas em relação
ao número de publicações são representadas em um gráfico de barras, conforme ilustrado na
Figura 16.


41

Figura 16 – Gráfico de barras representando as principais métricas utilizadas para avaliar os
registros de imagens, de acordo com o número de publicações em que foram
utilizadas.

Fonte: (BOVEIRI et al., 2020)

Observa-se na Figura 16 que a métrica mais utilizada é Dice, logo em seguinda vem o
TRE. Liu et al. (2021) reforça que as duas métricas mais utilizadas para avaliar o desempenho
do registro de imagens são Dice e MSE.

O Coeficiente de Similaridade Dice (DICE, 1945) é uma métrica utilizada para quantificar
a similiaridade entre duas regiões, sendo representada matematicamente na Equação 6:

DSC = 2 |A ∩ B|
|A| + |B|

, (6)

em que A representa a primeira região, que podem ser as máscaras da imagem fixa rotulada
com a verdade fundamental (do inglês, ground-truth) no caso de registro de imagens. E B

representa a região predita pela rede, que podem ser as máscaras preditas da imagem em
movimento (imagem registrada). Cada pixel da primeira região é comparado com apenas o
pixel correspondente na mesma posição da segunda região. A interseção corresponde aos pixels
simultaneamente iguais em ambas regiões. O valor resultante da Equação 6 é entre 0 e 1, onde
0 indica que não há nenhuma correspondência entre as regiões (sem sobreposição) e 1 indica
total correspondência entre as regiões (TAVARES, 2018; PATIL; DEORE, 2013; BOVEIRI et
al., 2020).

A métrica de Erro de Registro do Alvo utiliza pontos anatômicos conhecidos entre
duas imagens para quantificar a precisão na correspondência entre esses pontos, representado
matematicamente na Equação 7 (BOVEIRI et al., 2020):


42

TRE =
i∑
n

∣∣∣lA
i − lB

i

∣∣∣ , (7)

em que lA
1 , lA

2 ... lA
n são os pontos de referências da imagem A e lB

1 , lB
2 ... lB

n são os pontos de
referências da imagem B. O TRE é uma das métricas de desempenho mais bem aceita, tendo
como desvantagem a necessidade de determinar os pontos de referência manualmente por um
especialista, porém é possível utilizar técnicas para automatizar ou semi automatizar os pontos
de referência correspondentes (BOVEIRI et al., 2020; HOU et al., 2011).

A métrica do Erro Quadrático Médio (MSE, do inglês Mean Squared Error) é utilizada
para verificar a diferença simétrica entre a imagem de referência e a imagem registrada (alvo),
representada matematicamente na Equação 8 (CHEN et al., 2020):

MSE = 1
NM

M∑
x

N∑
y

[I(x, y) − I ′(x, y)]2, (8)

em que I(x, y) é a imagem de referência e I ′(x, y) é a imagem alvo, enquanto M e N são as
dimensões das imagens. Quanto menor o valor resultante da equação significa um erro menor
de similaridade e uma similaridade maior entre as imagens (JOSHI, 2012).

Na próxima seção são descritos trabalhos correlacionados com o tema registro de
imagens utilizando aprendizado profundo.

3.4 Trabalhos correlacionados
O trabalho Balakrishnan et al. (2019) propôs um framework de aprendizado profundo

não supervisionado que utiliza uma arquitetura CNN similiar à U-Net para realizar em par
o registro não-rígido de imagens médicas 3D, denominado VoxelMorph. Foram realizados
experimentos em oito conjuntos de dados públicos diferentes de ressonância magnética do
cérebro: OASIS, ABIDE, ADHD200, MCIC, PPMI, HABS, FreeSurfer Buckner40 e Harvard
GSP. Os resultados obtidos demonstram que a aborgadem proposta atingiu resultados no
registro de imagens, em termos de Dice Score, comparáveis aos métodos tradicionais em
estado da arte NiftyReg e o Symmetric Normalization (SyN) (AVANTS et al., 2008), onde
a implementação deste método foi obtida por meio dos pacotes públicos do software ANTs
(AVANTS et al., 2011). Além disso, o método proposto reduziu o tempo de registro de horas
para minutos em uma CPU e para menos de um segundo em uma GPU, em comparação com
os métodos tradicionais em estado da arte.

Na Figura 17 é ilustrada uma visão geral do método proposto por Balakrishnan et al.
(2019). A imagem de referência f e a imagem em movimento m são utilizadas como entrada
para a rede g, utilizando um conjunto de parâmetros θ. A rede gera como resultado o campo
de registro ϕ, também conhecido como campo de deformação. O destaque em azul indica o


43

bloco opcional que pode ser incluído durante a pipeline de treinamento, onde são incluídas
informações auxiliares, como mapas de segmentação anatômica, elaborados por especialistas
humanos ou algoritmos. A função de perda não supervisionada da rede é composta por dois
componentes sendo uma métrica de similaridade Lsim e um regularizador Lsmooth. Foram
conduzidos experimentos utilizando tanto a métrica MSE quanto a Cross-correlation como
medidas de similaridade. Ao incorporar informações auxiliares durante o treinamento, como
as segmentações da imagem fixa sf e as segmentações da imagem em movimento sm, um
componente adicional Lseg é introduzido na função de perda para calcular o Dice Score entre a
segmentações movida (sm ◦ ϕ), obtida ao aplicar sm e ϕ na função de transformação espacial,
e sf .

Figura 17 – Visão geral do método proposto por Balakrishnan et al. (2019).

Fonte: Adaptado de (BALAKRISHNAN et al., 2019)

Conforme ilustrado na Figura 18, a arquitetura proposta por Balakrishnan et al. (2019)
é baseada na arquitetura da rede U-Net. As entradas m e f são concatenadas, resultando em
uma imagem 3D de 2 canais, formando uma entrada única para a rede. Na etapa de codificação
a dimensão espacial de cada camada é reduzida pela metade ao alterar o tamanho do stride.
Na etapa de decodificação é alternado entre upsampling, convoluções e skip connections que
propagam características aprendidas na etapa de codificação diretamente para as camadas
que geram o registro. Cada camada convolucional é seguida por uma camada de ativação
LeakyReLU. As camadas convolucionais extraem as características necessárias para estimar
ϕ, que é aplicado junto com m em uma função de transformação espacial baseada em uma
Spatial Transformer Networks (JADERBERG et al., 2015), obtendo a imagem movida (m ◦ ϕ).


44

Figura 18 – Arquitetura convolucional U-Net proposta pelo framework VoxelMorph. Cada
retângulo representa um volume 3D gerado a partir de convoluções 3D aplicadas
no volume anterior. O tamanho dos filtros convolucionais estão dentro dos
retângulos e abaixo deles é apresentada a resolução espacial de cada volume em
relação à sua entrada. As setas representam as skip connections que concatenam
características do codificador e decodificador.

Fonte: Adaptado de (BALAKRISHNAN et al., 2019)

No trabalho de Mahapatra et al. (2018) foi proposto o uso do aprendizado profundo
com o uso das Redes Adversárias Generativas (GANs) para realizar o registro deformável de
imagens médicas multimodais. O uso das GANs eliminou a necessidade de métodos iterativos
demorados e permitiu o registro de imagem diretamente com o campo de deformação. Na
Figura 19 é possível visualizar a arquitetura proposta. Os experimentos são realizados em
dois conjuntos de dados diferentes. O primeiro conjunto de dados é composto de imagens
coloridas do fundo da retina e imagens de angiografia de fluorescência. Já o segundo conjunto
é composto de ressonâncias magnéticas cardíacas adquiridas no Sunnybrook. Os experimentos
foram realizados em ambos os conjuntos de dados, comparando o método proposto com o
método tradicional Elastix (KLEIN et al., 2010) e o método de aprendizado profundo DIRNet
(VOS et al., 2017). Os resultados obtidos nos experimentos demonstraram que o método
proposto performou melhor que o método convencional e o método de aprendizagem profunda
que utiliza uma abordagem de transformação tradicional.


45

Figura 19 – Arquitetura das redes (a) geradoras e (b) discriminadoras utilizadas em (MAHA-
PATRA et al., 2018).

Fonte: Adaptado de (MAHAPATRA et al., 2018)

A rede geradora, Figura 19 (a), recebe a imagem fixa e a imagem em movimento
(flutuante) como entrada e produz a imagem registrada e o campo de deformação. A rede
geradora é formada por camadas convolucionais 3 × 3, seguida por batch normalization e
ativação ReLU. A rede discriminadora, Figura 19 (b), possui oito camadas convolucionais, onde
os tamanhos dos kernels são progressivamente aumentados, iniciando com 64 e alcançando
512 ao longo da rede. A função de ativação utilizada pela rede é a LeakyReLU e o tamanho
do stride nas convoluções é utilizado para reduzir as dimensões da imagem. Por último, são
inseridas duas camadas densas, seguidas por uma função de ativação sigmóide, a fim de
gerar o mapa de probabilidades. O objetivo da rede discriminadora é avaliar a similaridade da
distribuição de intensidade entre a imagem registrada e a imagem fixa, e o erro entre o campo
de deformação gerado e o de referência. As redes utilizam como função de perda a combinação
da perda de conteúdo, que garante que a imagem gerada tenha características desejadas, e a
perda adversarial. A perda de conteúdo é formada por três componentes: informação mútua
normalizada (NMI), métrica de índice de similaridade estrutural (SSIM), e a distância L2 entre
duas imagens.

O trabalho Vos et al. (2019) propôs um framework para o registro afim e deformável de
imagens utilizando aprendizado profundo não supervisionado, denominado Deep Learning Image
Registration (DLIR) framework. O DLIR é composto de ConvNets treinadas utilizando uma
técnica similiar às utilizadas nos registros de imagens convencionais baseados em intensidade,
sem a necessidade de um conjunto de dados rotulados. Na Figura 20 é ilustrado o esquema
do DLIR. Os experimentos foram realizados nos seguintes conjuntos de dados: tomografias


46

computadorizadas de tórax de baixa dose obtidas no National Lung Screening Trial (NLST),
ressonâncias magnéticas cardíacas obtidas no Sunnybrook, e tomografias computadorizadadas
do tórax em 4D realizadas em dez momentos diferentes, obtidas no DIR-Lab. Os resultados
demonstraram que o registro de imagens do método proposto é equiparável a outros métodos
como por exemplo o SimpleElastix (MARSTAL et al., 2016). Na comparação em termos de
tempo de execução do registro, o método proposto foi muito mais rápido que o convencional.
As principais dificuldades encontradas foram o conjunto de dados pequeno para treinar as
ConvNets, o que prejudicou o desempenho dos resultados. As limitações de hardware podem
ter parcialmente prejudicado os resultados, pois a arquitetura escolhida para a ConvNet foi
abaixo do que se é desejado devido a esses limites. Os autores ainda afirmam que o trabalho
proposto pode ser estendido com outros métodos de registros tradicionais ou registros usando
aprendizado profundo e, desta forma, obter resultados ainda melhores.

Figura 20 – Representação esquemática do DLIR framework.

Fonte: Adaptado de (VOS et al., 2019)

Observa-se na Figura 20 que o processo de treinamento do framework DLIR é similiar
ao dos métodos convencionais de registro. Porém, ao adicionar a ConvNet, o método proposto
passa a permitir o treinamento não supervisionado para o registro de imagem. Diferente dos
métodos convencionais, onde a atualização da transformação de parâmetro é feita de forma
iterativa usando a similaridade da imagem (representado pela seta azul grande), o DLIR utiliza
a similaridade da imagem para atualizar os pesos da ConvNet usando o backpropagation
(representado pela seta vermelha grande), permitindo o registro de imagem em um único passo.

Por sua vez, foi proposto no trabalho de Fu et al. (2020b), um método de aprendizado
profundo não supervisionado para o registro de imagem deformável de tomografia computa-
dorizada pulmonar, denominado LungRegNet. A LungRegNet é composta de duas sub-redes,
CoarseNet e FineNet, sendo que ambas as redes possuem um gerador e um discriminador.
A CoarseNet é responsável por prever um grande movimento pulmonar em uma imagem em
escala grosseira, enquanto a FineNet prevê o movimento pulmonar local em uma imagem
em escala fina. Na Figura 21 é ilustrado o fluxo geral do registro de ambas sub-redes. Os


47

experimentos foram realizados em dez diferentes tipos de conjuntos de dados públicos em
tomografia computadorizada pulmonar 4D obtidos do DIR-Lab. Os resultados obtidos nos
experimentos mostraram que o método proposto foi superior aos outros métodos de aprendizado
profundo e teve um desempenho comparável com os métodos convencionais em estado da arte.

Figura 21 – Fluxo geral do registro de imagem da LungRegNet.

Fonte: (FU et al., 2020b)

Conforme ilustrado na Figura 21, o processo de registro da LungRegNet inicia com
a etapa de pré-processamento da imagem. Nesta etapa, é feita a extração das estruturas
vasculares pulmonares, aumentando o contraste da imagem de pequenas estruturas vasculares.
Na próxima etapa é realizado o treinamento das redes CoarseNet e FineNet. O gerador de
ambas as redes é treinado para prever o campo vetorial de deformação (DFV, do inglês
Deformation Vector Field), que é utilizado para deformar a imagem em movimento usando
uma transformação espacial. O discriminador de ambas as redes é treinado para distinguir as
imagens deformadas das imagens originais e o objetivo do mesmo é regularizar a DVF, evitando
que as imagens deformadas não fiquem realísticas. Na última etapa, a de inferência, os patches
das imagens são regularizados e fundidos. Ao fundir os patches, é obtida a imagem inteira de
referência e em movimento. Essas imagens são aplicadas em ambas as redes treinadas e então
é feito o registro da imagem.

No trabalho de Hu et al. (2020) foi proposto um aprendizado restrito por pontos de
referências (landmarks) utilizando uma CNN. A maioria dos métodos de registro de imagens
médicas por aprendizado profundo aprendem o campo de deformação por meio da intensidade


48

da similaridade, ignorando a importância de alinhar os pontos de referências anatômicos, por
exemplo, os pontos de ramificação das vias aéreas e vasos. A CNN utilizada foi estendida para
utilizar o registro probabilístico difeomórfico, o que permitiu grandes deformações. Além disso,
foi adicionada a restrição por pontos de referências para a aprendizagem, o que permitiu um
registro com precisão em estruturas anatômicas finas. O método proposto é semi-supervisionado,
pois precisa de pontos de referências definidos por especialistas para o treinamento da rede, e
não é necessário nenhum ponto de referência para realizar o registro. Na Figura 22 é ilustrada
a arquitetura da rede proposta pelos autores. Os experimentos foram realizados em quarenta
imagens de tomografia computadorizada de pulmão em adultos saudáveis, sendo que em cada
imagem existem onze anotações de especialistas com pontos de referências. Os resultados
demonstraram que o registro de imagem do método proposto foi superior aos métodos em estado
da arte tradicionais e o método de registro de imagem com aprendizado profundo VoxelMorph.
O pacote de software Elastix com a métrica de informação mútua e a transformação espacial
BSpline e o pacote de software ANTs com normalização simétrica (SyN, do inglês Symmetric
Normalization) foram os métodos tradicionais comparados. O método de aprendizado profundo
foi o VoxelMorph, que também foi utilizado como linha de base e estendido para criar o método
proposto pelos autores. O registro de imagens limitada por pontos de referência mostrou ser
eficaz e superior aos métodos comparados e ser mais rápido, além de garantir um alinhamento
melhor dos principais pontos de referência anatomicamente significativos. O método proposto
também pode ser aplicado em outros conjuntos de dados.

Figura 22 – Arquitetura da rede proposta em (HU et al., 2020).

Fonte: Adaptado de (HU et al., 2020)

Na Figura 22 observa-se que a rede proposta pelos autores possui uma estrutura
semelhante à U-Net e todas as ativações da rede são LeakyReLU. A imagem fixa é representada


49

por f , m representa a entrada da imagem em movimento e v o campo de velocidade. A rede é
composta de quatro camadas convolucionais com subamostragem, três camadas convolucionais
com superamostragem e três skip connections com operação de cópia. Na camada de transfor-
mação é realizado o registro, onde os pontos de referências da imagem fixa são utilizados para
gerar o campo de deformação a ser aplicado na imagem em movimento.

No trabalho de Fechter e Baltas (2020) foi proposta uma abordagem de aprendizado
profundo não supervisionado para o registro de imagens em um conjunto de dados públicos
3D e 4D contendo imagens em movimentos periódicos. Foi empregada uma U-Net combinada
com uma abordagem de registro grosseiro para fino com um módulo de transformação espacial
diferencial. Para o conjunto de dados em 4D é necessária uma grande quantidade de memória.
Desta forma, foi necessário dividir esse conjunto de dados em pequenos patches não sobrepostos.
A rede é treinada até a convergência com cada um desses patches e, por fim, são montados os
patches de campo vetorial. Os resultados demonstraram que o método proposto conseguiu
realizar o registro das imagens em movimentos periódicos de forma concorrente aos métodos
em estado da arte comparados. A arquitetura do método proposto pelos autores é ilustrada
na Figura 23. Os experimentos foram realizados nos seguintes conjuntos de dados: DIR-Lab,
que consiste em conjunto de dados de tomografias computadorizadadas do tórax em 4D
realizadas em dez momentos diferentes; Popi, que é um conjunto de dados de tomografias
computadorizadadas do pulmão e; o conjunto de dados Sunnybrook, que é composto de
ressonâncias magnéticas cardíacas.

O método proposto demonstrou que não foi necessário treinamento para se obter
bons resultados. No registro do conjunto de dados 3D são calculados ao mesmo tempo o
campo de deformação vetorial e uma aproximação do seu inverso. O método obteve bons
resultados no registro, independente do local do órgão ou modalidade. Durante o registro, não
foi utilizada uma imagem de referência, como é comum nas outras abordagens. Foi utilizada
a imagem vizinha próxima da imagem a ser registrada. Alguns experimentos demonstram
que a rede obteve resultados melhores no registro de imagens com pequenas deformações.
Os métodos convencionais obtiveram resultados superiores ao método proposto, devido nos
testes executados pelo método proposto serem utilizados os mesmos parâmetros em todos os
conjuntos de dados que foram utilizados nos experimentos. Comparado com os outros métodos
de aprendizagem profunda, o método proposto por estes autores teve um tempo de computação
mais longo no registro. Essa desvantagem pode ser reduzida significativamente quando usado
um pequeno conjunto de dados e com uma etapa de ajuste fino, onde o desempenho do registro
não é muito reduzido. Os principais benefícios do método proposto são a sua capacidade de
generalizar, o que permite ser usado em diferentes modalidades e diferentes regiões do corpo,
além de não ser necessário nenhum dado de treinamento com antecedência. O método proposto
pode ser aplicado em dois casos, quando o treinamento de uma rede não é possível devido à
falta de conjuntos de dados ou os conjuntos de dados são muito heterogêneos (FECHTER;
BALTAS, 2020).


50

Figura 23 – Arquitetura da rede multi-resolução proposta.

Fonte: Adaptado de (FECHTER; BALTAS, 2020)

Conforme ilustrado na Figura 23, os retângulos sombreados de cinza representam o
processamento dos dados de entrada de imagens com diferentes resoluções. A U-Net é treinada
com o conjunto de dados de entrada que é reduzido (downsampled) por duas vezes até a
convergência, de forma que seja possível calcular as grandes deformações, representadas em
vermelho na imagem de saída. As deformações médias e pequenas, representadas por amarelo
e verde, respectivamente, são calculadas treinando a rede com uma redução (downsampled)
simples também com o conjunto de entradas. A arquitetura da U-Net se mantém a mesma,
independente da resolução da imagem.

Na próxima seção, são abordados os conjuntos de dados públicos disponíveis para
realizar o registro de imagens médicas encontrados na literatura.


51

3.5 Conjunto de dados públicos disponíveis
Para o registro de imagens médicas, o trabalho de Chen et al. (2020) teve o esforço

de sumarizar os principais conjuntos de dados públicos disponíveis, dividindo-os entre as
modalidades e órgãos. Na Tabela 1 estão os conjuntos de dados divididos pelos órgãos e
modalidades.

Tabela 1 – Conjuntos de dados públicos disponíveis divididos entre tipos de órgãos, registros
e modalidades.

Órgão Tipo de registro Conjunto de dados Modalidade
Cérebro Monomodal ADNI RM

IXI RM
OASIS RM
BRATS2015 RM
LPBA40 RM
IBIS RM
IBSR18 RM
MGH10 RM
CUMC12 RM
ABIDE RM
ADHD200 RM
MCIC RM
PPMI RM
HABS RM
Harvard GSP RM
FreeSurfer Buckner40 RM
Mindboggle101 RM
BraTS2017 RM
BrainWeb RM Simulada

Multi-modal RIRE TM, RM Simulada
BITE Ultrassom, RM Simu-

lada
RESECT Ultrassom, RM Simu-

lada
Coração Monomodal Sunnybrook Sequência de Imagens

(Cine) de RM
ACDC Sequência de Imagens

(Cine) de RM
Continua na próxima página

http://adni.loni.usc.edu/
https://brain-development.org/ixi-dataset/
https://sites.google.com/site/braintumorsegmentation/home/brats2015
https://www.loni.usc.edu/research/atlases
https://www.loni.usc.edu/research/atlases
https://ibis.loris.ca/
https://www.nitrc.org/projects/ibsr
https://continuousregistration.grand-challenge.org/rules/
https://continuousregistration.grand-challenge.org/rules/
http://fcon_1000.projects.nitrc.org/indi/abide/
http://fcon_1000.projects.nitrc.org/indi/adhd200/
https://central.xnat.org/data/projects/MCIC
https://www.ppmi-info.org/access-data-specimens/download-data/
https://habs.mgh.harvard.edu/
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/25833
https://surfer.nmr.mgh.harvard.edu/fswiki/Buckner40Adni60Testing
https://mindboggle.info/data.html
https://www.med.upenn.edu/sbia/brats2017/data.html
https://brainweb.bic.mni.mcgill.ca/brainweb/
https://www.insight-journal.org/midas/community/view/16
http://nist.mni.mcgill.ca/?page_id%5C%5Cprotect_%24%5C%5Crelax_=%24672
https://curious2018.grand-challenge.org/Data/
https://www.cardiacatlas.org/studies/sunnybrook-cardiac-data/
https://acdc.creatis.insa-lyon.fr/description/databases.html


52

Tabela 1 – continuação da página anterior
Órgão Tipo de registro Conjunto de dados Modalidade

Multi-modal MM-WHS TM, RM Simulada
Joelho Multi-modal OAI RM Simulada, Raio X
Fígado Monomodal MICCAI 2007 Grand Chal-

lenge
TM

MSD TM
SLIVER TM
LiTS TM

Tórax Monomodal COPDGen TM
NLST TM, Raio X
DIR-Lab-COPDgen TM
DIR-Lab-4DCT TM
SPARE TM, TM de Feixe Cô-

nico
POPI TM
LIDC-IDRI TM
Empire 10 lung datasets TM
NIH ChestXray14 dataset Raio X
JSRT Raio X
Montgomery County x-ray
database

Raio X

Shenzhen Hospital x-ray
database

Raio X

Vários órgãos Multi-modal UK Biobank Imaging
Study

RM

Todo o corpo Multi-modal VISCERAL Anatomy3 TM, RM

Fonte: (CHEN et al., 2020)

No trabalho de Boveiri et al. (2020) são identificados os conjuntos de dados que são
frequentemente utilizados baseado no número de publicações. Segundo os autores, os conjuntos
de dados frequentemente usados são: privados, ANDI, LONI, IXI, OASIS e DIRLAB. Sendo
que cada um destes conjuntos de dados foram usados em mais de cinco trabalhos. Ainda,
os autores listaram outros conjuntos de dados frequentemente usados: Sunnybrook, ACDC,
MCIC, MGH10, XEF, Harvard GSP, HABS, PPMI, CUMC12, IBSR18, BrainWeb, SmartTarget,

http://www.sdspeople.fudan.edu.cn/zhuangxiahai/0/mmwhs/
https://nda.nih.gov/oai/
http://mbi.dkfz-heidelberg.de/grand-challenge2007/sites/data.htm
http://mbi.dkfz-heidelberg.de/grand-challenge2007/sites/data.htm
https://decathlon-10.grand-challenge.org/
https://sliver07.grand-challenge.org/Home/
https://competitions.codalab.org/competitions/17094
http://www.copdgene.org/
https://cdas.cancer.gov/datasets/nlst/
https://www.dir-lab.com/Downloads.html
https://www.dir-lab.com/Downloads.html
https://image-x.sydney.edu.au/research/spare-challenge/
https://www.creatis.insa-lyon.fr/rio/popi-model/
https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI#a2b592e6fba14f949f6e23bb1b7804cc
https://empire10.grand-challenge.org/
https://nihcc.app.box.com/v/ChestXray-NIHCC
http://db.jsrt.or.jp/eng.php
https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html
https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html
https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html
https://lhncbc.nlm.nih.gov/LHC-publications/pubs/TuberculosisChestXrayImageDataSets.html
https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/imaging-data
https://www.ukbiobank.ac.uk/enable-your-research/about-our-data/imaging-data
https://visceral.eu/benchmarks/anatomy3-open/


53

ADHD200, ABIDE, TKA, e VIPS. É importante citar que os conjuntos de dados privados não
estavam disponíveis publicamente até a data que o artigo foi publicado.

3.6 Considerações Finais do Capítulo
Neste capítulo foi apresentado em detalhes o processo do registro de imagens com

métodos tradicionais e aprendizado profundo, também foi levantado os principais tipos de
registro de imagens com aprendizado profundo. Foram apresentadas também as principais
métricas utilizadas para quantificar o desempenho do registro de imagens, os trabalhos correlatos
sendo úteis como fonte de pesquisa para este trabalho e, por fim, foram levantados os conjuntos
de dados públicos de imagens médicas utilizados em tarefas de registro de imagens. Com base
no levantamento realizado neste capítulo, este documento apresenta uma proposta para o
registro de imagens médicas, que está descrita no próximo capítulo.


54

4 Uma proposta metodológica para o registro
não-rígido de imagens médicas

Neste capítulo são apresentados a metodologia deste trabalho, os conjuntos de dados,
as métricas a serem utilizadas, os experimentos a serem realizados e as configurações utilizadas.

4.1 Metodologia
Conforme apontado no Capítulo 1, este trabalho visa investigar a utilização do método

de extração de atributos Block-Based PCA (BPCA) (mais detalhes sobre o método podem ser
encontrados na Seção 4.3) como uma camada de pooling em uma rede U-Net para fins de
registro de imagens, ou seja, considerando um método estatístico para compressão, mas que
mantém a relação espacial e considera toda a informação redundante na imagem.

Desde modo, considerando que o VoxelMorph é um framework de registro de imagem
não-rígido baseado em uma arquitetura U-Net, além de ser um dos principais métodos de
registro baseados em aprendizado profundo, a metodologia básica deste trab