UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” CAMPUS DE ILHA SOLTEIRA BRUNA MOREIRA DA SILVA ESTUDO APROFUNDADO SOBRE SEGMENTAÇÃO DE IMAGENS PARA DIAGNÓSTICO DE PACIENTES CIRRÓTICOS E NÃO-CIRRÓTICOS: UMA ANÁLISE TRIDIMENSIONAL UTILIZANDO CNN Ilha Solteira - SP 2024 BRUNA MOREIRA DA SILVA ESTUDO APROFUNDADO SOBRE SEGMENTAÇÃO DE IMAGENS PARA DIAGNÓSTICO DE PACIENTES CIRRÓTICOS E NÃO-CIRRÓTICOS: UMA ANÁLISE TRIDIMENSIONAL UTILIZANDO CNN Trabalho de Graduação apresentada à Faculdade de Engenharia de Ilha Solteira – Unesp como parte dos requisitos para obtenção do título de Bacharel em Engenharia Elétrica. Nome do orientador: Prof.ª Dr.ª Mara Lúcia Martins Lopes Ilha Solteira - SP 2024 Silva ESTUDO APROFUNDADO SOBRE SEGMENTAÇÃO DE IMAGENS PARA DIAGNÓSTICO DE PACIENTES CIRRÓTICOS E NÃO-CIRRÓTICOS: UMA ANÁLISE TRIDIMENSIONAL UTILIZANDO CNNIlha Solteira2025 79 Sim Trabalho de conclusão de cursoEngenharia ElétricaEngenharia ElétricaNão . FICHA CATALOGRÁFICA Desenvolvido pelo Serviço Técnico de Biblioteca e Documentação Silva, Bruna Moreira da. Estudo aprofundado sobre segmentação de imagens para diagnóstico de pacientes cirróticos e não-cirróticos: uma análise tridimensional utilizando CNN / Bruna Moreira da Silva. -- Ilha Solteira: [s.n.], 2025 79 f. : il. Trabalho de conclusão de curso (Graduação em Engenharia Elétrica) - Universidade Estadual Paulista (UNESP), Faculdade de Engenharia, Ilha Solteira, 2025 Orientador: Mara Lúcia Martins Lopes Inclui bibliografia 1. Sistemas Iiteligentes. 2. Rede neural convolucional. 3. Processamento digital de imagens. 4. Segmentação de imagens. S586e Sandra Montibeller - CRB-8/060 IMPACTO POTENCIAL DESTA PESQUISA Esta pesquisa tem como um impacto potencial incorporar tecnologias avançadas, como o aprendizado profundo, na área da saúde, desenvolvendo soluções complementares que aprimorem o diagnóstico médico, minimizem falhas, e elevem a eficiência e a precisão na interpretação de imagens médicas tridimensionais, com ênfase particular em condições como a cirrose hepática. POTENTIAL IMPACT OF THIS RESEARCH This research has the potential to impact the healthcare field by incorporating advanced technologies, such as deep learning, to develop complementary solutions that enhance medical diagnosis, reduce errors, and improve efficiency and accuracy in the interpretation of three- dimensional medical images, with a particular focus on conditions like hepatic cirrhosis. Às mulheres da minha vida, a mamãe, Rosane, e minha tia, Roseli, dedico. AGRADECIMENTOS Agradeço primeiramente a Deus por ter sido meu alicerce e minha força, que através da fé tens me sustentado. Agradeço a minha família por todo o apoio, dedicação, e por acreditarem em mim em todos os momentos, e em especial para minha mãe, Rosane, e minha tia, Roseli, que desde sempre me fizeram crer em meus sonhos, e a lutar por eles. Agradeço a minha orientadora, Dr.ª Mara Lúcia Martins Lopes, pela amizade construída e pela oportunidade de trabalharmos juntas neste trabalho e nos demais trabalhos desenvolvidos anteriormente, e principalmente por ter dado a oportunidade de mostrar o meu potencial e por ter acreditado em mim. Agradeço ao Dr. Mohammad Taghi Niknejad pela atenção, o carinho e a colaboração dos dados para a pesquisa. Um agradecimento especial aos meus amigos que estiveram presentes durante minha participação na Universidade, à Almerinda Keila, por toda cumplicidade, conselhos e pelos bons momentos, e a Caroline Beltrame, por ter sido minha grande amiga e minha irmã durante todos esses anos de graduação, ao Fernando Nascimento por todo apoio, afeto e por trazer leveza aos meus dias, e à Brenda Misu, por toda amizade, carinho e cuidado. “É preciso ter o caos dentro de si para dar à luz a uma estrela cintilante." Friedrich Nietzsche RESUMO Este trabalho aborda o processamento digital de imagens de Tomografia Computadorizada (TC) para a classificação de pacientes com cirrose hepática e outros sem a doença. O estudo propõe uma metodologia que envolve duas etapas principais: o processamento digital de imagens e a segmentação de regiões de interesse, seguida pela aplicação de uma rede neural para a classificação dos dados. Inicialmente, as imagens de TC são pré-processadas para remover ruídos e melhorar a qualidade das imagens, utilizando técnicas de filtragem e normalização. A seguir, é realizada a segmentação das regiões hepáticas, destacando as áreas relevantes para o diagnóstico da cirrose, como a superfície e o contorno do fígado e baço. A segmentação é executada com o auxílio do software 3D Slicer, utilizando segmentação por região. Após a segmentação, as imagens são rotuladas e utilizadas como entrada para uma CNN-3D, sendo utilizada a técnica de Data Augmentation e redimensionamento, sendo treinada para classificar as imagens entre dados normais e anormais. Os resultados obtidos mostram que o modelo foi capaz de classificar corretamente as imagens de TC, possuindo uma acurácia de 100% no conjunto de treino, 95% no conjunto de validação e 100% no conjunto de teste, apresentando um desempenho significativo. A aplicação de redes neurais, combinada com técnicas de processamento de imagem e segmentação, demonstrou ser uma abordagem eficaz para auxiliar no diagnóstico automático de cirrose hepática a partir de imagens médicas. Este estudo mostra que a combinação de processamento digital de imagens, segmentação e redes neurais pode melhorar significativamente a precisão e a eficiência na detecção de objetos de interesse e classificação de dados. Palavras-chave: Sistemas Inteligentes; Rede Neural Convolucional; Processamento Digital de Imagens; Segmentação de Imagens. ABSTRACT This work addresses the digital processing of Computed Tomography (CT) images for classifying patients with hepatic cirrhosis and those without the disease. The study proposes a methodology comprising two main stages: digital image processing and the segmentation of regions of interest, followed by the application of a neural network for data classification. Initially, the CT images are preprocessed to remove noise and enhance image quality using filtering and normalization techniques. Next, the hepatic regions are segmented, highlighting relevant areas for cirrhosis diagnosis, such as the surface and contours of the liver and spleen. Segmentation is performed using the 3D Slicer software, employing region-based segmentation. After segmentation, the images are labeled and used as input for a 3D-CNN, with data augmentation and resizing techniques applied. The model was trained to classify the images as normal or abnormal. The results show that the model successfully classified the CT images, achieving 100% accuracy on the training set, 95% on the validation set, and 100% on the test set, demonstrating significant performance. The application of neural networks, combined with image processing and segmentation techniques, proved to be an effective approach for assisting in the automatic diagnosis of hepatic cirrhosis from medical images. This study highlights that combining digital image processing, segmentation, and neural networks can significantly improve the accuracy and efficiency in detecting objects of interest and classifying data. Keywords: Intelligent Systems; Convolutional Neural Network; Digital Image Processing; Image Segmentation. LISTA DE FIGURAS Figure 1 - Projeção do Fígado no Tronco: Vista Anterior e Dorsal..............................25 Figura 2 - Segmentação Hepática ................................................................................. 26 Figura 3 - Comparação Entre Fígado Saudável e Cirrótico .......................................... 30 Figura 4 - Representação das Fatias em TC ................................................................. 33 Figura 5 - Representação de um Voxel e da Matrix de Pixels ...................................... 33 Figura 6 - Escala de Hounsfield .................................................................................... 34 Figura 7 – Janela para Tecidos Ósseos (a), Tecidos Moles (b) e Pulmões .................. 35 Figura 8 - Visualização das Posições Anatômicas em Relação aos Planos de Corte em TC ............................................................................................................................................. 36 Figura 9 - Etapas da Aplicação de Contraste ................................................................ 37 Figura 10 - Representação Anatômica Abdominal em TC - Plano Axial .................... 39 Figura 11 - Representação dos Canais de Cores RGB em um Pixel ............................ 41 Figura 12 - Representação dos Canais de Cores RGB em Escala de Cinza ................. 41 Figura 13 - Histograma Normalizado de Imagens ........................................................ 42 Figura 14 - Aplicação do Filtro de Mediana: a) Imagem com Presença de Ruído e b) Imagem com a Filtragem Mediana de Tamanho 3x3 ............................................................... 43 Figura 15 - Segmentação por Thresholding .................................................................. 45 Figura 16 - Limiarização com o Método de Otsu: a) Imagem Ruidosa Suavizada; b) Histograma de Cores; c) Método de Otsu Aplicado ................................................................. 46 Figura 17 - Representação das Funções de Intensidade nas Bordas ............................. 46 Figura 18 - Resposta das Derivadas de Primeira e Segunda Ordem na Detecção de Bordas ....................................................................................................................................... 47 Figura 19 - Aplicação do Operador Sobel .................................................................... 48 Figura 20 - Aplicação do Algoritmo de Canny Edge ................................................... 49 Figura 21 - Aplicação da Segmentação por Região – Crescimento de Região ............ 50 Figura 22 - Clustering ................................................................................................... 51 Figura 23 - Aplicação da Segmentação por Clusters .................................................... 52 Figura 24 - Aplicação de Watershed ............................................................................ 53 Figura 25 - Segmentação Semântica ............................................................................. 54 Figura 26 - Segmentação de Instâncias ........................................................................ 54 Figura 27 - Segmentação Panôptica ............................................................................. 55 Figura 28 - Arquitetura de uma CNN ........................................................................... 56 Figura 29 - Fluxograma da Metodologia Adotada ..................................................... 58 Figura 30 - Imagens Antes do Janelamento de Paciente Cirrótico e Não-Cirrótico ..... 61 Figura 31 – Imagem Após o Janelamento: (a) Paciente não-cirrótico; (b) Paciente cirrótico ..................................................................................................................................... 62 Figura 32 - Aplicação do Filtro Mediana: (a) Paciente não-cirrótico; (b) Paciente cirrótico ..................................................................................................................................... 63 Figura 33 - Aplicação do Filtragem Difusa: (a) Paciente não-cirrótico; (b) Paciente cirrótico ..................................................................................................................................... 63 Figura 34 – Segmentação Grow From Seeds: (a) Paciente não-cirrótico; (b) Paciente cirrótico ..................................................................................................................................... 64 Figura 35 – Representação da Segmentação em 3D: (a) Paciente não-cirrótico; (b) Paciente cirrótico ...................................................................................................................... 64 Figura 36 – Rotulagem da Segmentação e Extração das Estruturas: (a) Paciente não- cirrótico; (b) Paciente cirrótico ................................................................................................. 65 Figura 37 - Informações das Camadas da CNN-3D ..................................................... 69 Figura 38 - Acurácia de Treinamento x Validação ....................................................... 70 Figura 39 - Análise de Perdas do Sistema: (a) Perda de Treinamento e Validação; (b) Acurácia de Validação; (c) Perda de Validação ...................................................................... 71 Figura 40 - Curva ROC ................................................................................................. 72 Figura 41 - Matriz de Confusão .................................................................................... 72 LISTA DE TABELAS Tabela 1 - Parâmetros Utilizados na Filtragem Difusa ................................................. 63 Tabela 2 - Distribuição dos Dados ................................................................................ 66 Tabela 3 - Quantidade Total de Dados Presentes nos Três Conjuntos ......................... 68 Tabela 4 - Métricas de Desempenho ............................................................................ 71 LISTA DE QUADROS Quadro 1 - Resumo da Bibliografia .............................................................................. 24 Quadro 2 - Classificação de Couinaud ......................................................................... 26 Quadro 3 - Classificação das Doenças do Fígado......................................................... 27 Quadro 4 - Métodos Radiográficos na Cirrose Hepática .............................................. 31 Quadro 5 - Tags DICOM .............................................................................................. 38 Quadro 6 - Dados de Máquina do Tomógrafo .............................................................. 58 Quadro 7 - Informações de Imagem ............................................................................. 59 Quadro 8 - Atribuição dos Valores para o Janelamento ............................................... 61 LISTA DE ABREVIATURAS E SIGLAS TC Tomografia Computadorizada MRI Magnetic resonance imaging IA Inteligência Artificial CNN-3D 3D Convolutional Neural Network CIRB Colestase intra-hepática recorrente benigna CIFP Colestase intra-hepática familiar progressiva NPT Parenteral total UH Unidade de Hounsfield DICOM Digital Imaging and Communications in Medicine VR Value Representation CS Code String LS Long String US Unsigned Short DS Decimal String FD Floating Point Double CNN Convolutional Neural Network YOLACT You Only Look At Coefficients RNA Rede Neural Artificial ROC Receiver Operating Characteristic AUC Area Under the Curve CNNs Convolutional Neural Networks CNN Convolutional Neural Network ROIs Regiões de Interesse ANNs Artificial Neural Networks DNN Deep Neural Network ANN Artificial Neural Network RNN Recurrent Neural Network VGG-16 Visual Geometry Group - 16 layers VGG-19 Visual Geometry Group - 19 layers RGB Red, Green, Blue IDE Integrated Development Environment LISTA DE SÍMBOLOS 𝜇𝑡𝑒𝑐𝑖𝑑𝑜 Coeficiente de atenuação do tecido 𝜇á𝑔𝑢𝑎 Coeficiente de atenuação da água 𝐾 Intensidade de pixels 𝑝(𝑘) Probabilidade relativa 𝑛𝑘 Número de pixels com o nível de intensidade 𝑛 Total de pixels 𝜕𝑙 𝜕𝑡 Derivada ∇𝑙 Gradiente 𝐺𝑥 Matriz do operador Sobel horizontal 𝐺𝑦 Matriz do operador Sobel vertical 𝐺 Magnitude do operador Sobel 𝑍 Matriz de pixels da imagem de entrada I Iterações T Tempo de iteração C Condutância SUMÁRIO 1 INTRODUÇÃO _____________________________________________ 19 1.1 MOTIVAÇÃO ____________________________________________________ 20 1.2 OBJETIVOS ______________________________________________________ 20 1.3 ORGANIZAÇÃO TEXTUAL ________________________________________ 21 1.4 REVISÃO BIBLIOGRÁFICA _______________________________________ 21 1.4.1 Segmentação Hepática _____________________________________________ 22 1.4.2 Deep Learning na Classificação de Doenças ____________________________ 23 1.4.3 Resumo da Revisão Bibliográfica ____________________________________ 23 2 ANATOMIA E FISIOLOGIA DO FÍGADO _____________________ 24 2.1 SEGMENTAÇÃO DO FÍGADO _____________________________________ 26 3 DOENÇAS HEPÁTICAS _____________________________________ 27 3 DIAGNÓSTICO POR IMAGEM – TOMOGRAFIA COMPUTADORIZADA (TC) _____________________________________________________ 32 3.1 ESCALA DE HOUNSFIELD ________________________________________ 34 3.2 PLANOS DE CORTE ______________________________________________ 35 3.3 DICOM __________________________________________________________ 37 4. PROCESSAMENTO DIGITAL DE IMAGENS __________________ 39 4.1 CLASSIFICAÇÃO DAS IMAGENS _____________________________________ 40 4.2 PRÉ-TRATAMENTO DE IMAGEM _________________________________ 42 4.2.1 Janelamento ____________________________________________________ 43 4.1.2 Filtragem Espacial - Filtro Mediana ________________________________ 43 4.2.3 Filtragem de Realce e Suavização – Filtragem Difusa Anisotrópica ______ 44 4.3 SEGMENTAÇÃO DE IMAGENS ____________________________________ 44 4.3.1 Segmentação com Técnicas Clássicas de Processamento Digital de Imagens45 4.3.1.1 Thresholding _________________________________________________ 45 4.3.1.2 Segmentação por Bordas _______________________________________ 46 4.3.1.3 Segmentação por Região ________________________________________ 49 4.3.1.4 Segmentação por Clusters _______________________________________ 51 4.3.1.5 Segmentação por Watershed _____________________________________ 52 4.3.2 Segmentação com Técnicas Robustas via Deep Learning _______________ 53 4.3.2.1 Segmentação Semântica ________________________________________ 53 4.3.2.2 Segmentação de Instâncias ______________________________________ 54 4.3.2.3 Segmentação Panóptica_______________________________________ 54 5 APRENDIZADO PROFUNDO ________________________________ 55 5.1 Redes Neurais Convolucionais _____________________________________ 56 6 METODOLOGIA ___________________________________________ 57 6.1 EQUIPAMENTOS E SOFTWARES __________________________________ 58 6.2 DATABASE ______________________________________________________ 59 6.3 DETERMINAÇÃO DE OBJETOS ___________________________________ 60 6.4 PRÉ-PROCESSAMENTO DE IMAGEM ______________________________ 60 6.5 SEGMENTAÇÃO DE IMAGEM _____________________________________ 64 6.6 ROTULAGEM ____________________________________________________ 65 6.7 SÍNTESE DA REDE NEURAL ______________________________________ 66 7. RESULTADOS _____________________________________________ 68 7.1. RESULTADOS OBTIDOS PELA CNN-3D ______________________________ 68 8. CONCLUSÃO ______________________________________________ 73 REFERÊNCIAS __________________________________________________________ 76 19 1 INTRODUÇÃO O uso de sistemas inteligentes tem proposto abordagens inovadoras e eficazes para a solução de problemas complexos, impulsionando diversas áreas do conhecimento, e tem ganhado um destaque notório no ramo da saúde. A inteligência artificial (IA) tem modificado os caminhos da assistência médica em que se diz respeito a automatização de tarefas de rotina, otimização da eficiência, diagnóstico e da descoberta de tratamentos mais eficazes para diferentes patologias (Ellis, 2024). A integração da IA com a radiologia tem elevado significativamente a precisão diagnóstica, permitindo a identificação de padrões complexos em exames e a redução de erros. Além de aprimorar a acurácia, a IA agiliza processos, prioriza casos urgentes e contribui para a personalização de tratamentos. Resultados concretos já são evidentes, como em mamografias, onde a sensibilidade na detecção de massas suspeitas foi aprimorada. Na tomografia computadorizada, especialmente em casos de nódulos pulmonares, a IA demonstra grande utilidade ao diferenciar com alta precisão lesões benignas de malignas, auxiliando na tomada de decisões clínicas mais assertivas (Vargas, 2025). A ressonância magnética (MRI) e a tomografia computadorizada (TC) são métodos avançados de diagnóstico por imagem que proporcionam uma visualização detalhada das estruturas internas do corpo humano. A ressonância magnética é considerada uma técnica moderna e sofisticada, capaz de gerar imagens de alta qualidade utilizando um campo magnético potente e ondas de rádio de baixa energia, sem o uso de radiação ionizante. Já a tomografia computadorizada foi desenvolvida para superar as limitações da radiologia convencional, utilizando um feixe estreito de raios-X que orbita em torno do paciente para obter imagens em “cortes” transversais. Esses cortes são captados por fileiras de detectores, e as informações coletadas são processadas por um computador, que calcula a densidade radiológica de cada ponto atravessado pelo feixe. O resultado é uma matriz de pixels que representa pequenos volumes de tecido chamados voxels, permitindo a análise precisa das estruturas anatômicas (Lopes et al., 2023). O diagnóstico por imagem desempenha um papel importante na detecção, avaliação e no monitoramento de doenças, sendo indispensável no acompanhamento da cirrose hepática. A cirrose é uma doença crônica e progressiva do fígado em decorrência de agressões persistentes ao longo de vários anos devido ao uso abusivo de álcool, hepatites virais (B e C), doenças metabólicas, doença hepática gordurosa não alcoólica (DHGNA), entre outros, levando a diminuição ou perda total das funções hepáticas essenciais a vida, como a síntese de proteínas, 20 metabolização de toxinas e drogas, armazenamento de glicose, ferro e vitaminas, produção de colesterol e bile etc. Além do diagnóstico por imagem que analisa a estrutura do órgão, exames laboratoriais, e em alguns casos a biópsia do fígado, são realizas para diagnosticar a doença. (Conselho Editorial Einstein, 2024). Em 2019, a cirrose hepática foi responsável por 2,4% das mortes globais, sendo classificada como a 16ª principal causa de óbitos naquele ano, com a hepatite viral como sua principal causa. No Brasil, é a responsável por cerca de 40.000 internações hospitalares, possuindo uma mortalidade de 12,6% por 100.000 (Conselho Editorial Einstein, 2024). e (Huang et al., 2023) e (Lee, 2024). No meio científico foi estudado sobre a capacidade de sistemas inteligentes terem o potencial de aumentar a precisão e a eficiência de interpretação de imagens médicas, de auxiliar na detecção de doenças, recuperação de imagens por similaridades, entre outros (Khalifa; Albadawy, 2024) e (Koenigkam-Santos, et al., 2019). Por entrelaçar a importância dos avanços tecnológicos à área da saúde, este estudo tem como contribuição propor imagens médicas tridimensionais tratadas atreladas a uma rede deep learning que realiza a classificação de pacientes cirróticos e não-cirróticos. Neste trabalho é apresentado o software 3D Slicer, utilizado no processamento das imagens, sendo apresentada técnicas para melhor classificar os dados, como data augmentation e o ajuste de resultados com o índice de Youden. 1.1 Motivação A integração de avanços tecnológicos, como o aprendizado profundo, no campo da saúde oferece ferramentas complementares que podem aprimorar o diagnóstico médico, minimizar erros e aumentar a eficiência e a precisão na análise de imagens médicas tridimensionais, especialmente no contexto de doenças como a cirrose hepática. Além disso, com a pesquisa ocorreu um melhor aprofundamento sobre redes inteligentes, possibilitando uma ampla investigação sobre pesquisas vinculadas ao deep learning, direcionando-a para a área médica e no estudo de imagens tridimensionais. 1.2 Objetivos Os objetivos específicos do trabalho realizado são: • Estudo e aplicação das técnicas de pré-processamento digital em imagens de TC de pacientes cirróticos e não-cirróticos. 21 • Realizar um estudo aprofundado e aplicação das técnicas de segmentação para tratamento de imagens. • Uso de data augmentation para ampliação do banco de dados. • Desenvolvimento de uma rede neural convolucional 3D (CNN-3D) para realizar a classificação entre dados normais e anormais. 1.3 Organização Textual A organização do projeto foi dividida em um total de 9 capítulos, sendo desenvolvida em cada uma os seguintes conteúdos. • Capítulo 2: Trata-se da teoria aplicada ao trabalho, abrangendo contextos importantes adotados a pesquisa. Engloba as seguintes divisões: sistema hepático, em sua anatomia a e fisiologia. • Capítulo 3: Trata-se da teoria aplicada ao trabalho, abrangendo contextos importantes adotados a pesquisa. Engloba as seguintes divisões: métodos de diagnóstico por imagem com foco em TC. • Capítulo 4: Trata-se da teoria aplicada ao trabalho, abrangendo contextos importantes adotados a pesquisa. Engloba as seguintes divisões: processamento digital de imagens e segmentação de imagens, e aprendizado profundo de máquina. • Capítulo 5: Trata-se da teoria aplicada ao trabalho, abrangendo contextos importantes adotados a pesquisa. Engloba a seguinte divisão: aprendizado profundo de máquina. • Capítulo 6: Abrange a metodologia utilizada detalhando todos os procedimentos adotados. Composto pelas seguintes divisões: equipamentos e softwares, dataset, determinação de objetos, pré-processamento de imagem, segmentação de imagem, rotulagem e síntese da rede neural. • Capítulo 7: É abordado os resultados obtidos após o funcionamento da CNN-3D, informando a quantidade de dados nos conjuntos utilizados, as métricas de desempenho utilizando gráficos e tabelas. • Capítulo 8: É comentado sobre as conclusões e considerações do trabalho, explicando os resultados obtidos, evidenciando as limitações de projeto e propondo melhorias. • Bibliografia: Composto por todas as referências utilizadas na pesquisa. 1.4 Revisão Bibliográfica O processamento digital de imagens e as técnicas de deep learning, em particular as Redes Neurais Convolucionais (CNNs), têm revolucionado a análise de imagens médicas, 22 especialmente na segmentação e classificação de estruturas anatômicas. Este trabalho utiliza uma abordagem baseada em Rede Neural Convolucional (CNN) para classificar imagens de TC de pacientes cirróticos e não cirróticos, visando auxiliar no diagnóstico. A seguir, são discutidos trabalhos relevantes que fundamentam a aplicação de deep learning e processamento de imagens em problemas semelhantes. 1.4.1 Segmentação Hepática Em (Amina et al., 2021) é proposto uma abordagem baseada em CNN para classificar tecidos hepáticos em TC como normais ou anormais, com foco especial na segmentação prévia do órgão. A arquitetura da CNN utilizada possui quatro camadas convolucionais seguidas de camadas de pooling, uma fully connected e uma camada sigmoid para classificação binária. O estudo foi realizado com 706 imagens de 512×512 pixels, coletadas de um centro especializado, e demonstrou que a classificação baseada apenas na imagem segmentada do fígado obteve uma acurácia de 98,61%, muito superior aos 26,19% da classificação baseada na imagem completa. Os resultados comprovam que a segmentação prévia do órgão melhora significativamente o desempenho da CNN na detecção de doenças hepáticas. Em (Strzelecki et al., 2013) é apresentado o software MaZda, desenvolvido para análise quantitativa de texturas em imagens médicas bidimensionais e tridimensionais, como as obtidas por MRI, TC, entre outros. O MaZda oferece uma cadeia completa de processamento, incluindo definição de regiões de interesse (ROIs), extração de cerca de 300 atributos texturais, seleção de características, visualização, classificação (supervisionada e não supervisionada) e segmentação. Entre os classificadores disponíveis estão as redes neurais artificiais (ANNs), k- means mais próximos e agrupamento hierárquico. A eficácia do software foi demonstrada por meio de aplicações práticas, como a análise de fígado saudável versus fibrótico, detecção de osteoporose em ossos, segmentação de discos intervertebrais e diagnóstico de acidente vascular cerebral (AVC) isquêmico. Em (Anastácio, 2015) é apresentada uma revisão abrangente das principais técnicas utilizadas na segmentação hepática em imagens de TC, com foco na aplicação do algoritmo de crescimento de região. Trabalhos relevantes mostram que, embora o crescimento de região seja amplamente empregado por sua simplicidade e eficiência, sua eficácia depende fortemente da qualidade do pré-processamento e da escolha do ponto de partida. O uso de filtros de suavização (mediana, Wiener), transformações de intensidade (logarítmica, gama, alargamento de contraste) e modelagens probabilísticas têm sido integradas aos processos de segmentação para melhorar a acurácia. 23 1.4.2 Deep Learning na Classificação de Doenças Em (Khan et al., 2022) mostra-se uma revisão e uma proposta experimental sobre a aplicação do aprendizado profundo na classificação de imagens médicas, destacando o uso de modelos como CNN, Deep Neural Network (DNN), Artificial Neural Network (ANN) e Recurrent Neural Network (RNN). As abordagens tradicionais, como Support Vector Machine (SVM), têm desempenho limitado e exigem extração manual de características. Em contrapartida, as CNNs, especialmente com uso de aprendizado por transferência, têm se mostrado eficazes mesmo em conjuntos de dados pequenos, comuns na área médica. O estudo utiliza um conjunto com cerca de 59 mil imagens médicas, aplicando técnicas de visualização de características, arquitetura de redes e avaliação por matriz de confusão. Os resultados indicam que, entre os modelos testados, a ANN obteve o melhor desempenho em termos de acurácia. Em (Kongalla et al., 2024) é abordado o uso de CNNs, especialmente as arquiteturas Visual Geometry Group - 16 layers (VGG-16) e Visual Geometry Group - 19 layers (VGG-19), combinadas com aprendizado por transferência para detectar e classificar tumores cerebrais em imagens de MRI, além de realizar a reconstrução 3D dessas estruturas utilizando a plataforma 3D Slicer. É aplicado técnicas avançadas de pré-processamento, como redimensionamento, normalização e aumento de dados, a fim de treinar modelos robustos com imagens classificadas em quatro categorias (glioma, meningioma, pituitário e ausência de tumor). A modelagem considera a complexidade da anatomia cerebral, utilizando imagens nos planos axial, coronal e sagital. A reconstrução tridimensional com 3D Slicer contribui para a visualização precisa dos tumores. Em (B et al., 2024) é apresentada uma revisão abrangente sobre a aplicação de técnicas de aprendizado profundo na detecção e classificação de seis tipos de câncer: oral, renal, mamário, pulmonar, cervical e cerebral. A pesquisa evidencia que modelos de deep learning, especialmente as CNNs, têm superado métodos tradicionais em termos de acurácia, precisão e capacidade de generalização, destacando abordagens baseadas em transfer learning com arquiteturas como MobileNet e ResNet. 1.4.3 Resumo da Revisão Bibliográfica Este capítulo inclui uma tabela que sintetiza os estudos abordados na revisão da literatura, destacando de forma concisa os conceitos centrais e as contribuições relevantes de cada pesquisa analisada. 24 Quadro 1 - Resumo da Bibliografia Referência Direcionamento Método (Amina et al., 2021) Segmentação CNN (Strzelecki et al., 2013) Segmentação software (Anastácio, 2015) Segmentação Region growing (Khan et al., 2022) Classificação com Deep Learning CNN, DNN, ANN, RNN (Kongalla et al., 2024) Classificação com Deep Learning CNN + software (B et al., 2024) Classificação com Deep Learning CNN Fonte: Própria autora. 2 ANATOMIA E FISIOLOGIA DO FÍGADO O fígado consiste como o maior órgão interno do corpo humano, é responsável por 2% da massa corporal total, sendo em uma pessoa adulta o equivalente a 1,5 kg (Guyton; Hall, 2011). Localiza-se, em sua maior parte, no abdome superior direito, chegando por parte do epigástrio e atingindo o abdome superior esquerdo, sendo possível visualizar sua representação na Figura 1 a seguir (Schünke; Schulte; Schumacher, 2019). Figure 1 - Projeção do Fígado no Tronco: Vista Anterior e Dorsal Fonte: (Schünke; Schulte; Schumacher, 2019). Sendo um dos órgãos mais importantes do corpo humano, o fígado é responsável por executar mais de 500 funções, onde grande parte dessas funções são realizadas pelo hepatócito, 25 que são as células do fígado (Marieb; Wilhelm; Mallatt, 2014). Algumas das funções hepáticas são classificadas abaixo (Schünke; Schulte; Schumacher, 2019). • Filtrar e armazenar o sangue: O sangue é recebido pela veia porta, que junto a ele traz nutrientes e toxinas ao sistema digestivo. Os hepatócitos são os responsáveis por processar e amenizar (quando nocivas) essas substâncias. Ao passar pelas sinusóides, que contém as células de Kupffer, os agentes nocivos são eliminados, podendo esses serem liberados através da bile ou pelos rins através da urina. Já a sua capacidade de armazenar o sangue provém do fato de ser um órgão venoso expansível, quando há um grande volume de sangue ele é armazenado em seus vasos sanguíneos, estando disposto a liberar certa quantidade em períodos de diminuição desse volume (Guyton; Hall, 2011). • Metabolização de substâncias: O fígado é composto por células quimicamente reativas e com alto metabolismo, podendo processar e sintetizar substâncias. É responsável por metabolizar carboidratos, gorduras, proteínas, hormônios e outas substâncias (Guyton; Hall, 2011). • Formação da bile: Trata-se de um fluido produzido pelo fígado e e armazenado na vesícula biliar, responsável pela quebra de gordura dos alimentos, auxiliando na digestão (Guyton; Hall, 2011). • Armazenamento de vitaminas e de ferro: Possui a predisposição de armazenar algumas vitaminas, dentre elas a vitamina A é a mais armazenada no fígado. O armazenamento de ferro extra no corpo dá-se sob a forma de ferritina, onde as células hepáticas que possuem grande quantidade de uma proteína chamada apoferritina combinam-se reversivelmente com o ferro, dessa forma, quando ocorre um baixo nível de ferro no organismo ele é liberado pela ferritina (Guyton; Hall, 2011). Além disso, o fígado possui grande capacidade de regeneração após a perda significativa de tecido hepático, exceto quando a perda de tecido parte de lesão hepática aguda causada por infecção viral ou inflamatória. Essa regeneração ocorre de forma rápida, onde os hepatócitos se replicam até que o fígado atinja volume e tamanhos típicos, e quando isso é alcançado as células hepáticas retornam ao seu estado de repouso (Guyton; Hall, 2011). 26 2.1 Segmentação do Fígado O fígado é descrito por divisões ou segmentos conforme critérios anatômicos e funcionais para melhor compreensão e descrição clínica, principalmente em meios cirúrgicos e diagnósticos, garantindo intervenções em um segmento específico sem comprometer as demais partes do órgão. Atualmente é utilizada a classificação de Couinaud, responsável por dividir o fígado em oito unidades funcionais (Jones; Bell; Walizai, 2019). A Figura 2 a seguir mostra os segmentos hepáticos adotados atualmente. Fonte: (Drake et al., 2011). De acordo com a Figura 2 a segmentação hepática é dividida em oito segmentos, sendo delimitados pelas veias hepáticas e pelas fissuras porta-hepáticas, elas detalhadas no Quadro 2. Quadro 2 - Classificação de Couinaud Segmento Anatômico Classificação de Couinaud Lobo caudado I Segmento posterior lateral esquerdo II Segmento anterior lateral esquerdo III Segmento medial esquerdo IV Segmento anterior medial direito V Segmento anterior lateral direito VI Segmento posterior lateral direito VII Segmento posterior medial direito VIII Fonte: Própria autora. Figura 1 - Segmentação Hepática 27 3 DOENÇAS HEPÁTICAS As doenças do fígado provêm de diversas causas, que geralmente se manifestam clinicamente em padrões diferentes, e são classificados da seguinte forma (Longo; Fauci, 2015). • Doenças hepatocelulares: Relacionadas com a hepatite viral ou hepatopatia alcoólica, resultando em lesões como inflamação e necrose do fígado. • Doenças colestáticas: Relacionadas com a obstrução biliar ou maligna, cirrose biliar primária e doenças hepáticas causadas por medicamentos, resultando na inibição do fluxo biliar. • Doenças de padrão misto: Quando estão presentes os indicativos das lesões tanto hepatocelular quanto colestática, como visto em casos de forma colestática da hepatite viral e em hepatopatias por medicamentos. A seguir, é apresentado pelo Quadro 3 um resumo geral sobre os tipos de doenças hepáticas e suas caracterizações. Quadro 3 - Classificação das Doenças do Fígado Classificação das Doenças Hepáticas Doenças Hepáticas Hiperbilirrubinemia Hereditária Síndrome de Gilbert Síndrome de Crigler-Najjar tipos I e II Síndrome de Dubin-Johnson Síndrome de Rotor Hepatite Viral Hepatite A Hepatite B Hepatite C Hepatite D Hepatite E Outras (hepatite da mononucleose, herpética e por adenovírus) Hepatite criptogênica Doenças Hepáticas Imunes e Autoimunes Cirrose biliar primária Hepatite autoimune Colangite esclerosante Síndromes de superposição 28 Doença de enxerto versus hospedeiro Rejeição do aloenxerto Doenças Hepáticas Genéticas Deficiência de 𝛼−1-antitripsina Hemocromatose Doença de Wilson Colestase intra-hepática recorrente benigna (CIRB) Colestase intra-hepática familiar progressiva (CIFP), tipos I a II Outras (galactosemia, tirosinemia, fibrose cística, doença de Newman-Pick, doença de Gaucher) Doença Hepática Alcoólica Esteatose hepática aguda Hepatite aguda alcoólica Cirrose de Laennec Esteatose Hepática Não Alcoólica Esteatose Esteatoepatite Acometimento Hepático na Doença Sistêmica Sarcoidose Amiloidose Doenças de armazenamento do glicogênio Doença celíaca Tuberculose Mycobacterium avium intracellulare Síndromes Colestáticas Colestase pós-operatória benigna Icterícia da sepse Icterícia induzida por nutrição parenteral total (NPT) Colestase da gravidez Colangite e colecistite Obstrução biliar extra-hepática (cálculo, estenose, câncer) Atresia biliar Doença de Caroli Criptosporidíase 29 Doença Hepática Induzida por Medicamentos Padrões hepatocelulares (isoniazida, acetaminofeno) Padrões colestáticos (metiltestosterona) Padrões mistos (sulfonamidas, fenitoína) Esteatose microvesicular e macrovesicular (metotrexato, fialuridina) Lesão Vascular Doença venoclusiva Síndrome de Budd-Chiari Hepatite isquêmica Congestão passiva Trombose da veia porta Hiperplasia regenerativa nodular Lesões Expansivas Carcinoma hepatocelular Colangiocarcinoma Adenoma Hiperplasia nodular focal Tumores metastáticos Abscesso Cistos Hemangioma Fonte: (Longo; Fauci, 2015). A cirrose hepática é uma das principais doenças que acometem o fígado, tratando-se de uma doença crônica, onde o tecido hepático saudável é substituído por fibroses difusas, comprometendo a anatomia e a fisiologia hepática. Essa doença possui uma gama variedade de manifestações e complicações, geralmente tratando-se do estágio final de várias condições que causam danos ao fígado ao longo do tempo, podendo ser fatal. Independente das causas que provocam a cirrose, é observável o desenvolvimento de fibroses que acarretam a uma distorção anatômica do órgão e o aparecimento de nódulos regenerativos, com isso ocorre uma diminuição da massa hepatocelular, comprometendo as suas funções (Longo; Fauci, 2015). A Figura 3 abaixo mostra as diferenças entre um fígado saudável e um fígado cirrótico. 30 Figura 2 - Comparação Entre Fígado Saudável e Cirrótico Fonte: (American Liver Foundation, 2024). A cirrose hepática tem origens variadas, sendo suas causas classificadas de acordo com os fatores que provocam o dano progressivo ao fígado e o desenvolvimento de fibrose. Essas causas podem ser agrupadas da seguinte maneira (Longo; Fauci, 2015). • Alcoolismo; • Hepatite viral crônica (tipo B e C); • Hepatite autoimune; • Esteatohepatite não alcoólica; • Cirrose biliar (primária, esclerosante primária e colangiopatia autoimune); • Cirrose cardíaca; • Doença hepática metabólica hereditária (Hemocromatose, Doença de Wilson, Deficiência de 𝛼−1-antitripsina, Fibrose cística); • Cirrose Criptogênica. Apesar de grave cerca de um terço das pessoas com a doença não desenvolvem sintomas, entretanto, quando há presença de sintomas como mal-estar generalizado, falta de apetite, perda de peso, baqueteamento, icterícia, deficiência de absorção de nutrientes, entre outros. Se a cirrose for provocada pelo consumo excessivo e crônico de álcool ou possuir doença hepática crônica outros sintomas podem surgir, como atrofia muscular, eritema palmar, contratura de Dupuytren, angioma aracneiforme, neuropatia periférica (Lee, 2024). Além disso, a doença em seu estado avançado pode causar algumas complicações adicionais, tais como: • Hipertensão Portal: Elevação da pressão arterial na veia porta, isso ocorre quando há um bloqueio do fluxo sanguíneo no fígado ou o aumento da resistência vascular no órgão (Lee, 2024). 31 • Hipertensão Portopulmonar: Elevação da pressão arterial nas artérias pulmonares (Lee, 2024). • Ascite: Acúmulo anormal de líquido no abdome, ocorre devido ao aumento da pressão na veia porta, resultando no vazamento de líquidos dos vasos sanguíneos para a cavidade abdominal (Lee, 2024). • Irregularidades e Sangramento: Distúrbios na coagulação do sangue, células sanguíneas e plaquetas presas devido a esplenomegalia (aumento do baço), formação de coágulos sanguíneos por menor produção das proteínas que ajudam na coagulação do sangue (Lee, 2024). • Câncer Hepático: O carcinoma hepatocelular pode se desenvolver em pessoas com cirrose (Lee, 2024). Como forma de diagnóstico da doença utiliza-se exames de sangue, testes de função hepática, biópsia do fígado e exames de imagem. Como características radiográficas pode ser utilizado ultrassonografias, TC, e MRI, entretanto, cada tipo de radiografia consegue captar características diferentes que levam ao diagnóstico (Walizai et al., 2024). O Quadro 4 mostra as informações que podem ser obtidas em cada tipo de radiografia. Quadro 4 - Métodos Radiográficos na Cirrose Hepática Método Radiográfico Características Detectáveis Ultrassonografia Superfície nodular – 88% de sensibilidade, 82-95% (especificidade) Textura heterogênea Hipertrofia/atrofia segmentar Sinais de hipertensão portal Esplenomegalia Ascite Esteatose hepática difusa TC Superfície nodular e parenquimatosa Esteatose hepática difusa Sinais de hipertensão portal Ascite Esplenomegalia 32 Hipertrofia/atrofia segmentar Veia paraumbilical dilatada Veias mesentérica superior e esplênica dilatadas linfadenopatia MRI Alterações Morfológicas Nódulos regenerativos Nódulos displásicos Carcinoma hepatocelular pequeno Fonte: Adaptado de (Walizai, et al., 2024). 3 DIAGNÓSTICO POR IMAGEM – TOMOGRAFIA COMPUTADORIZADA (TC) Os métodos de diagnóstico por imagem são ferramentas fundamentais na medicina moderna, permitindo uma visualização detalhada de estruturas internas do corpo humano, de tal forma a descartar a necessidade de procedimentos invasivos iniciais, auxiliando no diagnóstico de doenças, no monitoramento de tratamentos e planejamento de intervenções. Dentre as formas mais utilizadas de diagnóstico por imagem destacam-se a ultrassonografia, MRI e TC (Lopes et al., 2023). A TC é uma técnica de diagnóstico por imagem fundamentada no processamento computacional combinada com os feixes de raio-x, onde um computador processa as informações obtidas na passagem desses feixes. A TC realiza o escaneamento das regiões anatômicas do corpo humano para evidenciar as estruturas presentes no organismo, sendo geradas diversas imagens tridimensionais em que cada uma representa uma “fatia” do corpo humano em seções transversais, tal como mostrado na Figura 4 (Romans, 2011). 33 Figura 3 - Representação das Fatias em TC Fonte: Adaptado (Tekawade, 2020). Essas fatias são compostas por voxels, que são a menor informação para este tipo de dimensão de imagem, elas representam um volume da imagem, com densidade ou intensidade em uma determinada posição espacial, caracterizado em uma matriz de pixels de tamanho 512 x 512, onde é mostrada sua representação pela Figura 5 (Granatyr; Alves, 2022). Fonte: (Romans, 2011). Figura 4 - Representação de um Voxel e da Matrix de Pixels 34 3.1 Escala de Hounsfield A estrutura das imagens de TC são compostas em escala de cinza que provém dos princípios básicos de radiação para a formação da imagem, sendo utilizada o método da atenuação dos feixes de raio-x em água, conhecido como Escala de Hounsfield. Trata-se de uma escala em tons de cinza definidos por unidades de Hounsfield (UH) calculados pela relação ao coeficiente de absorção linear da água, atribuindo para cada tom um valor. Cada unidade de valores é medida como unidades de Hounsfield, utilizada para diferenciar e identificar as densidades dos tecidos no corpo humano (Funari et al., 2012). Cada unidade é determinada pela equação 1. 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑇𝐶 = 𝜇𝑡𝑒𝑐𝑖𝑑𝑜 − 𝜇á𝑔𝑢𝑎 𝜇á𝑔𝑢𝑎 ∗ 𝐾 (1) Esse método informa a presença das densidades em faixas de valores, sendo a água utilizada como referência é atribuída a ela o valor de 0UH. A Figura 6 a seguir mostra as faixas de valores de Hounsfield que representam algumas estruturas do corpo humano, onde estruturas ósseas são indicadas pela cor branca, representando 1000UH, e a presença de ar é indicado pela cor preta, representando -1000UH. Figura 5 - Escala de Hounsfield Fonte: Adaptado de (Romans, 2011). Dessa forma, aplica-se três formas básicas de janelamento para realizar a distribuição dos tons de cinza, sendo eles o janelamento para pulmões, tecidos moles e tecidos ósseos. O uso dessas janelas permite evidenciar as regiões de interesse utilizando a Escala de Hounsfield, entretanto são perdidas informações sobre as demais regiões. A Figura 7 mostra a representação do uso dessas janelas nos 3 casos, salientando as regiões relevantes. 35 Figura 6 – Janela para Tecidos Ósseos (a), Tecidos Moles (b) e Pulmões Fonte: (Mourão; Oliveira, 2009). 3.2 Planos de Corte Uma imagem gerada por TC é analisada em três planos distintos, sendo o plano coronal, axial e sagital, de tal forma a analisar as estruturas do corpo em parâmetros tridimensionais, avaliando não o estado das estruturas, mas também o seu volume. O plano coronal faz um recorte para a análise da parte superior e inferior do corpo, o plano axial analisa as partes frontal e posterior e a sagital permite visualizar as partes laterais do corpo. A Figura 8 a seguir mostra uma representação dos planos de corte visíveis em uma imagem de TC e as posições em que os planos permitem visualizar. 36 Figura 7 - Visualização das Posições Anatômicas em Relação aos Planos de Corte em TC Fonte: Adaptado de (Romans, 2011). Para a realização da TC, é injetado no paciente um contraste para melhor visualizar as estruturas em exames por imagem, aplicado por via intravenosa. Na aplicação é analisado o tempo de ação do contraste, sendo que para cada tempo de ação é definida uma fase do exame, conforme listado abaixo (Ramos, 2023). • Fase arterial: Nesta etapa o contraste atinge as artérias do sistema vascular. Essa fase é particularmente útil para avaliar o suprimento sanguíneo arterial para órgãos e para destacar lesões ou vasos sanguíneos anômalos. No contexto hepático, por exemplo, a fase arterial é muitas vezes usada para avaliar tumores hepáticos, pois eles geralmente têm uma vascularização diferente em comparação com o tecido hepático normal. • Fase Portal: Esta etapa ocorre após a fase arterial, quando atinge o sistema portal do fígado (rede de veias que drenam sangue de grande parte do sistema digestivo para o fígado). Lesões hepáticas são bem mais visíveis nesta etapa. • Fase Tardia: O contraste nesta etapa encontra-se mais distribuído e as imagens podem oferecer informações sobre o realce e a estrutura dos órgãos. A Figura 9 a seguir mostra as etapas da aplicação do contraste na região abdominal. 37 Figura 8 - Etapas da Aplicação de Contraste Fonte: (Anastácio, 2015). 3.3 DICOM O formato de imagem atribuído à TC consiste no formato DICOM (Digital Imaging and Communications in Medicine), sendo este o padrão universal de imagens médicas, contendo informações clínicas que colaboram para a análise de casos. Este formato de imagem traz consigo tanto informações clínicas quanto informações técnicas e de máquina, sendo possível a sua visualização pela aba de DICOM Tags. O Quadro 5 mostra algumas das tags que são identificadas por valores hexadecimais no formato (XXXX, XXXX), em que a primeira parte se trata do número do grupo e a segunda parte o número de elemento, os seus atributos e as representações de valor DICOM (VR), onde é descrito o tipo de dados e o formato do valor do atributo (DICOM Library, 2013). 38 Quadro 5 - Tags DICOM Tag DICOM Atributo VR Significado (0008,0008) Image Type CS Identificação das características da imagem (0008,0060) Modality CS Especifica qual o tipo da imagem (0008,0070) Manufacturer LO Fabricante do equipamento (0008,1090) Manufacturer's Model Name LO Modelo do equipamento (0018,0010) Contrast/Bolus Agent LO Fármaco utilizado no contraste radiológico (0018,0015) Body Part Examined CS Parte do corpo examinada (0028,0100) Bits Allocated US Número de bits alocados para cada amostra de pixel na fatia (0028,0101) Bits Stored US Número de pixels armazenados para cada amostra de pixel na fatia (0028,0102) High Bit US Pixel mais significante na amostra de dados dos pixels (0028,1050) Window Center DS Define o centro da janela para exibição (0028,1051) Window Width DS Define o centro da janela para exibição (0028,1052) Rescale Intercept DS Representa o ajuste linear aplicado aos valores de pixel (0028,1053) Rescale Slope DS Representa o ajusta da inclinação aplicada aos valores de pixel (0028,0030) Pixel Spacing DS Distância física entre os pixels na fatia em milímetro 39 (0018,9311) Spiral Pitch Factor FD Relação entre o avanço da mesa por rotação Fonte: Adaptado de (Araujo, 2023). A Figura 10 a seguir mostra o exemplo da representação anatômica do abdome vista pelo corte axial, indicando cada estrutura presente. Fonte: Adaptado de (Júnior, s.d.). 4. PROCESSAMENTO DIGITAL DE IMAGENS A aplicação de técnicas de processamento digital de imagens tem sido bastante utilizada devido a sua ampla gama de aplicações, podendo ser utilizada no aprimoramento de imagens para facilitar a interpretação visual por humanos, e realizar análises automatizadas de dados extraídos de uma cena, utilizando computadores (Neto; Filho, 1999). Existem três formas de realizar o processamento computacional em imagens (Gonzalez; Woods, 2010). • Processo de Baixo Nível: Têm relação com as operações primitivas, como o pré- processamento de imagens para a redução de ruídos, o ajuste de contraste e o aguçamento. Neste processo os dados de entrada e saída são apenas imagens. • Processo de Nível Médio: Têm relação com segmentação da imagem, a descrição dos objetos e a classificação de objetos individuais. Neste processo os dados de entrada são de imagens, e os dados de saída de atributos que foram extraídos. Figura 9 - Representação Anatômica Abdominal em TC - Plano Axial 40 • Processo de Alto Nível: Utiliza técnicas avançadas para extrair informações complexas de uma imagem. Isso inclui métodos como reconhecimento de objetos, aprendizado de máquina, redes neurais artificiais e detecção de padrões. Essas abordagens permitem identificar características específicas, analisar contextos visuais e automatizar tarefas que exigem interpretação detalhada das imagens (Araujo, 2023). 4.1 Classificação das Imagens As imagens são classificadas pela sua geometria, podendo ser imagens bidimensionais f (x, y) onde as coordenadas x e y representam um plano espacial, cuja amplitude de f em qualquer par das coordenadas (x, y) é definida como a intensidade da imagem. Para valores de intensidade de f, x e y de quantidades finitas e discretas trata-se de uma imagem digital (Gonzalez; Woods, 2010). Uma imagem é composta por uma quantidade finita de elementos, onde cada elemento possui uma localização espacial e um valor atribuído a ele, sendo o termo Pixel o mais utilizado para representar esses elementos de imagens digitais (Gonzalez; Woods, 2010). O pixel consiste na menor informação disponível de uma imagem bidimensional, sendo cada um composto por três canais de cores básicas no formato RGB (red, green, blue), onde cada canal de cores pode variar entre 0 (cor preta) até 255 (cor branca). No caso de imagens em escala de cinza, os valores de RGB são idênticos para cada pixel. Por isso, um único canal é suficiente para representá-las, já que os três canais possuem valores iguais (Granatyr; Alves, 2022). Dessa forma, o tamanho da imagem em escala de cinza é menor do que o de uma imagem RGB, pois contém uma quantidade reduzida de informações armazenadas. A análise de imagens em escala de cinza é frequentemente preferida, pois otimiza o processamento dos algoritmos, reduzindo a complexidade computacional sem perda significativa de informações essenciais em muitos contextos (Granatyr; Alves, 2022). A Figura 11 mostra uma representação dos canais de cores RGB em um pixel. A Figura 12 apresenta uma imagem com os canais em escala de cinza. 41 Figura 10 - Representação dos Canais de Cores RGB em um Pixel Fonte: Própria autora. Figura 11 - Representação dos Canais de Cores RGB em Escala de Cinza Fonte: Própria autora. Para analisar a faixa de pixels de uma imagem, permitindo o seu realce e demais técnicas de processamento em domínio espacial, são utilizados histogramas, pois é uma forma de representar a distribuição de intensidade dos pixels. Para isso, utiliza-se o histograma normalizado, onde é representado a distribuição relativa de cada nível de intensidade em relação ao total de pixels da imagem. Seja k a faixa de níveis de cinza entre 0 e 255, a probabilidade de ocorrência do nível de intensidade k em uma imagem é dada pela Equação 2 (Gonzalez; Woods, 2010). 𝑝(𝑘) = 𝑛𝑘 𝑛 (2) em que 𝑛𝑘 é o número de pixels com o nível de intensidade k e n o total de pixels da imagem. Com isso, analisando as quatro características fundamentais relacionadas à intensidade da imagem, sendo a baixa luminosidade (imagem escura), a alta luminosidade (imagem clara), o baixo contraste e o alto contraste, a Figura 13 mostra os histogramas normalizados para os 42 quatro casos, onde o eixo horizontal é composto dos níveis de k e o eixo vertical da probabilidade de sua ocorrência. Figura 12 - Histograma Normalizado de Imagens Fonte: (Gonzalez; Woods, 2010). 4.2 Pré-Tratamento de Imagem O pré-tratamento de imagens é uma etapa crucial em projetos que envolvam aprendizado de máquina, redes neurais ou qualquer tipo de análise computacional. Ele garante que os dados estejam em um formato uniforme, otimizados para o processamento e livres de 43 ruídos ou informações irrelevantes. Para isso, utilizam-se técnicas de janelamento e algumas filtragens nas imagens para sua manipulação. 4.2.1 Janelamento Etapa do processamento digital que objetiva destacar uma região dentro do ajuste dos níveis de cinza, realizando a atenuação da região de interesse. Dentro da TC há cerca de 2000 valores de variação de atenuação, utilizando-se das três janelas básicas (Ver Figura 7): janela de pulmões, de tecidos moles e tecidos ósseos (Araujo, 2023). Nas imagens de TC o janelamento é realizado partindo de informações obtidas na aba de Tag DICOM, conforme os valores de Window Center e Window Width para definir a melhor janela a ser aplicada ao caso estudado, levando em conta a Escala de Hounsfield. 4.1.2 Filtragem Espacial - Filtro Mediana Filtragem que faz a substituição do valor de um pixel pela mediana dos níveis de intensidade presente na vizinhança, podendo ser expressa pela seguinte Equação (3). 𝑓(𝑥, 𝑦) = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎(𝑠,𝑡)∈𝑆𝑥𝑦 {𝑔(𝑠, 𝑡)} (3) A equação 3 representa o processo em que o valor do pixel filtrado 𝑓(𝑥, 𝑦) é obtido pela mediana dos valores dos pixels 𝑔(𝑠, 𝑡) na vizinhança 𝑆𝑥𝑦 centrada em (x, y). A filtragem mediana permite reduzir os ruídos aleatórios nas imagens, gerando menos borramento do que os filtros lineares de suavização similares, sendo uma qualidade desta filtragem a preservação de bordas (Gonzalez; Woods, 2010). A Figura 14 mostra um exemplo deste filtro aplicado a uma imagem. Figura 13 - Aplicação do Filtro de Mediana: a) Imagem com Presença de Ruído e b) Imagem com a Filtragem Mediana de Tamanho 3x3 Fonte: (Gonzalez; Woods, 2010). 44 4.2.3 Filtragem de Realce e Suavização – Filtragem Difusa Anisotrópica Filtragem que permite a preservação da nitidez das bordas e detalhes importantes da imagem após a redução de ruídos, expressa pela Equação 4 (Araujo, 2023). 𝜕𝑙 𝜕𝑡 = 𝑑𝑖𝑣(𝑐(𝑥, 𝑦, 𝑡)∇𝑙(𝑥, 𝑦, 𝑡)) (4) 4.3 Segmentação de Imagens A técnica de segmentação é uma ferramenta de processamento digital de compreensão computacional de imagens para a identificação de objetos e informações relevantes presentes para análise de dados visuais complexos de uma imagem, uma etapa crucial para o tratamento desse tipo de dado (IBM, 2024). Para a identificação de objetos em dados visuais é feito o agrupamento das menores informações de uma imagem, sendo pixels ou voxels, permitindo dividir uma imagem em uma mistura de regiões homogêneas. Essas divisões são realizadas pela similaridade entre pixels, tomando como critério cor, intensidade, textura, entre outros, sendo a extração dessas informações realizada por um algoritmo de segmentação (Granatyr; Alves, 2022). Essa ferramenta não busca, necessariamente, compreender de fato o que está presente ou o que é o objeto, mas sim entender a estrutura da imagem e identificar as áreas com características semelhantes. Essa técnica difere das técnicas de detecção de objetos e da classificação de imagens, visto que a primeira tem o foco em identificar e localizar objetos individuais específicos em uma imagem, e a segunda determina uma ou mais categorias em uma imagem dado o seu conteúdo visual (Granatyr; Alves, 2022). Essa técnica torna-se útil para analisar e auxiliar na identificação de patologias e monitoramento em imagens médicas, principalmente em imagens tridimensionais. A segmentação de imagens na medicina é uma etapa fundamental no processamento de imagens médicas, como TC, MRI e ultrassonografias. Seu objetivo é dividir a imagem em regiões ou estruturas significativas, como órgãos, tumores ou vasos sanguíneos, facilitando o diagnóstico, planejamento de tratamentos e monitoramento clínico (ARAUJO, 2023). Existem diversas técnicas para realizar o processo de segmentação, divididas em duas categorias: técnicas clássicas e técnicas robustas. A segmentação com técnicas clássicas de processamento digital de imagens utiliza métodos tradicionais de baixa complexidade computacional, utilizadas em dados simples, sendo algumas delas as técnicas de thresholding, de segmentação baseada em bordas, região ou clusters, e a técnica de watershed. Já a segmentação com técnicas robustas envolve maior complexidade computacional, envolvendo 45 algoritmos iterativos ou redes neurais, sendo mais resistente a ruídos, se adaptam as qualidades da imagem e tem um melhor desempenho em situações variadas e complexas, sendo divididas por segmentação de instâncias, segmentação semântica e segmentação panóptica (Granatyr; Alves, 2022). 4.3.1 Segmentação com Técnicas Clássicas de Processamento Digital de Imagens 4.3.1.1 Thresholding A segmentação por thresholding, binarização ou limiarização consiste na técnica mais simples de segmentação de imagem, utiliza-se informações de cor (brilho, intensidade e contraste) de um pixel para extrair dados relevantes. É utilizado para separar uma imagem em regiões de interesse e em regiões de não interesse, partindo da escolha de um ponto de corte, chamado de limiar ou threshold (Granatyr; Alves, 2022). A imagem analisada deve ser convertida em uma escala de cinza, cujo objetivo é selecionar o limiar entre 0 e 255, podendo ele ser determinado manualmente ou de modo automático utilizando um histograma das cores dos níveis de cinza que representa as cores dos pixels da imagem, sendo o meio entre os picos o limiar ideal, com base na contagem de frequência dos pixels, sendo este último denominado de método de Otsu (Granatyr; Alves, 2022). A Figura 15 a seguir mostra um exemplo da segmentação por thresholding e a figura 16 exibe o histograma utilizado pelo método de Otsu. Figura 14 - Segmentação por Thresholding 46 Fonte: Adaptado de (Granatyr; Alves, 2022). Figura 15 - Limiarização com o Método de Otsu: a) Imagem Ruidosa Suavizada; b) Histograma de Cores; c) Método de Otsu Aplicado Fonte: Adaptado de (Gonzalez; Woods, 2010). 4.3.1.2 Segmentação por Bordas A segmentação por bordas é o método mais utilizado para detectar as bordas de uma imagem partindo de transições abruptas nos valores de intensidade de cor entre as regiões da imagem, onde bordas são classificadas por níveis de intensidade entre um pixel de distância. São utilizadas funções de intensidade para modelar expressões matemáticas sobre o comportamento de bordas para desenvolver algoritmos de processamento digital. A Figura 17 (a) mostra a representação de uma borda vertical bem delimitada por uma função degrau de intensidade, (b) exibe uma função rampa para imagens digitais com bordas ruidosas e desfocadas, a inclinação da rampa é inversamente proporcional ao grau de indefinição da borda, e qualquer ponto presente na inclinação trata-se de um ponto de borda, e o segmento de borda o conjunto desses pontos, (c) a borda em roof edge é dada pela largura, espessura e nitidez de linha, adotando uma forma de “telhado” (Gonzalez; Woods, 2010). Figura 16 - Representação das Funções de Intensidade nas Bordas Fonte: (GONZALEZ e WOODS, 2010). 47 As funções de intensidade podem ser derivadas para identificar mudanças rápidas na intensidade da imagem, que são sinais de que existe uma borda ou um contorno, é utilizada a derivada de primeira e de segunda ordem, na qual a primeira é aplicada para detectar mudança direta na intensidade, em rápidas transições, já a segunda ajuda a identificar os pontos exatos de transição, ou seja, onde a borda começa e termina, para aguçar a detecção e pode lidar melhor com ruídos (Gonzalez; Woods, 2010). A Figura 18 exibe os perfis de intensidade horizontal de uma imagem com duas regiões de intensidade constante, é importante observar que na segunda derivada ocorre um cruzamento por zero, indicando uma borda de transição entre as cores, localizando o ponto exato em que a transição é mais nítida, realizando a deteção de bordas com maior precisão do que a primeira derivada, sendo também os pontos de mínimo e máximo da segunda derivada a implicação de bordas da imagem (Gonzalez; Woods, 2010). Figura 17 - Resposta das Derivadas de Primeira e Segunda Ordem na Detecção de Bordas Fonte: (Gonzalez; Woods, 2010). Além disso, utilizam-se também operadores para auxiliar na detecção de bordas, como dos operadores de Sobel e Canny Edge, possuindo abordagens diferentes, mas ambos ajudam a identificar as transições mais marcantes na intensidade dos pixels. O operador Sobel trata-se de um operador de gradiente isotrópico que utiliza dois kernels 3x3 diferentes para calcular as aproximações das derivadas, uma para mudanças horizontais (𝐺𝑥) e outra para mudanças verticais (𝐺𝑦), fazendo com que as bordas das imagens nas duas direções sejam realçadas. Os kernels direcionais são constituídos de matrizes transpostas entre si, podendo ser representados pela Equação 5 e 6, em que 𝐺𝑥,𝑦 correspondem às imagens com as derivadas horizontais e 48 verticais como resposta convolucional de uma imagem original Z e os kernels (Gonzalez; Woods, 2010). 𝐺𝑥 = [ −1 0 1 −2 0 2 −1 0 1 ] ∗ 𝑍 (5) 𝐺𝑦 = [ −1 −2 −1 0 0 0 1 2 1 ] ∗ 𝑍 (6) A Figura 19 mostra a aplicação do operador Sobel em uma imagem aplicada a (a) escala de cinza, (b) resultado do operador para 𝐺𝑥, (c) resultado do operador para 𝐺𝑦 e (d) a combinação de 𝐺𝑥 e 𝐺𝑦, apresentando uma magnitude de 𝐺 = √𝐺𝑥 2 + 𝐺𝑦 2 , sendo possível observar que apesar de apresentar uma leve suavização e identificar as bordas da imagem, não há uma boa detecção de bordas sutis e ocorre uma menor precisão quando comparada a outros métodos. Figura 18 - Aplicação do Operador Sobel Fonte: Adaptado de (Granatyr; Alves, 2022) O uso da técnica de Canny Edge realiza a detecção de bordas de forma mais avançada, envolvendo a aplicação do filtro de Sobel com algumas etapas a mais, é realizada a redução de ruído utilizando desfoque com o filtro Gaussian Blur para inibir bordas falsas geradas por ruídos (Granatyr; Alves, 2022). 49 O cálculo do gradiente de intensidade de imagem pelo operador de Sobel, aplicação da técnica de non-maximum suppression diminuem-se as bordas para deixá-las com a mesma espessura, duplo threshold (limiar) para determinar bordas potenciais, se determina um limiar alto e outro baixo, para identificar três tipos de pixels: fortes (maior intensidade, que fazem parte da borda), fracos (menor intensidade, mas relevante) e os não relevantes (não fazem parte das bordas) e o processo de histerese (Edge Tracking) para verificar se o pixel faz parte de uma borda "forte" suprimindo todas as outras bordas que são fracas e não conectadas a bordas fortes, tal que os pixels fracos são transformados em pixels fortes se existir pelo menos um pixel forte na vizinhança do pixel fraco (Granatyr; Alves, 2022). A Figura 20 mostra as etapas comentadas anteriormente em uma imagem transformada em escala de cinza. Figura 19 - Aplicação do Algoritmo de Canny Edge Fonte: Adaptado de (Liang, 2016). 4.3.1.3 Segmentação por Região A segmentação por região divide a imagem em regiões homogêneas ao invés de encontrar as bordas que delimitam essas regiões. Cada região contém pixels com propriedades similares. Isso contrasta com métodos baseados em bordas, que focam nas transições abruptas entre diferentes áreas. Na implementação, consideram-se os valores de intensidade de cor dos pixels da imagem, e o bom funcionamento desta técnica dá-se pela qualidade de contraste presente no dado visual. De forma geral, a segmentação em região lê cada pixel da imagem, categorizando-o em uma classe com base na sua semelhança, sendo dividida em dois métodos: 50 o crescimento por região (Region Growing) e por divisão, e fusão de região (Gonzalez; Woods, 2010). O método de crescimento por região busca realizar o agrupamento dos pixels ou sub- regiões em regiões maiores de acordo com critérios predefinidos para o crescimento. O agrupamento dá-se pela junção de conjuntos de pontos denominados “sementes” que podem ser definidos manual ou automaticamente, expandindo a região ao incluir pixels vizinhos com propriedades semelhantes (Gonzalez; Woods, 2010). A seleção dos critérios de similaridade para o agrupamento dos pixels pode variar desde o problema a ser analisado até o tipo de dado disponível, podendo ser alguns dos indicadores a cor e diferenças de intensidade. Os agrupamentos podem variar, podendo separar em diversas regiões possíveis, tal como mostrado pela Figura 21 a seguir um exemplo aplicado da segmentação por regiões (Gonzalez; Woods, 2010). Figura 20 - Aplicação da Segmentação por Região – Crescimento de Região Fonte: (Granatyr; Alves, 2022). Para o uso desse método de segmentação, é imprescindível realizar uma boa filtragem dos ruídos, visto que, apesar de ser um método de fácil implementação e interpretação, torna- se sensível à escolha das sementes e propenso a falhas em imagens ruidosas (Gonzalez; Woods, 2010). Enquanto isso, o método de divisão e fusão de regiões (Split and Merge) baseia-se na divisão recursiva da imagem em sub-regiões até que todas as partes sejam homogêneas, depois, regiões adjacentes semelhantes são fundidas, normalmente utilizando uma estrutura hierárquica como uma quadtree, onde a ideia básica é dividir o espaço em quatro sub-regiões (ou nós filhos) sempre que os dados em uma região não forem homogêneos ou quando houver um critério de granularidade. (Gonzalez; Woods, 2010). 51 4.3.1.4 Segmentação por Clusters A segmentação por clusters é uma técnica de processamento de imagens que utiliza algoritmos de aprendizado de máquina para agrupar pixels com características semelhantes para formar regiões homogêneas, utilizando métodos de agrupamento (clustering) (Granatyr; Alves, 2022). Em vez de tratar os pixels individualmente, a segmentação por clusters busca identificar padrões em seus atributos, como cor, intensidade ou textura, para dividi-los em grupos que compartilham essas características. Esta técnica se assemelha a segmentação baseada em regiões, mas neste caso os grupos são denominados por aproximação em clusters, e na outra segmentação mencionada a etapa é feita manualmente. O algoritmo mais utilizado para este tipo de segmentação é o algoritmo K-Means, que divide os pixels em k clusters que serão gerados, minimizando a distância entre os pixels e o centro do cluster calculado. Dado os grupos formados, determina-se o centro de cada grupo e, a partir do centro é medida a distância dos pontos aos centros para averiguar em qual grupo pertence. Esse comportamento vai se repetindo até que não exista mais nenhuma troca de grupo entre esses pontos. A Figura 22 exibe as etapas entre essas interações. Esse método de segmentação torna-se muito eficiente em imagens com regiões bem definidas, e imagens muito ruidosas podem afetar o agrupamento (Granatyr; Alves, 2022). Figura 21 - Clustering Fonte: (Ali, 2024). A Figura 23 mostra a aplicação da segmentação por clusters em uma imagem, testando para k = 2 até k = 6, observando a eficiência dos agrupamentos pelo algoritmo de K-Means. 52 Fonte: (Granatyr; Alves, 2022). 4.3.1.5 Segmentação por Watershed A segmentação com Watershed é utilizada principalmente na segmentação de objetos sobrepostos ou encostados um ao outro, identificando linhas de divisão (bordas), realizando o tratamento com a imagem em escala de cinza como uma superfície topográfica, onde os pixels de alta intensidade representarão os picos e os de baixa densidade representarão os vales. A técnica recebe esse nome por basear-se na divisão de bacias hidrográficas, atribuindo uma visualização topográfica de uma imagem, possuindo duas coordenadas espaciais e uma de intensidade (Gonzalez; Woods, 2010). Para este método de segmentação o pré-processamento deve ser acompanho por uma transformada de distância para realçar as regiões centrais dos objetos a serem segmentados e realizar a “separação” entre eles, sendo aplicado, normalmente, a transformada de distância Euclidiana na imagem limiarizada e aplicada a operação morfológica de dilatação que aumenta a área ao redor dos objetos da imagem evidenciando linhas divisórias das regiões a serem segmentadas, onde é gerado um mapa dessas distâncias (Granatyr; Alves, 2022). A figura 24 representa o pré-processamento realizado em uma imagem com a aplicação da segmentação de watershed. Figura 22 - Aplicação da Segmentação por Clusters 53 Figura 23 - Aplicação de Watershed Fonte: Adaptado de (Granatyr; Alves, 2022). 4.3.2 Segmentação com Técnicas Robustas via Deep Learning A segmentação de imagens baseada no aprendizado profundo tem transformado a análise de imagens, com aplicações relevantes em áreas como medicina, segurança e visão computacional, onde utiliza-se redes neurais tais como: Mask R-CNN, YOLACT, U-Net, DeepLab, para identificar e separar regiões ou objetos específicos dentro de uma imagem, tratando de segmentações de alta precisão e eficiência, realizando a classificação e/ou a detecção de objetos, superando muitas técnicas tradicionais. Essa abordagem é dividida em três categorias principais, sendo segmentação semântica, panópticas e por instâncias (IBM, 2024). 4.3.2.1 Segmentação Semântica Trata-se da segmentação robusta mais simples, com o objetivo é atribuir a cada pixel de uma imagem uma classe ou categoria semântica. A resposta da segmentação semântica é uma imagem em que cada pixel é colorido de acordo com a categoria semântica à qual pertence. No entanto, essa segmentação não diferencia diferentes instâncias do mesmo objeto, isto é, não diferencia os objetos individualmente, mas sim segmenta vários objetos e atribui uma categoria. A figura 25 mostra um exemplo da segmentação aplicada (Granatyr; Alves, 2022). 54 Figura 24 - Segmentação Semântica Fonte: (Granatyr; Alves, 2022). 4.3.2.2 Segmentação de Instâncias A segmentação de instâncias vai além da segmentação semântica, pois não apenas atribui uma classe semântica a cada pixel, mas também distingue entre diferentes instâncias do mesmo objeto na imagem, isto é, ocorre a diferenciação dos objetos de uma mesma classe aplicando rótulos individualmente. Além de segmentar os objetos, ocorre também a indicação do que é o objeto com certa precisão tratando cada objeto de mesma categoria como uma entidade diferente. A Figura 26 evidencia a aplicação do método (Granatyr; Alves, 2022). Figura 25 - Segmentação de Instâncias Fonte: (Granatyr; Alves, 2022). 4.3.2.3 Segmentação Panóptica 55 A segmentação panóptica engloba os outros dois métodos acoplados, dessa forma, a rede rotula todos os pixels identificando todas as categorias presentes na imagem enquanto distingue cada objeto individualmente, sendo a resposta dessa segmentação a combinação das saídas das demais formas apresentadas anteriormente. Esse método é reconhecido por fazer uma segmentação completa da imagem, sendo mostrada a sua aplicação como exemplo pela Figura 27. Figura 26 - Segmentação Panôptica Fonte: (Granatyr; Alves, 2022). 5 APRENDIZADO PROFUNDO O aprendizado profundo (Deep Learning) é uma técnica avançada de aprendizado de máquina que utiliza redes neurais artificiais que são compostas por múltiplas camadas de neurônios conectados. Cada camada processa os dados de entrada de maneira transformada, aprendendo características cada vez mais complexas à medida que os dados passam pelas camadas sucessivas utilizadas para modelar e resolver problemas complexos. Ao contrário de abordagens tradicionais de aprendizado de máquina, que exigem a extração manual de características, o aprendizado profundo permite que as máquinas aprendam automaticamente representações de dados em diferentes níveis de abstração, utilizando linguagens de programação elaboradas e permitindo trabalhar com uma variedade de dados altamente complexos (O’Shea; Nash, 2015). As redes de aprendizado profundo têm transformado a área da medicina ao proporcionar avanços significativos no diagnóstico, prognóstico e tratamento de diversas doenças. Elas são amplamente aplicadas devido à sua capacidade de analisar e interpretar dados médicos 56 complexos, especialmente imagens, com alta precisão e eficiência (Koenigkam-Santos et al., 2019). 5.1 Redes Neurais Convolucionais As Redes Neurais Convolucionais (CNNs) são uma arquitetura de redes neurais projetada para processar dados que possuem uma estrutura em grade, como imagens e vídeos. Elas são especialmente poderosas para tarefas de visão computacional, como reconhecimento de objetos, classificação de imagens e segmentação, pois são capazes de aprender e identificar padrões espaciais complexos de forma eficiente (O’Shea; Nash, 2015). As CNNs se assemelham as redes neurais artificiais (ANNs) tradicionais, compostas por neurônios que se auto otimizam por meio do aprendizado, onde cada um recebe uma entrada e executa uma operação. Entretanto, a diferença entre elas é que as CNNs são usadas principalmente no campo de classificação de imagens. Devido a isso, a sua arquitetura foi desenvolvida de forma adaptada a necessidade de lidar com o tipo específico de dados, composta por três camadas sendo elas a camada convolucional formada por filtros que operam por convolução e extraem as informações relevantes da imagem, a camada de pooling que realiza o agrupamento e as camadas totalmente conectadas (O’Shea; Nash, 2015). A Figura 28 traz a representação da arquitetura de uma CNN. Figura 27 - Arquitetura de uma CNN Fonte: (Venkatesan; Li, 2018). As redes neurais convolucionais (CNNs) têm se mostrado extremamente eficazes na análise de imagens médicas, contribuindo de forma significativa para diagnósticos mais rápidos e precisos. Sua capacidade de extrair automaticamente características relevantes de exames como tomografias, ressonâncias magnéticas e lâminas histológicas permite a identificação precoce de diversas patologias, especialmente o câncer. Utilizando modelos pré-treinados e técnicas de data augmentation, as CNNs conseguem manter alta acurácia mesmo com conjuntos de dados limitados, o que é comum na área médica. Além disso, essas redes reduzem 57 a dependência da análise visual humana, tornando o processo diagnóstico mais padronizado e menos sujeito a erros (B et al., 2024). 6 METODOLOGIA Neste capítulo, será abordada toda a metodologia, desde os equipamentos, aquisição do banco de dados, pré-tratamento de imagem e segmentação utilizada, a aplicação de data augmentation e a síntese da rede neural para classificar os dados. Esta etapa tem como finalidade apresentar um estudo de caso aplicado os conceitos de processamento digital de imagem. Aos dados tratados aplica-se a técnica de data augmentation para expandir o banco de dados partindo das imagens existentes para reduzir o risco de overfitting na rede e aumentar a precisão do modelo. As imagens são aplicadas como entrada de uma CNN para verificar se a rede as classifica. A Figura 29 mostra um fluxograma dos passos adotados nesta etapa, sendo cada um deles expandidos nas demais seções. 58 Figura 28 - Fluxograma da Metodologia Adotada Fonte: Própria autora. 6.1 Equipamentos e Softwares Para o projeto foi utilizado um banco de dados de imagens médicas adquiridas do mesmo equipamento de TC, onde os dados de máquina são exibidos pelo Quadro 6. Quadro 6 - Dados de Máquina do Tomógrafo Tag DICOM Descrição Dados de Máquina (0008, 0070) Fabricante SIEMENS (0008, 1090) Modelo Emotion 16 (0018, 1020) Versão do Software Syngo CT 2014A (0008, 0080) Instituição Tabesh Medical Imaging Center Fonte: Própria autora. 59 Como software para o processamento digital das imagens foi utilizado o 3D Slicer, e para a síntese da rede neural foi realizada a programação no Ambiente de desenvolvimento Integrado - Integrated Development Environment (IDE) Jupyter, sendo a linguagem Python escolhida para essa etapa. O 3D Slicer é uma plataforma de software livre e de código aberto amplamente utilizada para visualização, análise e processamento de imagens médicas tridimensionais. Suportando modalidades como MRI, TC, entre outros. O software oferece ferramentas avançadas para segmentação, registro de imagens, reconstrução 3D e planejamento cirúrgico. Com arquitetura modular e suporte a extensões em Python e C++, o 3D Slicer permite a personalização de funcionalidades e integração com bibliotecas de aprendizado de máquina, sendo uma ferramenta robusta e versátil para aplicações clínicas e de pesquisa em imagem biomédica (Fedorov et al., 2012). 6.2 Database O banco de dados utilizado é composto de imagens médicas na modalidade de TC do abdome de pacientes cirróticos e não-cirróticos, sendo elas administradas no formato DICOM, realizadas na fase portal de contraste para melhor visualização das estruturas, e analisado o corte axial para exposição dos resultados. Foram utilizadas no total 25 imagens médicas, totalizando 18.885 fatias, possuindo em média 755 fatias por imagem. Cada fatia possui uma resolução de 16 bits e tamanho de 512x512 pixels, possuindo um espaçamento entre os pixels por linha e coluna de aproximadamente 0,8 mm, sendo mostrado no quadro 7 as informações e as Tags DICOM correspondentes obtidas das imagens pelo 3D Slicer. Quadro 7 - Informações de Imagem Tag DICOM Descrição Dados de Máquina (0028, 0030) PixelSpacing 0.822265625, 0.822265625 (mm) (0028,0010) Rows 512 (0028,0011) Columns 512 (0028,0100) BitsAllocated 16 Fonte: Própria autora. Os dados cedidos foram extraídos no centro médico Tabesh Medical Imaging Center, pelo Dr. Mohammad Taghi Niknejad, que gentilmente colaborou em ceder imagens médicas para a realização da pesquisa. 60 6.3 Determinação de Objetos Partindo do banco de dados, é estudada as estruturas anatômicas a serem analisadas que evidencie a presença de cirrose no corpo humano, sendo essas estruturas escolhidas como objetos de interesse para a etapa de tratamento de imagem, realizando a comparação das estruturas entre os dados de pacientes diagnosticados com cirrose e de pessoas sem a doença. Como descrito na teoria, conhecendo os sintomas e mudanças que ocorrem no organismo devido a cirrose, foram determinados o fígado e o baço como órgãos para a análise, sendo os objetos de interesse, visto que é possível observar em imagens de TC as lesões sofridas nesses órgãos, de modo a facilitar a segmentação dessas regiões. 6.4 Pré-Processamento de Imagem Para iniciar o processamento da imagem, são verificados os valores em escala de cinza (em UH) nas imagens para distinguir os tecidos. Pela literatura, um fígado saudável apresenta valores de 38-70 UH, com a diferença de 10UH maior que um baço saudável considerando a situação sem o uso do contraste intravenoso, e com contraste na fase portal variando entre 60- 80 UH para ambos os órgãos. Diferente do baço, em que os valores não variam tanto, um fígado não saudável pode apresentar valores mais baixos do que um fígado normal. É levado em consideração que esses valores podem sofrer alterações levando em conta outras patologias e a própria qualidade de imagem (Romans, 2011). Após a análise dos valores da escala de Hounsfield as imagens receberam um pré- processamento, aplicando o janelamento para ajustar a faixa de intensidades (UH) para melhor visualizar as estruturas. Para isso, foi definido dois parâmetros importantes para a determinação da janela utilizada, sendo a largura da janela evidenciando a amplitude dos valores de Hounsfield, determinando o contraste da imagem e o nível da janela, que define o ponto médio da faixa de intensidades visualizada, resultando na alteração do brilho da imagem. Esses parâmetros foram definidos utilizando a informação presente em duas tags nos arquivos DICOM que fornecem um intervalo de valores a serem testados para a visualização das estruturas de interesse, fazendo parte da calibração da máquina. Os valores visualizados pelo software 3D Slicer antes do janelamento para cada imagem são diferentes, entretanto, o janelamento aplicado seguiu-se com valores uniformes para todos os dados analisados. Neste trabalho é apresentado uma imagem presente do banco de dados para cada caso mencionado, de tal forma a ilustrar toda a metodologia em cada etapa. A Figura 30 a seguir mostra o caso de um paciente sem a doença e outro com cirrose, antes do Janelamento, em (a) com paciente não-cirrótico apresentando contorno hepático 61 uniforme e sem a presença de hipertrofia dos lóbulos com baço de tamanho relativamente saudável. Em (b) o paciente está cirrótico, apresentando contorno hepático nodular com a presença de hipertrofia nos lóbulos, e baço em processo de esplenomegalia. Figura 29 - Imagens Antes do Janelamento de Paciente Cirrótico e Não-Cirrótico Fonte: Própria autora. O tamanho e o centro da janela para evidenciar o fígado e o baço no janelamento foram determinados partindo das informações presentes nas tags DICOM (0028,1050) – Window Center e (0028,1051) – Window Width, tal como mostrado pelo Quadro 8. Quadro 8 - Atribuição dos Valores para o Janelamento Tag DICOM Atributo Valores (0028,1050) Window Center [40,300] (0028,1051) Window Width [300,1500] Fonte: Própria autora. De acordo com o Quadro 8 apresentado, é exibido os valores mais apropriados para o janelamento. 62 Com os valores de centro e largura de janela, determina-se a faixa de valores de pixels dentro da imagem não tratada onde é possível distinguir os tecidos de estudo, determinado janelamento. Os valores de 𝑤𝑐=40 UH e 𝑤𝑤=300 UH exibem melhor as faixas de intensidade de Hounsfield para as estruturas de interesse, com isso aplica-se o janelamento com essas faixas de valores no software, sendo as imagens janeladas apresentadas pela Figura 31. Figura 30 – Imagem Após o Janelamento: (a) Paciente não-cirrótico; (b) Paciente cirrótico Fonte: Própria autora. A partir da imagem janelada utiliza-se o filtro mediana para a redução de ruídos na imagem, entretanto preservando as bordas para a visualização do volume da imagem, sendo usado uma suavização de vizinhança de [1,1,1] (Gonzalez;Woods, 2010). A saída da filtragem é mostrada pela Figura 32. 40 300 750 -750 -150 150 -110 à 190 UH -450 à 1050 UH 𝑤𝑐 = 40 UH; 𝑤𝑤 = 300 UH 𝑤𝑐 = 300 UH; 𝑤𝑤 = 1500 UH 63 Figura 31 - Aplicação do Filtro Mediana: (a) Paciente não-cirrótico; (b) Paciente cirrótico Fonte: Própria autora. Para melhorar ainda mais a questão de ruídos na imagem foi aplicada a filtragem difusa anisotrópica, que ainda mantém as bordas nítidas e melhor qualidade da imagem. Para isso foi aplicado os seguintes parâmetros apresentados pela Tabela 1. Tabela 1 - Parâmetros Utilizados na Filtragem Difusa Valores Adotados Parâmetro Atribuição i = 5 Iterações Suavização moderada da imagem. t = 0,0625 s Tempo de cada iteração Tempo padrão do sistema. c = 3 Condutância Sensibilidade do processo. Valores de c menores há a preservação de bordas. Fonte: Própria autora. Os valores presentes na tabela 1 foram implementados, sendo a saída da filtragem mostrada pela Figura 33. Figura 32 - Aplicação do Filtragem Difusa: (a) Paciente não-cirrótico; (b) Paciente cirrótico Fonte: Própria autora. 64 6.5 Segmentação de Imagem Após a realização das filtragens nos casos estudados, inicia-se o tratamento dos dados aplicando a técnica de segmentação para separar as regiões de interesse. Para isso, foi utilizado a técnica de segmentação baseada em região com crescimento por regiões combinada com o uso de bouding box para o refinamento da segmentação (Granatyr; Alves, 2022). Na última imagem filtrada foi demarcada os ROIs dos objetos-alvo utilizando a caixa delimitadora para reduzir a área de interesse e melhorar a eficiência e precisão da segmentação, separando em duas imagens e aplicando a segmentação em cada uma delas, unindo-as no final. A segmentação foi realizada determinando três objetos de interesse, o fígado, o baço e as regiões de não interesse, sendo a última utilizada apenas para demarcar as demais estruturas, sendo excluída da segmentação final, possibilitando uma melhor demarcação das estruturas de análise. A Figura 34 mostra a segmentação do fígado e do baço para os dois casos. Figura 33 – Segmentação Grow From Seeds: (a) Paciente não-cirrótico; (b) Paciente cirrótico Fonte: Própria autora. No próprio software é possível visualizar as estruturas segmentadas numa visão volumétrica (3D), de tal forma a visualizar os objetos de interesse por todos os ângulos possíveis, tal como mostrado pela Figura 35. Figura 34 – Representação da Segmentação em 3D: (a) Paciente não-cirrótico; (b) Paciente cirrótico 65 Fonte: Própria autora. 6.6 Rotulagem Após a segmentação é feita a rotulagem das estruturas de interesse, onde é feita a extração das informações para serem utilizadas na síntese da rede neural. O rótulo atribui significado às diferentes partes segmentadas de uma imagem, ajudando a identificar, classificar e analisar estruturas específicas. Sendo realizada no próprio software, separa, exclusivamente, o fígado e o baço das demais estruturas para o treinamento de rede. A Figura 36 mostra a etapa final do tratamento das imagens com as extrações dos objetos. Figura 35 – Rotulagem da Segmentação e Extração das Estruturas: (a) Paciente não-cirrótico; (b) Paciente cirrótico Fonte: Própria autora. No contexto da classificação de imagens de TC abdominal para diferenciar pacientes cirróticos de não cirróticos, a segmentação prévia dos órgãos de interesse — fígado e baço — exerce um papel crucial. Ao realizar a segmentação antes do treinamento da rede, garante-se que o modelo irá focar exatamente nas regiões anatômicas mais relevantes, reduzindo o ruído causado por estruturas não relacionadas, como intestinos, músculos ou gordura abdominal. Isso aumenta a eficiência do aprendizado, melhora a precisão em bases pequenas, e fornece interpretabilidade clínica, permitindo entender se a rede está baseando sua decisão em sinais médicos válidos, como alterações de textura hepática ou esplenomegalia. Além disso, a segmentação permite a extração de medidas quantitativas e possibilita um diagnóstico mais confiável, principalmente em cenários onde a diferença entre as classes é sutil. Por outro lado, alimentar a rede com imagens não segmentadas acarreta riscos significativos. Embora o modelo ainda possa aprender a distinguir os casos, ele também pode se confundir com padrões irrelevantes e apresentar dificuldades para generalizar em novos dados. Isso acontece porque a rede pode focar em regiões erradas da imagem, aprender correlações espúrias, ou até supervalorizar artefatos de aquisição. A ausência de segmentação 66 dificulta também a validação clínica dos resultados, uma etapa essencial em aplicações médicas. Portanto, para obter um modelo robusto, interpretável e clinicamente confiável, a segmentação prévia do fígado e do baço é altamente recomendada nesse tipo de aplicação. 6.7 Síntese da Rede Neural Após todo o tratamento realizado, foi elaborado o algoritmo de treinamento através da IDE Jupyter, em linguagem python, uma CNN, onde foram criados três conjuntos de dados, sendo eles os dados de treino para realizar o treinamento do modelo neural, de validação para prevenir o overfitting e de teste para fazer uma avaliação do modelo final. Foi aplicada a técnica de data augmentation para realizar transformações de tal forma que fosse possível gerar cópias das imagens utilizadas, com variações de ruído e rotação partindo do banco de dados tratado, e treinar a rede para verificar a capacidade de classificação das imagens modificadas. O uso desta técnica foi devido a pouca quantidade de dados no conjunto original, aumentando o conjunto de dados artificialmente aplicando ruído gaussiano com 50% de chance de espelhar a imagem horizontalmente, e realizando o redimensionamento para otimizar o custo computacional e uniformizar as dimensões das imagens. Para a síntese de rede é determinada uma função para carregar e processar os dados de entrada, sendo eles dividido entre as imagens originais e os rótulos correspondentes, e como os arquivos DICOM tratam-se de dados tridimensionais, é realizada a interpolação dos dados, redimensionando as imagens. Em seguida é aplicado o data augmentation, aplicando no banco de dados original aumentado rotações, ruídos e redimensionamentos. O aumento de dados parte após a separação das imagens para treinamento de rede, validação e teste. A tabela 2 exibe essa distribuição antes do data augmentation. Tabela 2 - Distribuição dos Dados Conjunto Dados Dados Totais Treinamento Saudáveis: 6 Cirróticos: 5 11 Validação Saudáveis: 4 Cirróticos: 2 6 Teste Saudáveis: 5 Cirróticos: 3 8 Fonte: Própria autora. 67 É levado em conta nesta etapa o fato dos dados não se repetirem em múltiplos conjuntos, sendo a distribuição realizada antes do aumento de dados, de tal forma que o aumento das informações ocorre dentro de cada subconjunto. O aumento de informações é determinado diferentemente para cada conjunto, sendo o de treinamento responsável por ensinar a rede a aprender os padrões, ocorre um aumento maior em relação aos demais conjuntos, sendo aumentado em 20 vezes o tamanho original. Para os dados de validação é aplicado um aumento de 10 vezes do tamanho original, isso ocorre para que na verificação do treinamento a rede possa generalizar até para pequenas variações, e o conjunto de teste não é aumentado para refletir a situação real. Após isso é emitido a quantidade total de dados presentes nos três conjuntos, redimensionados para 128x128x128. Com isso, é construído o modelo neural a ser utilizado, sendo constituída com 6 camadas de convolução 3D, das quais 4 são formadas por 16 kernels cada de tamanho 3x3x3, e as outras 2 camadas possuindo, respectivamente, 32 e 128 kernels, cada uma de tamanho 3x3x3, correspondendo a hierarquia de aprendizado da CNN. Já a camada de MaxPooling possui uma resolução reduzida para 2x2x2 para restringir o custo computacional, e consequentemente, causando pouca perda de informação. Para verificar o funcionamento da rede são determinados métricas de desempenho, que são ferramentas usadas para avaliar a eficácia de modelos de classificação, tal como a acurácia, precisão sensibilidade, especificidade, F1-Score, early stopping, nº de épocas, otimizador batch e o AUC-ROC. Os valores encontrados sobre o desemprenho da rede podem ser observados no capítulo 7. 68 7. RESULTADOS Neste capítulo são apresentados os resultados obtidos pela rede neural, assim como os comentários sobre o seu funcionamento, possíveis limitações e detalhamento sobre as métricas de desempenho obtidas. 7.1. Resultados Obtidos Pela CNN-3D Após a realização do aumento do conjunto de dados partindo das imagens originais tratadas como cópias modificadas, foram emitidos a quantidade de dados totais de TC presentes nos conjuntos de treinamento, validação e teste, sendo os resultados exibidos pela Tabela 3. Tabela 3 - Quantidade Total de Dados Presentes nos Três Conjuntos Conjunto Dados Originais Dados Aumentados Total de Dados Treinamento Saudáveis: 6 Cirróticos: 5 Saudáveis: 120 Cirróticos: 100 231 Validação Saudáveis: 4 Cirróticos: 2 Saudáveis: 40 Cirróticos: 20 66 Teste Saudáveis: 5 Cirróticos: 3 Saudáveis: 5 Cirróticos: 3 8 Fonte: Própria autora. Sabendo que o banco de dados original utilizado é composto por 25 imagens no formato DICOM, tem-se um bom número de imagens geradas pela rede, totalizando 305 imagens utilizadas. A técnica foi aplicada como estratégia para aumentar a diversidade e a quantidade de dados para síntese da rede neural, especialmente diante da limitação de amostras disponíveis. Essa técnica consiste em gerar novas variações das imagens originais por meio de transformações como rotações, espelhamentos, redimensionamentos, adição de ruído e ajustes de brilho, mantendo as características essenciais da imagem. Com isso, busca-se reduzir o overfitting e melhorar a capacidade de generalização do modelo, tornando-o mais robusto a variações naturais presentes em dados reais. Essa abordagem é especialmente eficaz em tarefas de classificação, segmentação e detecção de imagens em deep learning. A seguir, pela Figura 37, são exibidas algumas informações sobre as camadas da CNN- 3D após a operação, tais como as dimensões de saída e os parâmetros treináveis. As camadas apresentadas trata-se das camadas de convolução (conv3d) que processam volumes tridimensionais, reduzindo ou extraindo características espaciais e volumétricas, BatchNormalization que normaliza os valores das ativações de saída da camada, MaxPooling3D que aplica a redução dimensional, Flatten que converte a matriz tensor em 69 vetor, Dense e Dropout que formam as camadas conectadas, sendo responsáveis por classificar as características extraídas pelas camadas convolucionais. Figura 36 - Informações das Camadas da CNN-3D Fonte: Própria autora. 70 A seguir, pela Figura 38 é possível observar que gráfico mostra a acurácia do modelo durante o treinamento e validação ao longo das épocas, revelando um caso de sobreajus