UNIVERSIDADE ESTADUAL PAULISTA - UNESP FACULDADE DE CIÊNCIAS - CAMPUS DE BAURU Miguel José das Neves eXAI: Uma Técnica Inovadora de Ensemble com Inteligência Artificial Explicável Aplicada à Visão Computacional em Contextos Críticos UNESP Bauru 2025 Miguel José das Neves eXAI: Uma Técnica Inovadora de Ensemble com Inteligência Artificial Explicável Aplicada à Visão Computacional em Contextos Críticos Tese apresentada à Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru, para obtenção do título de Doutor em Ciência da Computação, junto ao Programa de Pós-Graduação em Ciência da Computação desta universidade Área de Concentração: Computação Apli- cada Orientador: Prof. Dr. Kelton Augusto Pontara da Costa Coorientador: Prof. Dr. Felipe Rodrigues Perche Mahlow. UNESP Bauru 2025 N518e Neves, Miguel Jose das eXAI : Uma Técnica Inovadora de Ensemble com Inteligência Artificial Explicável Aplicada à Visão Computacional em Contextos Críticos / Miguel Jose das Neves. -- Bauru, 2025 63 f. Tese (doutorado) - Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru Orientador: Kelton Augusto Pontara da Costa Coorientador: Felipe Rodrigues Perche Mahlow 1. Aprendizagem profunda (Aprendizado do computador). 2. Inteligência artificial. 3. Redes neurais (Computação). I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a). À minha esposa, Kenia Maria C Neves, por seu amor incondicional, paciência infinita e por ser meu porto seguro em todos os momentos. E à minha filha, Juliana Neves, que com seu sorriso iluminou os dias mais desafiadores desta jornada. Vocês são minha maior inspiração. Aos meus pais, Jacira Batista das Neves e Miguel Sebastião das Neves (in memoriam), por terem me ensinado o valor do esforço e por serem a base de toda a minha jornada. Onde quer que estejam, sei que se orgulham deste momento. À minha sogra, Angela Maria P Labs, por me acolher como um filho, e ao meu sogro, Pedro Labs (in memoriam), cuja memória guardo com carinho. Agradeço também a todos os meus familiares pelo apoio fundamental. Ao Prof. Dr. Kelton Augusto Pontara da Costa, que foi muito mais que um orientador. Agradeço por sua mentoria, por sua paciência inestimável e por me guiar com maestria pelos desafios da pesquisa científica. Sou imensamente grato pela oportunidade de aprender com um profissional e ser humano tão exemplar. Resumo A crescente complexidade dos modelos de Aprendizado Profundo (deep learning), especialmente as Redes Neurais Convolucionais (CNNs), gerou um desafio fundamental em aplicações críticas: a falta de transparência e interpretabilidade de suas decisões. Esta tese aborda este problema ao propor um framework metodológico, o eXAI (Ensemble Explainable Artificial Intelligence), que visa desenvolver sistemas de análise de imagem que aliam alta performance preditiva à interpretabilidade. A metodologia proposta integra de forma sinérgica o deep learning com técnicas de Aprendizado de Conjunto (Ensemble Learning) e um ensemble de métodos de Inteligência Artificial Explicável (XAI), combinando o SHAP para atribuição em nível de pixel com o Grad-CAM para localização de regiões de interesse. A flexibilidade e a eficácia do framework eXAI são validadas através de dois estudos de caso em domínios distintos. O primeiro estudo de caso, focado no diagnóstico de Retinopatia Diabética, implementa uma arquitetura de stacking que combina as predições de uma CNN com dados clínicos estruturados, sendo o resultado final classificado por um meta-modelo LightGBM (LGBM). Esta abordagem multimodal demonstrou altíssima acurácia, e a análise XAI validou a relevância clínica dos fatores de decisão do modelo. O segundo estudo de caso, no domínio da forense digital, aplica uma CNN de classificação direta para detectar manipulações de imagem pela técnica de Seam Carving. Neste cenário, o XAI foi crucial para revelar que o modelo aprendeu a identificar artefatos de distorção estrutural, em vez de se basear no conteúdo semântico da imagem. Os resultados conjuntos demonstram que o framework eXAI é uma abordagem robusta e adaptável, capaz de gerar modelos de IA confiáveis para contextos críticos. Ao fornecer explicações compreensíveis e de múltiplas perspectivas, a metodologia contribui para aumentar a confiança e a utilidade prática da inteligência artificial tanto na área da saúde quanto na segurança da informação. Palavras-chave: Inteligência Artificial Explicável XAI. Ensemble Learning. Retinopatia Diabé- tica. Seam Carving. eXAI. Abstract The growing complexity of Deep Learning models, particularly Convolutional Neural Networks (CNNs), presents a fundamental challenge in critical applications: the opacity of their decision- making processes. This thesis addresses this interpretability gap by proposing and validating a methodological framework termed eXAI (Ensemble Explainable Artificial Intelligence), designed to create image analysis systems that merge high predictive performance with transparency. Con- ceptually inspired by Ensemble Learning, the framework’s novelty lies not in combining predictive models, but in synergistically integrating an ensemble of explainability methods—specifically combining SHAP for pixel-level attribution with Grad-CAM for region-level localization—to provide a multi-faceted interpretation of a single model’s decisions. The framework’s flexibility and efficacy are demonstrated through two case studies in distinct domains. The first, focused on Diabetic Retinopathy diagnosis, implements a stacking architecture that integrates deep visual features from a CNN with structured clinical data, classified by a LightGBM (LGBM) meta-model. This multimodal approach achieved outstanding accuracy, while the XAI analysis validated the clinical relevance of its decision factors. The second case study, in digital forensics, applies a direct classification CNN to detect Seam Carving image manipulations. Here, XAI was crucial in revealing that the model learned to identify subtle structural distortion artifacts rather than relying on semantic content. The collective results demonstrate that the eXAI framework is a robust and adaptable approach for building trustworthy AI models for critical contexts. By delivering comprehensive and understandable explanations, this methodology enhances the confidence in, and practical utility of, artificial intelligence in both healthcare and information security. Keywords: Explainable Artificial Intelligence (XAI), Ensemble Learning, Diabetic Retinopathy, Seam Carving, eXAI. Lista de ilustrações Figura 1 – Fluxo de trabalho geral do framework eXAI proposto, desde a entrada de dados até a análise de explicabilidade. O framework pode ser instanciado com um modelo CNN de classificação direta (Abordagem 1) ou um modelo Ensemble de Stacking (Abordagem 2). . . . . . . . . . . . . . . . . . . . 29 Figura 2 – Matrizes de confusão para os três modelos no conjunto de teste de RD: (a) Modelo Híbrido LGBM, (b) Modelo Pure CNN, e (c) Modelo Structured LGBM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Figura 3 – Curvas ROC para os três modelos avaliados no conjunto de teste de RD. . 37 Figura 4 – Gráfico de resumo SHAP para o modelo híbrido de RD, mostrando o impacto das características da CNN (e.g., cnn_feat_270) e das características clínicas. 38 Figura 5 – Visualização da Maximização de Ativação para camadas internas da CNN, revelando os padrões visuais aprendidos associados à Retinopatia Diabética. 39 Figura 6 – Visualização SHAP para a CNN, destacando regiões retinianas importantes para um caso negativo (topo) e um caso positivo (base). . . . . . . . . . . 40 Figura 7 – Arquitetura da Rede Neural Convolucional customizada para a detecção de Seam Carving. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Figura 8 – Curvas de acurácia e perda (loss) do modelo CNN durante o treinamento para o estudo de caso de Seam Carving. . . . . . . . . . . . . . . . . . . . 46 Figura 9 – Matrizes de confusão para o modelo CNN no conjunto de teste. A matriz à esquerda exibe as contagens brutas das predições. A matriz à direita apresenta os resultados normalizados, onde cada linha é normalizada pelo total da classe verdadeira; os valores na diagonal representam, portanto, a revocação (taxa de verdadeiros positivos) para cada classe. . . . . . . . . . 47 Figura 10 – Curva ROC (Receiver Operating Characteristic) para o modelo CNN no con- junto de teste. O alto valor de AUC (0.99) indica um excelente desempenho discriminativo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Figura 11 – Visualizações complementares do framework eXAI. (a) Imagem de entrada forjada. (b) Mapa de calor Grad-CAM, indicando regiões de interesse. (c) Mapa de atribuição SHAP, onde pixels vermelhos contribuíram para a classificação de fraude. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Lista de tabelas Tabela 1 – Compilação da pesquisa bibliográfica. . . . . . . . . . . . . . . . . . . . . 22 Tabela 2 – Resumo de trabalhos correlatos selecionados ilustrando o estado da arte. . 27 Tabela 3 – Hiperparâmetros utilizados no estudo de caso de Retinopatia Diabética. . . 35 Tabela 4 – Métricas de desempenho para os modelos avaliados no conjunto de teste de RD. C1 refere-se à classe RD-positivo (minoritária). . . . . . . . . . . . 35 Tabela 5 – Desempenho do Modelo Híbrido sob Compressão JPEG. . . . . . . . . . . 37 Tabela 6 – Hiperparâmetros utilizados no estudo de caso de Seam Carving. . . . . . . 45 Tabela 7 – Métricas de desempenho detalhadas para o modelo CNN no conjunto de teste de Seam Carving. . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Tabela 8 – Acurácia do modelo vs. Qualidade da Compressão JPEG. . . . . . . . . . . 48 Tabela 9 – Comparação de performance com métodos SOTA para detecção de Seam Carving. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Tabela 10 – Comparativo das abordagens nos dois estudos de caso. . . . . . . . . . . . 51 Lista de abreviaturas e siglas AUC Area Under the Curve (Área Sob a Curva) BRSET Brazilian Multilabel Ophthalmological Dataset CNN Rede Neural Convolucional (Convolutional Neural Network) eXAI Ensemble Explainable Artificial Intelligence HbA1c Hemoglobina Glicada IA Inteligência Artificial LGBM Light Gradient Boosting Machine RD Retinopatia Diabética RF Random Forest (Floresta Aleatória) ROC Receiver Operating Characteristic SHAP Shapley Additive Explanations VGG Visual Geometry Group XAI Inteligência Artificial Explicável (Explainable Artificial Intelligence) Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1 Problema de Pesquisa e Justificativa . . . . . . . . . . . . . . . . . . 13 1.1.1 Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Estrutura da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 17 2.1 Aprendizado Profundo para Visão Computacional . . . . . . . . . . . 17 2.1.1 Redes Neurais Convolucionais (CNNs) . . . . . . . . . . . . . . . . . . . . 17 2.1.2 Aprendizado por Transferência (Transfer Learning) . . . . . . . . . . . . . 18 2.2 Aprendizado de Conjunto (Ensemble Learning) . . . . . . . . . . . . 18 2.2.1 Modelos Baseados em Árvores: Random Forest e Gradient Boosting . . . . 18 2.2.2 Empilhamento (Stacking) . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Inteligência Artificial Explicável (XAI) . . . . . . . . . . . . . . . . . 19 2.3.1 SHAP (Shapley Additive Explanations) . . . . . . . . . . . . . . . . . . . 19 2.3.2 Grad-CAM (Gradient-weighted Class Activation Mapping) . . . . . . . . . 20 2.3.3 Maximização de Ativação (Activation Maximization) . . . . . . . . . . . . 20 2.4 Domínios de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4.1 Forense Digital e Detecção de Seam Carving . . . . . . . . . . . . . . . . 20 2.4.2 Diagnóstico Médico e Retinopatia Diabética . . . . . . . . . . . . . . . . . 20 3 REVISÃO DE LITERATURA E TRABALHOS CORRELATOS . . . 21 3.1 Metodologia da Revisão Sistemática . . . . . . . . . . . . . . . . . . 21 3.1.1 Bases de Dados e Critérios de Busca . . . . . . . . . . . . . . . . . . . . . 21 3.2 Análise Temática do Estado da Arte . . . . . . . . . . . . . . . . . . . 23 3.2.1 Detecção de Adulteração de Imagens com Foco em Seam Carving . . . . . 23 3.2.2 Diagnóstico Assistido por Computador de Retinopatia Diabética . . . . . . 23 3.2.3 Inteligência Artificial Explicável (XAI) em Visão Computacional . . . . . . 24 3.3 Discussão Detalhada dos Trabalhos Selecionados . . . . . . . . . . . 24 3.3.1 Ano base 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.2 Ano base 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.3 Ano base 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.4 Ano base 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.5 Ano base 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.4 Síntese da Literatura e Lacuna de Pesquisa . . . . . . . . . . . . . . 26 4 METODOLOGIA GERAL PROPOSTA . . . . . . . . . . . . . . . . 28 4.1 Visão Geral do Framework eXAI . . . . . . . . . . . . . . . . . . . . . 28 4.2 Construção e Preparação do Conjunto de Dados . . . . . . . . . . . 29 4.3 Arquitetura do Modelo Preditivo . . . . . . . . . . . . . . . . . . . . . 30 4.3.1 Abordagem 1: Modelo de Classificação Direta (CNN) . . . . . . . . . . . . 30 4.3.2 Abordagem 2: Modelo Ensemble de Stacking (CNN + Modelo Baseado em Árvores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.4 Framework de Explicabilidade eXAI . . . . . . . . . . . . . . . . . . . 31 4.4.1 Atribuição de Importância em Nível de Pixel com SHAP . . . . . . . . . . 31 4.4.2 Localização de Região de Interesse com Grad-CAM . . . . . . . . . . . . . 32 4.4.3 Visualização de Padrões Gerais com Maximização de Ativação . . . . . . . 32 4.5 Métricas de Avaliação de Desempenho . . . . . . . . . . . . . . . . . 32 5 ESTUDO DE CASO 1: DIAGNÓSTICO ASSISTIDO POR COM- PUTADOR DE RETINOPATIA DIABÉTICA . . . . . . . . . . . . . 33 5.1 Introdução ao Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . 33 5.2 Materiais e Métodos Específicos . . . . . . . . . . . . . . . . . . . . . 33 5.2.1 conjunto de dados e Preparação (BRSET) . . . . . . . . . . . . . . . . . . 33 5.2.2 Pré-processamento de Dados de Imagem e Clínicos . . . . . . . . . . . . . 34 5.2.3 Arquitetura do Modelo Híbrido (CNN-LGBM Stacking) . . . . . . . . . . . 34 5.3 Resultados e Análises . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.3.1 Avaliação Comparativa de Desempenho . . . . . . . . . . . . . . . . . . . 35 5.3.2 Análise de Robustez contra Compressão JPEG . . . . . . . . . . . . . . . . 37 5.4 Análise de Explicabilidade (Resultados do XAI) . . . . . . . . . . . . 38 5.4.1 Análise de Importância de características com SHAP . . . . . . . . . . . . 38 5.4.2 Padrões Visuais Aprendidos pela CNN . . . . . . . . . . . . . . . . . . . . 39 5.4.3 Custo Computacional e Reprodutibilidade . . . . . . . . . . . . . . . . . . 40 5.5 Discussão e Conclusão do Capítulo . . . . . . . . . . . . . . . . . . . 40 6 ESTUDO DE CASO 2: DETECÇÃO DE ADULTERAÇÃO DE IMA- GENS POR SEAM CARVING . . . . . . . . . . . . . . . . . . . . . 42 6.1 Introdução ao Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . 42 6.2 Materiais e Métodos Específicos . . . . . . . . . . . . . . . . . . . . . 42 6.2.1 Construção do conjunto de dados e Preparação . . . . . . . . . . . . . . . 42 6.2.2 Arquitetura e Treinamento do Modelo CNN . . . . . . . . . . . . . . . . . 43 6.3 Resultados e Análises . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.3.1 Análise do Treinamento e Desempenho no Teste . . . . . . . . . . . . . . 45 6.3.2 Análise de Robustez e Comparação com o Estado da Arte . . . . . . . . . 48 6.3.3 Análise de Explicabilidade (Resultados do eXAI) . . . . . . . . . . . . . . . 48 6.3.3.1 Análise Qualitativa com Grad-CAM e SHAP . . . . . . . . . . . . . . . . . . 48 6.3.3.2 Análise Quantitativa dos Mapas de Explicabilidade . . . . . . . . . . . . . . . 49 6.3.4 Custo Computacional e Reprodutibilidade . . . . . . . . . . . . . . . . . . 50 6.4 Discussão e Conclusão do Capítulo . . . . . . . . . . . . . . . . . . . 50 7 DISCUSSÃO GERAL E COMPARATIVA . . . . . . . . . . . . . . . 51 7.1 Análise Comparativa dos Resultados e Abordagens . . . . . . . . . . 51 7.2 O Papel Contextual do XAI: Insights Distintos para Problemas Distintos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7.3 Implicações e Contribuições Gerais para a Pesquisa . . . . . . . . . . 53 7.4 Limitações da Pesquisa e Trabalhos Futuros . . . . . . . . . . . . . . 53 8 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 8.1 Limitações e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . 55 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 1 Introdução A análise de imagens através de Inteligência Artificial (IA), especialmente com o uso de técnicas de Aprendizado Profundo (Deep Learning), revolucionou inúmeros campos. Modelos baseados em Redes Neurais Convolucionais (CNNs) alcançaram desempenho em nível humano, ou até sobre-humano, em tarefas de classificação, detecção e segmentação de imagens. No entanto, o sucesso desses modelos trouxe um desafio intrínseco: a sua complexidade. A natureza de caixa-preta das CNNs, onde o processo de tomada de decisão interna é opaco, representa uma barreira significativa para a sua adoção em aplicações críticas, onde a confiança, a segurança e a interpretabilidade são requisitos fundamentais (DOSHI-VELEZ; KIM, 2017a). Essa lacuna entre desempenho e transparência é particularmente evidente em domínios de alto risco. No diagnóstico médico assistido por computador, por exemplo, um clínico necessita não apenas de uma predição precisa, mas também de uma justificativa que possa validar e na qual possa confiar antes de tomar uma decisão sobre a saúde de um paciente. Similarmente, no campo da segurança da informação e forense digital, um analista precisa entender como um modelo detecta uma imagem adulterada para validar a detecção como evidência e para desenvolver defesas contra novas formas de manipulação. Para endereçar essa necessidade, o campo da Inteligência Artificial Explicável (XAI) emerge com o objetivo de desenvolver métodos e ferramentas para tornar os sistemas de IA mais transparentes, interpretáveis e confiáveis. Paralelamente, técnicas de Aprendizado de Conjunto (Ensemble Learning) têm se mostrado eficazes em aumentar a robustez e a acurácia dos modelos, combinando as forças de múltiplos classificadores (DIETTERICH, 2000). Esta tese se posiciona na interseção dessas áreas, propondo um framework metodológico flexível, denominado eXAI (Ensemble Explainable Artificial Intelligence), que integra o poder preditivo do Deep Learning com a robustez conceitual do Ensemble Learning e a transparência do XAI. O objetivo central é criar sistemas de análise de imagem que sejam não apenas precisos, mas cujas decisões possam ser compreendidas e validadas por especialistas humanos em seus respectivos domínios. 1.1 Problema de Pesquisa e Justificativa O problema central de pesquisa abordado nesta tese pode ser formulado da seguinte maneira: Como desenvolver um framework de inteligência artificial flexível que possa ser aplicado a diferentes problemas de classificação de imagens em domínios críticos, 14 garantindo simultaneamente alta acurácia preditiva e um alto grau de interpretabi- lidade para fomentar a confiança e a utilidade prática por parte de especialistas? A justificativa para esta pesquisa reside na crescente demanda por sistemas de IA responsáveis e confiáveis. Modelos que apenas fornecem uma saída binária (e.g., doença presente ou imagem adulterada) sem qualquer explicação são de utilidade limitada em contextos onde as consequências de um erro são graves. A capacidade de um modelo explicar por que ele chegou a uma conclusão é o que pode viabilizar sua transição de uma ferramenta de pesquisa para uma ferramenta de trabalho no mundo real, aumentando a colaboração humano-máquina (ARRIETA et al., 2020). 1.1.1 Hipótese Com base no problema de pesquisa delineado, a hipótese central que norteia este trabalho é a seguinte: A integração de modelos de Deep Learning (CNNs) com classificadores de Ensemble Learning, como o LightGBM ou o Random Forest, em arquiteturas flexíveis, a exemplo do stacking para dados multimodais e da classificação direta para dados unimodais, combinada com a aplicação dual de técnicas de XAI, permite a criação de sistemas de análise de imagem que não são apenas precisos, mas também transparentes e robustos. Valida-se que tal abordagem é suficientemente geral para ser eficaz em domínios distintos, como o diagnóstico médico e a forense digital, aumentando a confiança do usuário especialista e a utilidade prática da solução ao fornecer insights contextualmente relevantes para cada domínio. Para validar esta hipótese, o framework proposto é aplicado e avaliado em dois estudos de caso representativos: 1. Diagnóstico de Retinopatia Diabética: Um problema de diagnóstico médico multi- modal, onde imagens de retina são combinadas com dados clínicos do paciente para uma avaliação de risco. Neste cenário, a explicabilidade visa validar o raciocínio do modelo em relação ao conhecimento clínico, com o objetivo de auxiliar e dar confiança ao profissional de saúde. 2. Detecção de Adulteração de Imagens por Seam Carving : Um problema de forense digital unimodal, focado em detectar manipulações sutis em imagens (AVIDAN; SHAMIR, 2007). Para este caso, a explicabilidade se propõe a revelar a estratégia interna do detector e a identificar os artefatos da manipulação, garantindo que o modelo não utilize atalhos espúrios em sua decisão. 15 A escolha desses dois domínios permite testar e demonstrar como o framework eXAI se adapta a cenários com diferentes características de dados (multimodal vs. unimodal) e diferentes necessidades de explicação (validação clínica vs. revelação de estratégia), oferecendo evidências para a generalidade e eficácia da hipótese. 1.2 Objetivos Com base no problema de pesquisa delineado, os objetivos desta tese são definidos da seguinte forma: 1.2.1 Objetivo Geral Desenvolver e validar um framework metodológico de Inteligência Artificial Explicável (eXAI) que integre técnicas de Deep Learning e Ensemble Learning para a classificação de imagens, com foco em fornecer alta acurácia e interpretabilidade em aplicações de domínios críticos. 1.2.2 Objetivos Específicos • Investigar e modelar uma arquitetura de ensemble de stacking, utilizando CNN e clas- sificadores baseados em árvores, para problemas de classificação de imagens que se beneficiem da integração de dados multimodais. • Investigar e modelar uma arquitetura de classificação direta com CNN para problemas de classificação baseados unicamente em características visuais. • Integrar sistematicamente técnicas de XAI, como SHAP e Grad-CAM, e complementar- mente a Maximização de Ativação, em ambas as arquiteturas para analisar o processo de decisão dos modelos. • Aplicar e validar o framework proposto em um estudo de caso de diagnóstico médico de Retinopatia Diabética, avaliando seu desempenho e a relevância clínica de suas explicações. • Aplicar e validar o framework proposto em um estudo de caso de segurança da informação para detecção de Seam Carving, avaliando sua precisão e os insights forenses fornecidos pelas explicações. • Realizar uma análise comparativa dos resultados para discutir a generalidade, flexibilidade e as implicações do framework eXAI. 16 1.3 Estrutura da Tese Este documento está organizado da seguinte forma para apresentar a pesquisa de maneira clara e lógica: O Capítulo 2 apresenta a fundamentação teórica, revisando os conceitos essenciais de Deep Learning, Ensemble Learning, Inteligência Artificial Explicável, e os domínios de aplicação (Retinopatia Diabética e Seam Carving). O Capítulo 3 analisa o estado da arte nas áreas de aplicação, contextualizando a pesquisa e identificando a lacuna na literatura que este trabalho se propõe a preencher. O Capítulo 4 detalha a metodologia geral do framework eXAI proposto, descrevendo seus componentes, arquiteturas de modelo e protocolo de avaliação e explicação. O Capítulo 5 apresenta o primeiro estudo de caso, detalhando a aplicação do framework para o diagnóstico de Retinopatia Diabética, incluindo a metodologia específica, os resultados e a discussão. O Capítulo 6 apresenta o segundo estudo de caso, focado na detecção de adulteração de imagens por Seam Carving, seguindo a mesma estrutura de apresentação. O Capítulo 7 realiza uma discussão geral e comparativa dos achados de ambos os estudos de caso, sintetizando as contribuições e as implicações do trabalho. Finalmente, o Capítulo 8 resume as conclusões da tese, reforça as contribuições e aponta direções para trabalhos futuros. 2 Fundamentação Teórica Este capítulo apresenta os fundamentos teóricos que sustentam a pesquisa desenvolvida nesta tese. O objetivo é fornecer ao leitor o embasamento necessário para a compreensão da metodologia proposta e dos estudos de caso subsequentes. São abordados os conceitos essenciais de Aprendizado Profundo para Visão Computacional, com foco em Redes Neurais Convolucionais; as estratégias de Aprendizado de Conjunto (Ensemble Learning), incluindo Random Forest e Stacking ; e os princípios e técnicas de XAI. Adicionalmente, serão contextua- lizados os domínios de aplicação explorados, estabelecendo o alicerce conceitual sobre o qual a contribuição prática desta pesquisa foi construída. 2.1 Aprendizado Profundo para Visão Computacional O Aprendizado Profundo (Deep Learning) é um subcampo do aprendizado de máquina que utiliza redes neurais artificiais com múltiplas camadas (profundas) para modelar e resolver problemas complexos (RUSSELL; NORVIG, 2004). Essas redes são capazes de aprender representações hierárquicas de dados, o que lhes permite extrair e reconhecer padrões e relacionamentos complexos, de forma análoga ao cérebro humano. Nos últimos anos, o Deep Learning tornou-se proeminente devido à crescente disponibilidade de grandes volumes de dados e ao avanço do poder computacional, alcançando desempenho de ponta em tarefas como classificação de imagens, detecção de objetos e tradução de idiomas. 2.1.1 Redes Neurais Convolucionais (CNNs) Uma CNN é uma classe de rede neural profunda, inspirada no córtex visual humano, e representa a arquitetura predominante para tarefas de visão computacional (LECUN et al., 1998). Sua eficácia reside na capacidade de aprender automaticamente um conjunto de filtros (kernels) que detectam hierarquias de características visuais a partir dos dados de entrada. A arquitetura de uma CNN é tipicamente composta por uma sequência de camadas, sendo as principais: • Camada de Convolução: Aplica um conjunto de filtros sobre a imagem de entrada para criar mapas de características (feature maps). Cada filtro é especializado em detectar um padrão específico, como bordas, texturas ou formas. • Função de Ativação: Após a convolução, uma função de ativação não-linear é aplicada a cada elemento do mapa de características. A mais comum é a Unidade Linear Retificada 18 (ReLU - Rectified Linear Unit), que introduz não-linearidade no modelo, permitindo o aprendizado de padrões mais complexos (NAIR; HINTON, 2010). • Camada de Agrupamento (Pooling): Reduz a dimensionalidade espacial dos mapas de características, tornando a representação mais compacta e invariante a pequenas translações. A técnica mais comum é o Max Pooling, que seleciona o valor máximo de uma vizinhança. • Camada Totalmente Conectada (Fully Connected): Após várias camadas de convolução e pooling, os mapas de características são achatados (flattened) em um vetor e passados para uma ou mais camadas densas, que realizam a classificação final com base nas características extraídas. 2.1.2 Aprendizado por Transferência (Transfer Learning) O treinamento de uma CNN profunda do zero requer um volume massivo de dados rotulados e alto custo computacional. Uma estratégia eficaz para contornar essa limitação é o aprendizado por transferência (transfer learning). Esta técnica consiste em utilizar uma rede neural já treinada em um grande conjunto de dados de referência, como a ImageNet, e adaptá-la para uma nova tarefa específica. A intuição é que as camadas iniciais da rede pré-treinada aprenderam a detectar características visuais genéricas (bordas, texturas, cores) que são úteis para uma vasta gama de problemas de visão computacional. Nesta abordagem, a base convolucional da rede pré-treinada é geralmente congelada (seus pesos não são atualizados), e apenas as camadas de classificação no topo são substituídas e treinadas com os dados da nova tarefa. Modelos como a VGGNet (SIMONYAN; ZISSERMAN, 2015) são comumente utilizados como extratores de características de base neste processo, servindo como um ponto de partida poderoso para o desenvolvimento de modelos em domínios com dados mais limitados, como a área médica. 2.2 Aprendizado de Conjunto (Ensemble Learning) O Ensemble Learning é uma técnica de aprendizado de máquina onde múltiplos modelos individuais são combinados para produzir uma predição final. A premissa fundamental é que, ao combinar as opiniões de vários modelos, o sistema resultante pode alcançar maior acurácia, robustez e capacidade de generalização do que qualquer modelo único conseguiria isoladamente (DIETTERICH, 2000). 2.2.1 Modelos Baseados em Árvores: Random Forest e Gradient Boosting Uma árvore de decisão é um modelo preditivo que mapeia observações sobre um item para conclusões sobre seu valor alvo. Para evitar o sobreajuste de uma única árvore, métodos 19 de ensemble são frequentemente utilizados. O Random Forest, proposto por Breiman (2001), constrói uma infinidade de árvores de decisão em subconjuntos de dados e de características, e a predição final é dada pela votação majoritária. Outra abordagem poderosa é o Gradient Boosting, onde modelos são adicionados sequencialmente para corrigir os erros dos modelos anteriores. O LightGBM (LGBM), utilizado nesta tese, é uma implementação altamente eficiente de gradient boosting (KE et al., 2017). 2.2.2 Empilhamento (Stacking) O empilhamento, ou Stacking, é uma técnica de ensemble que visa aprender a melhor forma de combinar as predições de múltiplos modelos. A arquitetura consiste em dois níveis: • Nível 0 (Modelos Base): Vários modelos diferentes são treinados no conjunto de dados de treinamento. As predições geradas por eles são coletadas. • Nível 1 (Meta-Classificador): Um novo modelo (o meta-classificador) é treinado usando as predições dos modelos base como suas características de entrada, aprendendo a melhor forma de combiná-las. Na abordagem híbrida desta tese (Estudo de Caso 1), a CNN atua como um modelo base de Nível 0, e um classificador baseado em árvores de decisão, como o LightGBM, atua como o meta-classificador de Nível 1. 2.3 Inteligência Artificial Explicável (XAI) XAI é uma área de pesquisa focada no desenvolvimento de sistemas de IA que sejam mais transparentes, interpretáveis e confiáveis. A natureza de "caixa-preta"de modelos complexos como os de Deep Learning é uma barreira para sua adoção em aplicações de alto risco, como saúde e forense, onde as consequências de uma decisão errada são graves (DOSHI-VELEZ; KIM, 2017b). O objetivo do XAI é desenvolver métodos para que os sistemas de IA possam explicar suas decisões de forma compreensível. 2.3.1 SHAP (Shapley Additive Explanations) O SHAP é uma abordagem unificada para explicar a saída de qualquer modelo de aprendizado de máquina, introduzida por Lundberg e Lee (2017). Baseado nos valores de Shapley da teoria dos jogos, o SHAP atribui a cada feature um valor de importância para uma predição particular, quantificando seu impacto. O método garante propriedades desejáveis como precisão local e consistência. Existem implementações otimizadas como o TreeExplainer para modelos baseados em árvores e o GradientExplainer para redes neurais. 20 2.3.2 Grad-CAM (Gradient-weighted Class Activation Mapping) O Grad-CAM é uma técnica de visualização que produz "mapas de calor"para identificar as regiões de uma imagem de entrada que foram mais importantes para uma determinada predição. Ele utiliza os gradientes que fluem para a última camada convolucional da CNN para entender a importância de cada feature map. O resultado é um mapa de ativação que destaca visualmente "onde"o modelo está olhando para tomar sua decisão, sendo uma ferramenta poderosa para a localização de evidências visuais. 2.3.3 Maximização de Ativação (Activation Maximization) A Maximização de Ativação é uma técnica de visualização que ajuda a entender o que os filtros de uma CNN aprenderam a detectar de forma geral. A técnica gera uma imagem sintética que maximiza a ativação de um neurônio ou filtro específico, partindo de uma imagem de ruído (ERHAN et al., 2009). A imagem resultante representa o padrão visual "ideal"para aquele filtro, fornecendo uma visão direta dos conceitos, como texturas e formas, que a rede aprendeu durante o treinamento. 2.4 Domínios de Aplicação Para demonstrar a validade e a versatilidade do framework proposto, ele foi implemen- tado e avaliado em dois domínios de aplicação distintos. A seleção desses cenários permite uma análise comparativa rica sobre como a metodologia se adapta a diferentes tipos de dados e necessidades de interpretabilidade. 2.4.1 Forense Digital e Detecção de Seam Carving O Seam Carving é uma técnica de redimensionamento de imagens ciente do conteúdo, introduzida por Avidan e Shamir (2007). O algoritmo remove ou insere caminhos de pixels de baixa energia (seams), permitindo redimensionar a imagem enquanto preserva o conteúdo importante. No entanto, ele introduz artefatos estruturais sutis, cuja detecção é um problema relevante em forense digital. 2.4.2 Diagnóstico Médico e Retinopatia Diabética A Retinopatia Diabética (RD) é uma complicação microvascular do diabetes mellitus que afeta os vasos sanguíneos da retina, sendo uma das principais causas de cegueira em adultos (YAU et al., 2012). O diagnóstico precoce é realizado através da análise de retinografias em busca de lesões características. Fatores de risco clínicos, como a idade do paciente e o tempo de diagnóstico do diabetes, são cruciais para a avaliação da progressão da doença. 3 Revisão de Literatura e Trabalhos Correla- tos Este capítulo apresenta uma revisão da literatura científica que fundamenta esta tese, analisando o estado da arte nas áreas de detecção de adulteração de imagens, diagnóstico de Retinopatia Diabética e Inteligência Artificial Explicável (XAI). A análise dos trabalhos existentes é crucial para contextualizar a pesquisa, identificar as tendências atuais e, mais importante, apontar a lacuna na literatura que este trabalho se propõe a preencher. Para garantir o rigor e a reprodutibilidade, foi adotada uma metodologia de Revisão Sistemática, conforme detalhado na seção a seguir. As seções subsequentes apresentam a análise temática dos trabalhos encontrados, uma discussão detalhada das contribuições mais relevantes e a síntese final que define o escopo desta tese. 3.1 Metodologia da Revisão Sistemática Este processo foi desenvolvido por meio do estudo de obras correlatas a fim de possibilitar embasamento para esta pesquisa. Em seu trabalho, Kitchenham e Charters (2007) enfatizam a necessidade de definir critérios para realizar uma busca de forma confiável, permitindo que outros pesquisadores possam reproduzi-la. Este procedimento visa justificar a pesquisa, fornecendo uma base de dados explorada de forma confiável através de protocolos definidos (BIOLCHINI et al., 2005). 3.1.1 Bases de Dados e Critérios de Busca A pesquisa foi conduzida nas principais bases de publicações científicas da área da computação: IEEE Xplore, ACM Digital Library, Science Direct, SpringerLink, MDPI e Taylor & Francis. A busca foi estruturada para abranger os três conceitos centrais da tese: Seam Carving, Deep Learning e XAI. A Tabela 1 detalha os parâmetros e os resultados quantitativos da busca inicial, que retornou 145 trabalhos. A baixa sobreposição entre os três conceitos evidenciou o caráter inédito da pesquisa. 22 Tabela 1 – Compilação da pesquisa bibliográfica. Base de Da- dos Parâmetros de Busca Semântica Período Trabalhos IEEE e ACM Seam Carving OR de- tection seam carving AND machine learning Palavra- chave e Título 2016– 2021 58 Science Direct (Mesmos acima) Palavra- chave e Título 2016– 2021 6 SpringerLink (Mesmos acima) Palavra- chave e Título 2016– 2021 26 MDPI (Mesmos acima) Palavra- chave e Título 2016– 2021 13 Taylor & Fran- cis (Mesmos acima) Palavra- chave e Título 2016– 2021 2 IEEE e ACM XAI AND Deep Lear- ning Título e Palavra- chave 2016– 2021 9 Science Direct XAI AND Deep Lear- ning Título e Palavra- chave 2016– 2021 20 SpringerLink XAI AND Deep Lear- ning Título e Palavra- chave 2016– 2021 8 MDPI XAI AND Deep Lear- ning Título e Palavra- chave 2016– 2021 3 Taylor & Fran- cis XAI AND Deep Lear- ning Título e Palavra- chave 2016– 2021 0 Fonte: Elaborado pelo autor (2025). Após a busca, foi realizada a leitura e a filtragem dos artigos com base nos seguintes critérios de exclusão: • O trabalho não se referia a pelo menos um dos conceitos de interesse ou não estabelecia nenhuma relação com os outros. • O trabalho não discutia ou mostrava alguma aplicação de Deep Learning, base algorítmica desta tese. Ao final do processo, 40 artigos foram selecionados por sua relevância e contribuição. 23 3.2 Análise Temática do Estado da Arte 3.2.1 Detecção de Adulteração de Imagens com Foco em Seam Carving A detecção de manipulações do tipo seam carving é um problema desafiador em forense digital, pois os artefatos introduzidos são frequentemente sutis e estruturais. A literatura inicial sobre o tema focava em métodos de processamento de imagens e aprendizado de máquina clássico. Trabalhos como o de Chen e Grauman (2018) exploraram o uso de classificadores como SVM (Support Vector Machine) e ELM (Extreme Learning Machine), alimentados por características extraídas manualmente a partir de patches da imagem, como as baseadas no operador Sobel ou em matrizes de probabilidade. Embora tenham alcançado algum sucesso, esses métodos dependem fortemente da qualidade da engenharia de características e podem não generalizar bem para diferentes tipos de imagem. Com o advento do Deep Learning, a abordagem predominante migrou para o uso de Redes Neurais Convolucionais (CNNs). A principal vantagem das CNNs é sua capacidade de aprender automaticamente as características relevantes diretamente dos dados. Trabalhos pioneiros, como o de Cieslak, Costa e Papa (2018), demonstraram a viabilidade de usar CNNs para esta tarefa. Pesquisas subsequentes, como a de Nam et al. (2019a), focaram em projetar arquiteturas de CNN específicas para capturar os artefatos de alta frequência e as distorções estatísticas deixadas pela remoção ou inserção de seams, frequentemente superando os métodos clássicos em precisão e robustez. 3.2.2 Diagnóstico Assistido por Computador de Retinopatia Diabética O uso de IA para o diagnóstico de Retinopatia Diabética (RD) é uma das áreas mais maduras da oftalmologia computacional. A vasta maioria dos trabalhos no estado da arte utiliza CNNs para classificar a presença e a severidade da RD a partir de imagens de retinografia (SENAPATI et al., 2024). A evolução nesse campo seguiu a tendência geral do Deep Learning, passando de arquiteturas mais simples para modelos mais profundos e complexos, como ResNet, e mais recentemente, explorando arquiteturas baseadas em atenção e transformers (NAZIH et al., 2023). Uma vertente particularmente relevante para esta tese é a de modelos multimodais. Reconhecendo que o diagnóstico médico raramente se baseia em uma única fonte de informação, pesquisadores começaram a desenvolver modelos híbridos que combinam dados de imagem com dados clínicos estruturados. O trabalho de Tan, Lim e Ting (2023), por exemplo, demonstrou que a integração de variáveis como idade, duração do diabetes e níveis de HbA1c com as predições de uma CNN melhora significativamente o desempenho do classificador de RD. Essa abordagem sinérgica é um pilar central do primeiro estudo de caso desta tese. 24 3.2.3 Inteligência Artificial Explicável (XAI) em Visão Computacional À medida que os modelos de Deep Learning se tornaram mais precisos, a preocupação com sua natureza opaca cresceu, impulsionando o campo do XAI. O objetivo do XAI é fornecer transparência e interpretabilidade às decisões dos modelos de IA. Na visão computacional, os métodos de XAI podem ser amplamente categorizados. Trabalhos pioneiros focaram em métodos baseados em gradientes, como os mapas de saliência, que destacam os pixels de uma imagem de entrada que mais influenciam a saída. Técnicas mais avançadas, como o Grad-CAM, melhoraram essa abordagem ao produzir mapas de calor mais localizados e semanticamente significativos. Outra classe de métodos, na qual esta tese se baseia, foca na atribuição de importância de características. O SHAP (Shapley Additive Explanations) (LUNDBERG; LEE, 2017) se destaca por sua base teórica sólida na teoria dos jogos e por sua flexibilidade. Trabalhos como os de Quellec et al. (2021) e Niu et al. (2022) demonstram a aplicação de diferentes técnicas de XAI, incluindo sistemas baseados em casos (CBR), para fornecer explicações em contextos de imagens médicas, ressaltando a importância da interação humano-computador para a confiança no sistema. 3.3 Discussão Detalhada dos Trabalhos Selecionados A leitura dos 40 artigos selecionados trouxe diversas considerações que embasam a pesquisa. A seguir, uma análise cronológica das principais contribuições. 3.3.1 Ano base 2017 O trabalho (NGUYEN; KANKANHALLI, 2017) desenvolve um paralelo de metodologias de comparação de imagens baseadas no mapa de saliência da imagem. A motivação baseia-se no princípio de que se as imagens têm semelhanças, seus mapas de saliência também têm semelhanças. Ainda o trabalho (SASAKI et al., 2017) apresenta uma técnica CNN para extrair uma camada para fornecer parâmetros a um algoritmo SVM para classificar as estruturas de corte de costura. 3.3.2 Ano base 2018 Em (ADADI; BERRADA, 2018) foi apresentado um estudo sobre XAI com 381 artigos, discutindo a importância do tema, mas registrando que a ideia de XAI naquela época ainda era inexplorada e indefinida. O artigo em (WEBER et al., 2018) discute a ideia de uso de XAI com base no conceito de Raciocínio Baseado em Casos (CBR) para categorizar a interpretação de texto. Em (LI et al., 2018) tem-se uma proposta de Seam Carving baseada em um algoritmo genético, com desempenho superior aos métodos tradicionais. O objetivo do artigo (CAI; 25 KONG; WANG, 2018) envolve a aplicação de dois fluxos de rede para otimizar a detecção de clipes de ação em vídeos. O estudo (FURUTA; TSUBAKI; YAMASAKI, 2018) propõe aplicar o algoritmo multipass como alternativa ao Seam Carving, focando em ganho computacional. Um trabalho de Seam Carving (WEI; CHOU; SU, 2018) propõe um esquema multioperador para determinar as áreas de corte baseado em mapa de saliência. A pesquisa (WEN; SU, 2018) desenvolve uma melhoria no processo de análise estatística de dados de imagem para aprimorar o dimensionamento de objetos. O trabalho (ERTORK; ERTORK, 2018) propõe a utilização do algoritmo KRX para redução de imagens com preservação de anomalias. O algoritmo OCAIR foi apresentado em (ROY; DASGUPTA; PRADHAN, 2018) combinando cortes gráficos iterativos (Grabcut) (ROTHER; KOLMOGOROV; BLAKE, 2004) para obter melhores resultados em velocidade. A pesquisa em Sun et al. (2018) teve como objetivo criar um método de identificação de adulteração de imagem com CNN, superando métodos anteriores. A pesquisa (CHENG et al., 2018) aborda uma aplicação em ELM para melhorar os métodos de detecção de Seam Carving, superando o SVM em precisão e velocidade. O trabalho (CHOI; EUN; KIM, 2018) propõe o uso de CNN para identificação de cárie em imagens de radiografias. Um trabalho pioneiro de Cieslak, Costa e Papa (2018) demonstrou a detecção de Seam Carving por meio de uma CNN, com resultados satisfatórios. O estudo (CHEN; GRAUMAN, 2018) explora o reconhecimento de imagens para identificar objetos sob interação de pessoas na cena. O problema explorado no estudo (WALIA; KUMAR, 2018) é identificar a adulteração de imagens trabalhadas por Seam Carving vertical usando CNN e ResNet v2. 3.3.3 Ano base 2019 O método proposto em (SCHLEGEL et al., 2019) apresenta uma forma de avaliar alguns métodos XAI existentes. O trabalho (CHITTAJALLU et al., 2019) apresenta uma proposta de um aplicativo XAI que utiliza CNN ResNet para ranquear imagens de similaridade de procedimentos cirúrgicos. Os autores (LAMY et al., 2019) demonstram a construção de um CBR para uso em medicina, como no diagnóstico de câncer de mama. Este trabalho (KEANE; KENNY, 2019) foca em uma revisão de literatura envolvendo RNA e CBR, notando que as aplicações de XAI ainda não seguiam um padrão. O artigo (SONG; LEE; LEE, 2019) propõe a utilização da CNN para montar o mapa de energia das imagens para realizar redimensionamento e recorte. O trabalho (IQBAL et al., 2019) considera uma CNN baseada em TensorFlow para permitir que o processamento de Seam Carving seja usado em dispositivos portáteis. A pesquisa (JAGTAP; TRIPATHI, 2019) propõe uma abordagem de RNA para redimensionamento de imagens com preservação do campo semântico. Este artigo (NAM et al., 2019b) apresenta uma proposta para identificar o Seam Carving usando uma CNN, com resultados superiores a métodos anteriores. O método proposto em (WEI; CHENG; CHANG, 2019) utiliza uma rede Hopfield para identificar se as imagens foram esculpidas com costuras e detectar essas costuras. Uma abordagem para detectar Seam Carving usando CNN é proposta em (YE et al., 2019), com resultados melhores que abordagens anteriores baseadas em SVM. 26 3.3.4 Ano base 2020 Este trabalho (DAVIS et al., 2020) propõe que a confiança em sistemas de IA deve ser medida pela utilidade da explicação do modelo. O artigo (FUTIA; VETRO, 2020) apresenta a proposta de utilizar Knowledge Graphs como uma ferramenta XAI para tornar o entendimento de algoritmos mais compreensível. O trabalho (WANG; NIU; WANG, 2021) baseia-se no uso da CNN para identificar adulterações de imagens causadas por métodos de pintura. A pesquisa (MYERS-DEAN; WEHRWEIN, 2020) explora o uso de CNN baseado em distâncias de pixel para combinar Seam Carving semântico com escala de mapa RGB. A CNN é explorada em (NAM et al., 2020) para identificar o Seam Carving de três maneiras (original, inserido e removido) através de uma rede customizada, a ILFNet. É proposto um trabalho com a CNN em (NAZARİ; AKGÜN, 2020) que fornece quatro classes de resultados em entalhe por retalho de costura (0%, 10%, 20% e 40%). 3.3.5 Ano base 2021 Um estudo XAI (KENNY et al., 2021) considera os usuários e suas reações ao entender as explicações, propondo um método cognitivo baseado em modelo mental. O aplicativo (YEOM et al., 2019) demonstra uma técnica de remoção em camadas de CNN usando o método de visualização LRP. A pesquisa (BAKALO; GOLDBERGER; BEN-ARI, 2021) propõe um método de duas redes profundas para a tarefa de classificação do câncer de mama. A revisão em (JAM et al., 2021) destaca o uso de métodos de Deep Learning para detectar pinturas em imagens, mas aponta a falta de informações para reprodutibilidade nos trabalhos. Este trabalho (JOUIS et al., 2021) realizou testes em modelos XAI de caixa branca e caixa preta (CNN), destacando a importância da avaliação do usuário. Este estudo (BIACH et al., 2021) demonstra um método codificador/decodificador (Fals-Unet) para identificar alterações em imagens, baseado na arquitetura Resnet50. O trabalho (ZHAO, 2021) é desenvolvido para juntar várias imagens em uma foto panorâmica no celular, empregando uma técnica de costura semelhante ao Seam Carving. 3.4 Síntese da Literatura e Lacuna de Pesquisa A análise da literatura revela que, embora haja um corpo de trabalho substancial em cada uma das áreas supracitadas, a intersecção entre elas é limitada. Existem modelos para detecção de seam carving, modelos para diagnóstico de RD e uma variedade de técnicas de XAI. No entanto, a revisão sistemática indicou que poucos trabalhos realizam uma aplicação e, principalmente, uma análise comparativa de um mesmo framework metodológico de XAI em domínios de aplicação tão distintos. A Tabela 2 resume alguns dos trabalhos selecionados que formam o contexto desta pesquisa. 27 Tabela 2 – Resumo de trabalhos correlatos selecionados ilustrando o estado da arte. Referência Domínio/Foco Técnica Principal e Contribui- ção Cieslak, Costa e Papa (2018) Detecção de Seam Carving Demonstra o uso de CNNs para a tarefa. Cheng et al. (2018) Detecção de Seam Carving Utiliza ELM e SVM com caracte- rísticas extraídas manualmente. Tan, Lim e Ting (2023) Retinopatia Diabética Propõe modelo multimodal (CNN + Dados Clínicos) para predição de risco. Quellec et al. (2021) XAI em Imagem Médica Desenvolve modelo XAI custo- mizado (ExplAIn) para explicar classificação de severidade. Fonte: Elaborado pelo autor (2025). A lacuna de pesquisa que esta tese visa preencher é, portanto, a seguinte: falta um estudo que não apenas proponha um framework flexível (o eXAI) capaz de se adaptar a problemas unimodais e multimodais, mas que também compare os tipos de insights que as mesmas técnicas de XAI (SHAP e Maximização de Ativação) podem gerar em contextos diferentes. Ou seja, como a explicação de um modelo de segurança da informação difere da explicação de um modelo de diagnóstico médico? A resposta a essa pergunta constitui a principal contribuição original desta tese ao campo do XAI. 4 Metodologia Geral Proposta Este capítulo detalha a metodologia geral proposta nesta tese para o desenvolvimento e avaliação de sistemas de Inteligência Artificial Explicável (XAI) aplicados à classificação de imagens em contextos críticos. O framework aqui descrito, denominado eXAI, é projetado para ser flexível e aplicável a diferentes domínios, conforme demonstrado nos estudos de caso subsequentes sobre o diagnóstico médico de Retinopatia Diabética (Capítulo 5) e a detecção de adulteração de imagens por Seam Carving (Capítulo 6). A abordagem central combina o poder de representação das CNNs com a robustez de técnicas de Ensemble Learning e a transparência de métodos de XAI. O objetivo é criar modelos que não apenas alcancem alta acurácia, mas que também forneçam insights compreensíveis sobre seu processo de tomada de decisão, aumentando a confiança e a utilidade em aplicações do mundo real. 4.1 Visão Geral do Framework eXAI O fluxo de trabalho do framework eXAI é modular e compreende quatro etapas principais, sendo elas: (1) Construção e Preparação do Conjunto de Dados, (2) Arquitetura do Modelo Preditivo, (3) Protocolo de Avaliação de Desempenho, e (4) Análise de Explicabilidade. A Figura 1 ilustra a inter-relação dessas etapas e as duas principais instanciações do framework exploradas nesta tese. 29 Figura 1 – Fluxo de trabalho geral do framework eXAI proposto, desde a entrada de dados até a análise de explicabilidade. O framework pode ser instanciado com um modelo CNN de classificação direta (Abordagem 1) ou um modelo Ensemble de Stacking (Abordagem 2). Fonte: Elaborado pelo autor (2025). As seções a seguir detalham cada um desses componentes metodológicos. 4.2 Construção e Preparação do Conjunto de Dados A base de qualquer modelo de aprendizado de máquina é um conjunto de dados bem preparado e representativo do problema. Os passos gerais para esta etapa, aplicados em ambos 30 os estudos de caso, incluem os itens a seguir. • Coleta e Definição dos Dados: Consiste na obtenção das imagens e dos metadados associados, quando existentes. A tarefa de classificação é definida, sendo que nesta tese ambas as tarefas são binárias. • Pré-processamento de Imagens: Inclui o redimensionamento das imagens para uma dimensão uniforme, como por exemplo 224 × 224 ou 256 × 256 pixels, e a normalização dos valores dos pixels para o intervalo [0, 1]. O pré-processamento de dados clínicos, quando aplicável, inclui etapas de limpeza, padronização (z-score) e imputação de valores ausentes. • Aumento de Dados (Data Augmentation): Para o conjunto de treinamento, técnicas de aumento de dados, tais como rotações, zooms e espelhamentos aleatórios, são aplicadas para aumentar a diversidade dos dados e reduzir o risco de overfitting (SHORTEN; KHOSHGOFTAAR, 2019). • Tratamento de Desbalanceamento de Classes: Em cenários com classes desba- lanceadas, como no estudo de caso de RD, técnicas de reamostragem são aplicadas exclusivamente ao conjunto de treinamento para mitigar o viés do modelo. Estas podem incluir o sobre-amostragem (oversampling) da classe minoritária e/ou a sub-amostragem (undersampling) da classe majoritária (BUDA; MAKI; MAZUROWSKI, 2018). • Divisão dos Dados: O conjunto de dados é dividido em subconjuntos de treinamento, validação e teste. É crucial que o conjunto de teste não sofra reamostragem para que a avaliação do modelo reflita seu desempenho em um cenário com a distribuição de classes original. 4.3 Arquitetura do Modelo Preditivo O framework eXAI explora duas arquiteturas principais de modelo preditivo, demons- trando sua flexibilidade para problemas unimodais e multimodais. 4.3.1 Abordagem 1: Modelo de Classificação Direta (CNN) Nesta abordagem, uma CNN é treinada para realizar a tarefa de classificação de ponta a ponta. A arquitetura, inspirada em modelos como a VGGNet (SIMONYAN; ZISSERMAN, 2015), tipicamente consiste em blocos convolucionais para extração de características e uma cabeça de classificação com camadas densas, que culmina em uma camada de saída Sigmóide para predição de probabilidade. Esta abordagem é ideal para problemas unimodais, onde a decisão se baseia unicamente em informações visuais, e é aplicada no estudo de caso de detecção de Seam Carving (Capítulo 6). 31 4.3.2 Abordagem 2: Modelo Ensemble de Stacking (CNN + Modelo Baseado em Árvores) Esta abordagem híbrida combina as forças do Deep Learning e do aprendizado de máquina clássico em uma arquitetura de stacking de dois níveis (DIETTERICH, 2000), sendo particularmente adequada para problemas multimodais. A estrutura consiste em dois níveis: 1. Nível 0 - Extrator de características de Imagem: Uma CNN pré-treinada, como a VGG16, é utilizada como uma extratora de características de alto nível. Utiliza-se a saída de uma de suas últimas camadas, a exemplo da camada de Global Average Pooling, como um vetor de características (ou embedding) que resume o conteúdo visual da imagem. 2. Nível 1 - Meta-Classificador: Um classificador baseado em árvores de decisão, como o LightGBM (LGBM) (KE et al., 2017) ou o Random Forest (RF) (BREIMAN, 2001), é treinado usando um conjunto de características combinado. Este conjunto inclui o vetor de características da imagem extraído pela CNN e os dados clínicos ou outros metadados estruturados relevantes para o problema. O meta-classificador aprende a ponderar as características visuais com o contexto fornecido pelos dados estruturados para realizar a classificação final. Esta abordagem é aplicada no estudo de caso de diagnóstico de Retinopatia Diabética (Capítulo 5). 4.4 Framework de Explicabilidade eXAI Um pilar central desta tese é a garantia de que os modelos não operem como caixas- pretas. Para isso, o framework eXAI incorpora uma abordagem sinérgica de explicabilidade, combinando técnicas de XAI que oferecem perspectivas complementares sobre a decisão do modelo. A principal combinação utilizada é a de SHAP com Grad-CAM. 4.4.1 Atribuição de Importância em Nível de Pixel com SHAP Para quantificar a contribuição de cada feature para uma predição, utiliza-se a técnica SHAP (Shapley Additive Explanations) (LUNDBERG; LEE, 2017). A metodologia SHAP é flexível e pode ser aplicada a ambas as arquiteturas. No modelo de classificação direta (CNN), o GradientExplainer é utilizado para aproximar os valores SHAP para os pixels da imagem, respondendo à pergunta: "quais pixels específicos influenciaram a decisão?". Para o modelo de stacking, o TreeExplainer calcula os valores SHAP exatos para o meta-classificador, revelando a importância de cada feature de entrada, seja ela visual (do vetor da CNN) ou clínica. 32 4.4.2 Localização de Região de Interesse com Grad-CAM Enquanto o SHAP oferece uma visão granular, o Grad-CAM (Gradient-weighted Class Activation Mapping) fornece uma perspectiva de mais alto nível, respondendo à pergunta: "em qual região da imagem o modelo focou?". A técnica gera mapas de calor que destacam as áreas da imagem mais influentes para uma predição, utilizando os gradientes da última camada convolucional. Essa abordagem é ideal para entender o foco espacial do modelo, identificando as regiões que ele considerou mais relevantes para sua análise. A combinação de Grad-CAM e SHAP permite uma interpretação mais completa: o Grad-CAM mostra "onde"olhar, e o SHAP detalha "o que"ver naquela região. 4.4.3 Visualização de Padrões Gerais com Maximização de Ativação Como técnica complementar, emprega-se a Maximização de Ativação (Activation Maximization) (ERHAN et al., 2009). Diferente de explicar uma predição específica, seu objetivo é entender o que um filtro da CNN aprendeu de forma geral. Ela gera imagens sintéticas que maximizam a ativação de filtros específicos, oferecendo uma visualização direta dos conceitos visuais (texturas, formas) que a rede foi treinada para detectar. 4.5 Métricas de Avaliação de Desempenho Para avaliar rigorosamente o desempenho dos modelos, um protocolo padronizado é adotado, focado no conjunto de teste que mantém a distribuição de classes original. As seguintes métricas são utilizadas: • Matriz de Confusão: Detalhando Verdadeiros Positivos (TP), Falsos Positivos (FP), Verdadeiros Negativos (TN) e Falsos Negativos (FN). • Acurácia (acurácia): T P +T N T P +T N+F P +F N . • Precisão (precisão): T P T P +F P . • Revocação (Recall ou Sensibilidade): T P T P +F N . • F1-Score: 2 × Precisão×Revocação Precisão+Revocação . • Curva ROC (Receiver Operating Characteristic) e AUC (Area Under the Curve): Mede a capacidade geral do modelo de distinguir entre as classes. Adicionalmente, em cenários com classes desbalanceadas, como o diagnóstico de Retinopatia Diabética, o limiar de decisão padrão de 0.5 pode não ser o ideal para equilibrar as métricas de precisão e Recall. Nesses casos, o limiar pode ser otimizado no conjunto de validação para maximizar uma métrica de interesse, como o F1-score, garantindo que o modelo final seja mais bem ajustado às necessidades específicas do problema. 5 Estudo de Caso 1: Diagnóstico Assistido por Computador de Retinopatia Diabética 5.1 Introdução ao Estudo de Caso A Retinopatia Diabética (RD) é uma das principais complicações do diabetes mellitus e uma das maiores causas de cegueira evitável em adultos em todo o mundo (YAU et al., 2012). O diagnóstico precoce, realizado através da análise de imagens de fundo de olho (retinografias), é crucial para mitigar a progressão da doença. No entanto, a análise manual dessas imagens é um processo demorado e subjetivo, representando um desafio em cenários com grande volume de pacientes para triagem (SENAPATI et al., 2024). Este capítulo apresenta a primeira aplicação prática do framework eXAI, detalhado no Capítulo 4, a um problema crítico no domínio do diagnóstico médico. O objetivo é desenvolver e avaliar um sistema de inteligência artificial preciso e, fundamentalmente, interpretável para a classificação binária de RD (presença vs. ausência da doença), utilizando dados de imagem e informações clínicas. Devido à natureza multimodal do problema, onde o contexto do paciente agrega grande valor diagnóstico, este estudo de caso implementa a Abordagem 2 da metodologia: um Modelo Ensemble de Stacking. A abordagem visa integrar sinergicamente características visuais extraídas por uma CNN com dados clínicos estruturados, utilizando um meta-classificador LightGBM para aumentar a acurácia, a robustez e a confiança no diagnóstico. 5.2 Materiais e Métodos Específicos A implementação seguiu o protocolo geral do framework eXAI. As especificidades desta aplicação, incluindo uma etapa crítica de curadoria de dados, são detalhadas a seguir. 5.2.1 conjunto de dados e Preparação (BRSET) O conjunto de dados utilizado foi o Brazilian Multilabel Ophthalmological conjunto de dados (BRSET) (NAKAYAMA et al., 2024), que compreende aproximadamente 16.266 imagens e dados clínicos associados. Um passo metodológico fundamental foi a curadoria e filtragem por qualidade. O conjunto de dados original foi filtrado para reter apenas as imagens onde todos os parâmetros de qualidade (foco, iluminação, campo da imagem e artefatos) foram classificados como satisfatórios (classe 1). Este processo, embora tenha reduzido o tamanho do conjunto de dados, 34 foi crucial para minimizar o ruído e garantir que o modelo fosse treinado em padrões visuais clinicamente relevantes e claros. O conjunto de dados curado foi então dividido em conjuntos de treinamento (70%), validação (15%) e teste (15%) por amostragem estratificada, preservando a distribuição natural de classes em cada subconjunto. 5.2.2 Pré-processamento de Dados de Imagem e Clínicos As imagens foram redimensionadas para 224 × 224 pixels e pré-processadas utilizando a função específica da arquitetura VGG16. Para os dados clínicos estruturados, um conjunto de características candidatas foi selecionado. Um modelo preliminar de Random Forest com a técnica SelectFromModel foi utilizado para identificar as variáveis mais impactantes. As características seleciona- das, como patient_age e diabetes_time_y, foram então limpas, padronizadas (usando StandardScaler ajustado apenas nos dados de treino) e tiveram valores ausentes imputados com a mediana do conjunto de treinamento. 5.2.3 Arquitetura do Modelo Híbrido (CNN-LGBM Stacking) Conforme a Abordagem 2 (Seção 4.3.2), a arquitetura de stacking foi implementada em dois níveis: • Nível 0 - Extrator de características (VGG16): Uma CNN com arquitetura VGG16, pré-treinada na ImageNet, foi utilizada estritamente como extratora de característi- cas. A base convolucional foi mantida "congelada", e a saída foi extraída da camada GlobalAveragePooling2D, gerando um vetor de 512 dimensões para cada imagem. • Nível 1 - Meta-Classificador (LightGBM): Um classificador LightGBM (LGBM) foi treinado para realizar a predição final. A entrada para este modelo consistiu na concatenação do vetor de 512 características da CNN com as características clínicas selecionadas e pré-processadas. Para fins de comparação, outros dois modelos foram treinados: um modelo "Pure CNN"(utilizando apenas as imagens) e um modelo "Structured LGBM"(utilizando apenas os dados clínicos). A seleção dos hiperparâmetros para todos os modelos seguiu uma abordagem metodológica, partindo de valores consolidados na literatura e realizando ajustes empíricos. Parâmetros como o otimizador Adam para a CNN e a função de perda binária foram escolhidos por serem padrões em suas respectivas áreas. Outros valores, como a taxa de aprendizado e o número de estimadores do LGBM, foram ajustados com base no monitoramento do desempenho no conjunto de validação, visando o melhor equilíbrio entre performance e prevenção do 35 sobreajuste. Os principais hiperparâmetros utilizados nos modelos estão detalhados na Tabela 3. Tabela 3 – Hiperparâmetros utilizados no estudo de caso de Retinopatia Diabética. Parâmetro Valor CNN (VGG16 Feature Extractor) Modelo Base VGG16 (pré-treinada) Camadas Treináveis Nenhuma (base congelada) Camada de Saída GlobalAveragePooling2D (512 características) LightGBM (Meta-Classificador) Número de Estimadores 300 Taxa de Aprendizagem 0.05 Objetivo Binary Peso das Classes Balanced Fonte: Elaborado pelo autor (2025). 5.3 Resultados e Análises Esta seção apresenta os resultados quantitativos da avaliação dos modelos. Inicialmente, é realizada uma análise comparativa de desempenho no conjunto de teste para demonstrar a eficácia da abordagem híbrida frente a modelos de modalidade única. Em seguida, avalia-se a robustez do modelo proposto a variações na qualidade da imagem, simulando condições de uso em cenários clínicos reais. 5.3.1 Avaliação Comparativa de Desempenho A avaliação dos três modelos no conjunto de teste demonstrou a superioridade da abordagem híbrida. Conforme a Tabela 4, o modelo Híbrido LGBM alcançou um AUC de 0.967 e um F1-score balanceado de 0.77 para a classe positiva (após otimização do limiar de decisão), superando significativamente os modelos de modalidade única. Tabela 4 – Métricas de desempenho para os modelos avaliados no conjunto de teste de RD. C1 refere-se à classe RD-positivo (minoritária). Modelo Acurácia Precisão (C1) Revocação (C1) F1-score (C1) AUC Pure CNN 90.3% 0.40 0.89 0.55 0.951 Structured LGBM 92.4% 0.43 0.37 0.40 0.833 Hybrid LGBM 97.0% 0.84 0.72 0.77 0.967 Fonte: Elaborado pelo autor (2025). 36 Figura 2 – Matrizes de confusão para os três modelos no conjunto de teste de RD: (a) Modelo Híbrido LGBM, (b) Modelo Pure CNN, e (c) Modelo Structured LGBM. Fonte: Elaborado pelo autor (2025). As matrizes de confusão (Figura 2) e as curvas ROC (Figura 3) ilustram essa superiori- dade. O modelo Híbrido (a) alcançou um excelente equilíbrio entre sensibilidade e especificidade, com um número reduzido de falsos negativos (40) em comparação com o modelo clínico (88), o que é crítico em um cenário de triagem médica. As curvas ROC confirmam visualmente a maior capacidade discriminativa do modelo combinado. 37 Figura 3 – Curvas ROC para os três modelos avaliados no conjunto de teste de RD. Fonte: Elaborado pelo autor (2025). 5.3.2 Análise de Robustez contra Compressão JPEG Para simular um cenário real onde a qualidade da imagem pode variar, foi conduzida uma análise de robustez. As imagens do conjunto de teste foram re-comprimidas em diferentes níveis de qualidade JPEG (90, 70 e 50), e o modelo Híbrido foi reavaliado sem qualquer retreinamento. Os resultados (Tabela 5) mostram que o modelo é altamente robusto, com apenas uma pequena queda no desempenho mesmo em níveis de compressão significativos, mantendo um AUC acima de 0.955. Tabela 5 – Desempenho do Modelo Híbrido sob Compressão JPEG. Qualidade JPEG AUC F1-score (RD) Original (100) 0.967 0.77 90 0.965 0.76 70 0.961 0.75 50 0.955 0.74 Fonte: Elaborado pelo autor (2025). 38 5.4 Análise de Explicabilidade (Resultados do XAI) Para além das métricas de desempenho, esta seção investiga o processo decisório do modelo através do framework eXAI. A análise objetiva validar a coerência clínica das decisões do sistema, primeiro quantificando a importância de cada feature de entrada com a técnica SHAP. Em seguida, são explorados os padrões visuais que a CNN aprendeu a associar com a patologia, a fim de fornecer evidências visuais para o diagnóstico. 5.4.1 Análise de Importância de características com SHAP A análise SHAP foi aplicada ao meta-classificador LGBM para compreender os fatores que influenciam suas predições. O gráfico de resumo (Figura 4) ilustra a importância global das características de entrada. Figura 4 – Gráfico de resumo SHAP para o modelo híbrido de RD, mostrando o impacto das características da CNN (e.g., cnn_feat_270) e das características clínicas. Fonte: Elaborado pelo autor (2025). 39 Observa-se que as características extraídas pela CNN (prefixo cnn_feat_) são, de longe, as mais influentes, confirmando o poder da informação visual. No entanto, variáveis clínicas como diabetes_time_y e a presença de drusens aparecem com destaque entre os preditores mais importantes, demonstrando seu valor complementar. Altos valores dessas características clínicas (indicados pela cor vermelha) consistentemente empurram a predição para a classe positiva (RD), alinhando-se com o conhecimento médico estabelecido. Para validar quantitativamente essa observação, foi calculada a correlação de Spearman entre os valores absolutos do SHAP para as características de imagem e as principais variáveis de risco clínico. Foi encontrada uma correlação positiva e significativa com o tempo de diabetes (diabetes_time_y), indicando que o modelo depende mais das evidências visuais em pacientes com maior tempo de doença, um comportamento clinicamente coerente. 5.4.2 Padrões Visuais Aprendidos pela CNN A técnica de Maximização de Ativação, aplicada à CNN, revelou que os filtros da rede aprenderam a identificar padrões visualmente consistentes com lesões de RD, como microaneurismas e exsudatos (Figura 5). Adicionalmente, visualizações SHAP em nível de imagem (Figura 6) destacam as regiões retinianas específicas que o modelo considerou mais importantes para cada diagnóstico individual, fornecendo uma base para o diálogo entre o sistema de IA e o médico. Figura 5 – Visualização da Maximização de Ativação para camadas internas da CNN, revelando os padrões visuais aprendidos associados à Retinopatia Diabética. Fonte: Elaborado pelo autor (2025). 40 Figura 6 – Visualização SHAP para a CNN, destacando regiões retinianas importantes para um caso negativo (topo) e um caso positivo (base). Fonte: Elaborado pelo autor (2025). 5.4.3 Custo Computacional e Reprodutibilidade O treinamento do extrator de características e do meta-classificador LGBM foi conduzido no ambiente de hardware descrito. O processo completo de treinamento levou aproximadamente 4 horas. Para garantir a total reprodutibilidade deste estudo de caso, o código-fonte, incluindo o notebook com o fluxo de trabalho completo, está publicamente disponível em um repositório no GitHub: . 5.5 Discussão e Conclusão do Capítulo Este estudo de caso validou com sucesso a aplicação da Abordagem 2 do framework eXAI. O modelo híbrido demonstrou desempenho de ponta ao combinar efetivamente a extração de características por deep learning com o contexto clínico do paciente. A etapa de curadoria https://github.com/migmiguel29/SeamCarvingeXai 41 dos dados foi fundamental para garantir que o modelo fosse treinado com sinais visuais claros, o que se refletiu no alto desempenho. A superioridade do modelo combinado, especialmente na métrica F1-score e no AUC, destaca a importância da abordagem multimodal. A análise XAI, tanto qualitativa quanto quantitativa, reforçou a validade clínica do modelo. O SHAP confirmou que o modelo toma decisões com base em fatores logicamente consistentes: a avaliação da imagem pela CNN é o fator mais importante, mas é modulada por fatores de risco clínicos bem conhecidos. Isso não apenas aumenta a confiança no modelo, mas também fornece uma base para o diálogo entre o sistema de IA e o especialista. A robustez demonstrada contra a compressão JPEG solidifica ainda mais sua potencial aplicabilidade em cenários do mundo real. Os achados deste capítulo servem como uma forte evidência da eficácia da metodologia proposta. O próximo capítulo explorará a aplicação deste mesmo framework a um domínio distinto para testar sua flexibilidade. 6 Estudo de Caso 2: Detecção de Adulteração de Imagens por Seam Carving 6.1 Introdução ao Estudo de Caso No campo da segurança da informação e forense digital, a detecção de manipulações em imagens é um desafio crescente. Uma técnica sofisticada de adulteração é o seam carving, um algoritmo de redimensionamento ciente do conteúdo que remove ou insere costuras de pixels de baixa energia, preservando as partes importantes da imagem e produzindo alterações muitas vezes imperceptíveis ao olho humano (AVIDAN; SHAMIR, 2007). Embora eficaz, este processo introduz artefatos estruturais sutis. A capacidade de detectar tais manipulações de forma confiável é, portanto, fundamental para garantir a integridade e a autenticidade de evidências digitais. Modelos de deep learning, em particular as Redes Neurais Convolucionais (CNNs), demonstraram grande potencial na detecção dessas fraudes. Contudo, a sua natureza de "caixa-preta"limita a confiança em seu uso em domínios de alto risco como a forense, onde entender como uma decisão é tomada é tão importante quanto a decisão em si. Para endereçar essa lacuna de interpretabilidade, este capítulo apresenta a segunda aplicação do framework eXAI, detalhado no Capítulo 4. O objetivo é desenvolver e validar um sistema que não apenas classifica imagens manipuladas por seam carving com alta acurácia, mas que também fornece uma compreensão profunda e multifacetada de seu processo decisório. A novidade desta abordagem, inspirada conceitualmente em Ensemble Learning, não reside na combinação de múltiplos modelos preditivos, mas sim na integração de um ensemble de técnicas de explicabilidade. Especificamente, combinamos o SHAP para atribuição de importância em nível de pixel com o Grad-CAM para localização de regiões de interesse, gerando uma interpretação mais holística e robusta das decisões de uma única CNN. Para este problema, que se baseia unicamente em artefatos visuais, foi implementada a Abordagem 1 da metodologia (Modelo de Classificação Direta), conforme descrito na Seção 4.3.1, por não haver a necessidade de dados estruturados adicionais. 6.2 Materiais e Métodos Específicos 6.2.1 Construção do conjunto de dados e Preparação Para criar um ambiente controlado, foi construído um conjunto de dados específico para o estudo. Utilizando o Seam Carving JPEG Image Forgery conjunto de dados (??), 43 derivado de coleções de imagens amplamente utilizadas em forense digital (LIU, 2019; LIU, 2017; CELEBI; HSU; LIU, 2022), foi gerado um conjunto de dados com um total de 10.300 imagens, perfeitamente balanceado entre as duas classes de interesse: • Uncompressed (classe 0): 5.150 imagens originais, não adulteradas. • Seam Carving (classe 1): 5.150 imagens correspondentes, manipuladas através da aplicação do algoritmo de seam carving (AVIDAN; SHAMIR, 2007). O pré-processamento incluiu o redimensionamento das imagens para 256 × 256 pixels e a normalização dos valores dos pixels para o intervalo [0, 1]. O conjunto de dados foi dividido de forma estratificada em 75% para treinamento (7.725 imagens), 12.5% para validação (1.288 imagens) e 12.5% para teste (1.288 imagens). O aumento de dados em tempo real (data augmentation) foi aplicado exclusivamente ao conjunto de treinamento para mitigar o sobreajuste e melhorar a generalização do modelo. 6.2.2 Arquitetura e Treinamento do Modelo CNN Foi projetada uma CNN customizada para a tarefa de classificação binária, utilizando a API Keras com backend TensorFlow. A detecção de artefatos de seam carving depende da identificação de perturbações estatísticas de baixo nível, que são não-semânticas por natureza. Por essa razão, uma arquitetura treinada do zero é mais apropriada do que modelos pré-treinados em conjunto de dados de objetos, como o ImageNet, pois evita o viés inerente a características de alto nível. 44 Figura 7 – Arquitetura da Rede Neural Convolucional customizada para a detecção de Seam Carving. Fonte: Elaborado pelo autor (2025). A arquitetura, detalhada na Figura 7, é composta por três blocos convolucionais seguidos por uma cabeça de classificação. A definição dos hiperparâmetros para o treinamento seguiu uma abordagem metodológica. Parâmetros como o otimizador Adam e a função de perda de entropia cruzada binária foram escolhidos por serem amplamente adotados e eficazes em tarefas de classificação de imagens. Outros valores, como a taxa de aprendizado, o número de épocas e as taxas de dropout, foram ajustados empiricamente, monitorando a convergência e o desempenho no conjunto de validação para evitar o sobreajuste. Os hiperparâmetros finais utilizados estão resumidos na Tabela 6. 45 Tabela 6 – Hiperparâmetros utilizados no estudo de caso de Seam Carving. Parâmetro Valor Arquitetura e Treinamento da CNN Otimizador Adam Taxa de Aprendizagem 1e-4 Função de Perda Binary Cross-entropy Épocas Máximas 100 Tamanho do Batch 32 Early Stopping (Paciência) 10 Taxas de Dropout 0.25 (blocos conv.), 0.5 (densa) Fonte: Elaborado pelo autor (2025). 6.3 Resultados e Análises A avaliação do modelo foi conduzida em múltiplas frentes: desempenho quantitativo, robustez, comparação com o estado da arte e análise qualitativa através do framework eXAI. 6.3.1 Análise do Treinamento e Desempenho no Teste O monitoramento das métricas durante o treinamento (Figura 8) mostrou uma conver- gência estável das curvas de acurácia e perda para os conjuntos de treinamento e validação, indicando ausência de sobreajuste significativo. 46 Figura 8 – Curvas de acurácia e perda (loss) do modelo CNN durante o treinamento para o estudo de caso de Seam Carving. Fonte: Elaborado pelo autor (2025). No conjunto de teste (1.288 imagens), o modelo alcançou uma acurácia geral de 95%, com uma precisão de 99% para a classe seam_carving. Esta alta precisão é crucial para aplicações forenses, pois minimiza a ocorrência de falsos positivos. A Tabela 7 e a Figura 9 detalham estes resultados. A principal fonte de erro foram os Falsos Negativos (58 casos), sugerindo que os artefatos em algumas imagens eram excepcionalmente sutis. Tabela 7 – Métricas de desempenho detalhadas para o modelo CNN no conjunto de teste de Seam Carving. Classe Precisão Revocação F1-score Suporte Uncompressed (C0) 0.92 0.99 0.95 644 Seam Carving (C1) 0.99 0.91 0.95 644 Acurácia Média Ponderada 95% Fonte: Elaborado pelo autor (2025). 47 Figura 9 – Matrizes de confusão para o modelo CNN no conjunto de teste. A matriz à esquerda exibe as contagens brutas das predições. A matriz à direita apresenta os resultados normalizados, onde cada linha é normalizada pelo total da classe verdadeira; os valores na diagonal representam, portanto, a revocação (taxa de verdadeiros positivos) para cada classe. Fonte: Elaborado pelo autor (2025). Figura 10 – Curva ROC (Receiver Operating Characteristic) para o modelo CNN no conjunto de teste. O alto valor de AUC (0.99) indica um excelente desempenho discriminativo. Fonte: Elaborado pelo autor (2025). A curva ROC (Receiver Operating Characteristic) e a métrica AUC (Area Under the Curve) confirmam a excelente capacidade discriminativa do modelo. Com um valor de AUC de 0.99, o modelo demonstra uma performance próxima à de um classificador ideal para distinguir entre as duas classes, independentemente do limiar de decisão. 48 6.3.2 Análise de Robustez e Comparação com o Estado da Arte Para avaliar a robustez do modelo em cenários realistas, seu desempenho foi testado contra imagens do conjunto de teste re-comprimidas em diferentes níveis de qualidade JPEG. A Tabela 8 mostra uma degradação clara da acurácia conforme o nível de compressão aumenta, um comportamento esperado, já que a compressão pode destruir os artefatos sutis da manipulação. Tabela 8 – Acurácia do modelo vs. Qualidade da Compressão JPEG. Nível de Qualidade JPEG Acurácia no Conjunto de Teste 100 (Original) 95.73% 90 93.71% 70 78.11% 50 61.80% Fonte: Elaborado pelo autor (2025). Adicionalmente, para contextualizar a performance, comparamos nosso modelo com métodos estado-da-arte (SOTA), conforme resumido na Tabela 9. Embora uma comparação direta seja complexa devido a variações nos conjunto de dados, nosso modelo customizado apresenta uma acurácia altamente competitiva, alinhada com os resultados de arquiteturas especializadas. Tabela 9 – Comparação de performance com métodos SOTA para detecção de Seam Carving. Método Tipo de conjunto de dados Acurácia Reportada Nam et al. (2019) (NAM et al., 2019a) Custom / Não comprimido 98.81% Ye et al. (2019) Custom / Não comprimido 97.80% Celebi et al. (2022) (CELEBI; HSU; LIU, 2022) JPEG Comprimido (QF95) 94% - 96% Modelo Proposto Custom / Balanceado 95% - 97% Fonte: Elaborado pelo autor (2025). 6.3.3 Análise de Explicabilidade (Resultados do eXAI) Além do desempenho quantitativo, o framework eXAI foi aplicado para construir uma narrativa compreensível sobre o processo decisório do modelo. 6.3.3.1 Análise Qualitativa com Grad-CAM e SHAP A Figura 11 ilustra a sinergia entre Grad-CAM e SHAP. Os mapas de calor do Grad- CAM revelam que o modelo consistentemente foca sua atenção em áreas de alta complexidade textural (como o chão rochoso ou o tecido estampado). Essas são precisamente as regiões onde o algoritmo de seam carving é forçado a tomar decisões mais intrincadas, deixando traços estatísticos mais detectáveis. O Grad-CAM, portanto, responde à pergunta: "Onde o modelo procurou por evidências?". 49 Figura 11 – Visualizações complementares do framework eXAI. (a) Imagem de entrada forjada. (b) Mapa de calor Grad-CAM, indicando regiões de interesse. (c) Mapa de atribuição SHAP, onde pixels vermelhos contribuíram para a classificação de fraude. Fonte: Elaborado pelo autor (2025). Complementarmente, os mapas de atribuição do SHAP respondem à pergunta: "Que evidência específica o modelo encontrou?". Os pixels em vermelho, que contribuem positi- vamente para a classificação de fraude, não formam objetos semânticos. Em vez disso, eles aparecem como um padrão distribuído de perturbações de baixo nível dentro das regiões de alta atenção identificadas pelo Grad-CAM. Juntas, as duas técnicas mostram que o modelo aprendeu a identificar regiões suscetíveis à manipulação e, dentro delas, a detectar os artefatos estatísticos que confirmam a fraude. 6.3.3.2 Análise Quantitativa dos Mapas de Explicabilidade Para validar estatisticamente a observação de que o modelo foca em áreas complexas, investigamos a correlação entre a atenção do modelo e a complexidade visual. A complexidade local da imagem foi quantificada usando a variância do operador Laplaciano, uma métrica comum para detecção de textura e bordas. Foi calculado o coeficiente de correlação de Pearson entre a intensidade média do Grad-CAM e a variância Laplaciana em uma grade de recortes não sobrepostos da imagem. A análise revelou uma correlação positiva e estatisticamente significativa (r = 0.3220, p < 0.000). Este resultado confirma quantitativamente que a CNN direciona seu foco para regiões de maior complexidade textural, validando as insights qualitativas obtidas com as visualizações do eXAI. 50 6.3.4 Custo Computacional e Reprodutibilidade O treinamento do modelo CNN customizado, utilizando o critério de parada ante- cipada (Early Stopping), foi concluído em aproximadamente 4 horas no ambiente de hard- ware especificado. A inferência em uma única imagem é realizada em milissegundos, tor- nando o modelo prático para análises em lote. Para fomentar a transparência e permitir a verificação dos resultados, todo o código-fonte para a criação do conjunto de dados, trei- namento do modelo e geração das análises de explicabilidade está disponível no GitHub: . 6.4 Discussão e Conclusão do Capítulo Este estudo de caso validou com sucesso a aplicação da Abordagem 1 do framework eXAI. O modelo CNN customizado demonstrou ser altamente eficaz, com uma acurácia competitiva e uma precisão de 99% para a classe forjada, um requisito fundamental para aplicações forenses. A principal contribuição, no entanto, vai além da acurácia. O framework eXAI forneceu insights transparentes e valiosos sobre o comportamento do modelo. A combinação sinérgica e a validação quantitativa das técnicas de explicabilidade confirmaram que o modelo aprendeu a identificar artefatos estruturais consistentes com a manipulação, em vez de atalhos espúrios baseados no conteúdo semântico. A análise de robustez também destacou uma limitação prática do modelo frente à compressão JPEG, apontando direções para trabalhos futuros, como o treinamento com dados aumentados incluindo imagens comprimidas. Em suma, a combinação de alto desempenho com interpretabilidade validada torna esta abordagem particularmente valiosa para domínios de forense digital. Tendo validado com sucesso as duas abordagens do framework eXAI, o próximo capítulo procederá com uma discussão geral e comparativa dos achados de ambos os estudos de caso, sintetizando as contribuições centrais da tese. https://github.com/migmiguel29/SeamCarvingeXai 7 Discussão Geral e Comparativa Os capítulos anteriores apresentaram a aplicação e validação do framework eXAI em dois domínios distintos e de alta criticidade: o diagnóstico assistido por computador de Retinopatia Diabética (RD) e a detecção de adulteração de imagens por seam carving para fins de segurança da informação. Este capítulo visa sintetizar e comparar os achados desses dois estudos de caso, discutindo as implicações mais amplas da metodologia proposta e sua contribuição para o campo da Inteligência Artificial Explicável (XAI). 7.1 Análise Comparativa dos Resultados e Abordagens A tese propôs um framework metodológico flexível, que foi instanciado de duas maneiras distintas para atender às necessidades específicas de cada problema, conforme recapitulado na Tabela 10. Tabela 10 – Comparativo das abordagens nos dois estudos de caso. Aspecto Estudo de Caso 1 (RD) Estudo de Caso 2 (Seam Carving) Problema Diagnóstico Médico (Segurança do Paciente) Forense Digital (Segurança da In- formação) Dados de Entrada Multimodal (Imagem + Dados Clínicos) Unimodal (Apenas Imagem) Arquitetura Ensemble de Stacking (CNN + LGBM) CNN de Classificação Direta Desbalanceamento Altamente desbalanceado (rea- lista) Perfeitamente balanceado (con- trolado) Acurácia (Teste) 97.0% 95.7% Principal Desafio Minimizar Falsos Negativos (do- ença não detectada) Detectar artefatos sutis e distri- buídos Fonte: Elaborado pelo autor (2025). A análise comparativa revela que a flexibilidade do framework foi crucial. No diagnóstico de RD, um problema intrinsecamente multimodal, a integração de dados clínicos através da arquitetura de Stacking (Abordagem 2) foi essencial para alcançar um desempenho de ponta. Conforme demonstrado no Capítulo 5, o modelo híbrido não apenas superou significativamente os modelos de modalidade única, mas o fez com um F1-score balanceado superior, métrica crítica em cenários desbalanceados. A combinação das características extraídas pela CNN com o contexto do paciente permitiu uma redução drástica nos falsos negativos, um requisito fundamental para a segurança do paciente em aplicações de triagem médica. Por outro lado, na detecção de Seam Carving, um problema unimodal onde a evidência reside unicamente nos dados da imagem, a abordagem de classificação direta com uma CNN 52 otimizada (Abordagem 1) provou ser suficiente e altamente eficaz, alcançando uma acurácia de aproximadamente 96%. Isso demonstra que o núcleo do framework, uma CNN bem treinada atuando como extratora de características ou geradora de predições, é robusto. A camada de ensemble de stacking pode, então, ser vista como um módulo adicional que pode ser acoplado ao núcleo da CNN quando dados multimodais estão disponíveis e são relevantes para o problema, confirmando a modularidade e adaptabilidade da metodologia proposta. 7.2 O Papel Contextual do XAI: Insights Distintos para Problemas Distintos A contribuição central desta tese reside não apenas na acurácia dos modelos, mas na profundidade e, crucialmente, na natureza contextual dos insights gerados pela aplicação do framework eXAI. A análise comparativa da explicabilidade nos dois domínios demonstrou que o valor e o propósito do XAI são altamente dependentes do contexto da aplicação, um conceito alinhado com a literatura que defende que a interpretabilidade não é um fim em si mesma, mas um meio para alcançar um objetivo específico, como confiança, robustez ou justiça (DOSHI-VELEZ; KIM, 2017a). No estudo de caso da Retinopatia Diabética, a análise SHAP do modelo híbrido serviu para validar o alinhamento do modelo com o conhecimento clínico pré-existente. Ela não apenas confirmou que as características extraídas pela CNN eram as mais importantes, mas também quantificou a influência de fatores de risco conhecidos, como diabetes_time_y e a presença de drusens. Isso transforma a caixa-preta em um "assistente de vidro", cujo processo de decisão é congruente com o raciocínio médico. Neste contexto, o XAI funciona como um construtor de confiança, um passo essencial para a adoção de sistemas de IA na prática clínica. Em contrapartida, no estudo de caso de Seam Carving, o XAI serviu a um propósito diferente: revelar uma estratégia de detecção desconhecida e validar a robustez do modelo. A análise sinérgica de SHAP e Grad-CAM revelou que o modelo aprendeu a ignorar o conteúdo semântico das imagens e a focar em artefatos de textura de baixa-nível e distorções estatísticas imperceptíveis para humanos. Isso é crucial em forense digital, pois confirma que o modelo não está aprendendo atalhos ou vieses espúrios, mas sim os traços fundamentais da manipulação. Aqui, o XAI não valida um conhecimento pré-existente, mas sim revela a estratégia interna do detector, aumentando a confiança em sua generalidade e resistência a vieses. Portanto, esta tese demonstra que o XAI não é apenas uma ferramenta para abrir a caixa-preta, mas um instrumento metodológico que, dependendo do domínio, pode: 1. Validar a relevância clínica de um modelo de diagnóstico, comparando suas decisões com o conhecimento de especialistas. 53 2. Revelar as estratégias de detecção de um modelo de segurança, garantindo que ele não se baseie em correlações espúrias. 3. Aumentar a confiança do usuário final, seja ele um médico ou um analista forense, ao fornecer justificativas inteligíveis para as predições da IA, o que pode levar a uma melhor colaboração humano-máquina (ARRIETA et al., 2020). 7.3 Implicações e Contribuições Gerais para a Pesquisa Esta pesquisa oferece contribuições teóricas e práticas. Teoricamente, ela propõe e valida um framework, o eXAI, que une de forma conceitual o Ensemble Learning com técnicas de XAI para criar sistemas de análise de imagem mais robustos e transparentes. A tese avança a noção de ensemble ao demonstrar que este conceito pode ser aplicado não apenas a modelos preditivos para melhorar a acurácia, mas também a técnicas de explicação para gerar uma compreensão mais holística e confiável. Praticamente, os dois estudos de caso demonstram soluções eficazes para problemas reais. O modelo para RD apresenta um potencial significativo como ferramenta de triagem, capaz de otimizar o fluxo de trabalho de oftalmologistas com alta sensibilidade para a doença. O modelo para detecção de Seam Carving representa uma ferramenta valiosa para a área de forense digital, onde a detecção de manipulações sutis é de extrema importância. A principal implicação deste trabalho é a reafirmação de que a busca por acurácia em modelos de Deep Learning não deve ser desassociada da busca por interpretabilidade, especialmente em aplicações críticas. O framework eXAI oferece um caminho pragmático para alcançar ambos os objetivos simultaneamente, alinhando a performance quantitativa com a validação qualitativa, um passo essencial para o desenvolvimento de uma Inteligência Artificial responsável. 7.4 Limitações da Pesquisa e Trabalhos Futuros Apesar dos resultados promissores, esta pesquisa possui limitações que abrem caminhos para trabalhos futuros. A principal limitação é a validação dos modelos em conjuntos de dados específicos para cada problema. Embora os protocolos de teste tenham sido rigorosos, a generalização dos modelos para outros conjunto de dados com diferentes características precisa ser investigada. A validação em conjunto de dados públicos de referência, como EyePACS ou APTOS para RD, e contra outras variações de manipulação de imagem, seria um passo importante para benchmark externo. Adicionalmente, no estudo de caso de RD, apenas um conjunto limitado de caracte- rísticas clínicas foi utilizado. A incorporação de um leque mais amplo de dados do paciente, 54 como comorbidades ou uso de insulina, poderia aprimorar ainda mais o desempenho do modelo híbrido. Por fim, embora análises quantitativas iniciais tenham sido realizadas para validar as saídas do XAI, a próxima etapa seria a validação das explicações geradas diretamente com especialistas. A condução de estudos de usuário com médicos e analistas forenses seria um passo importante para quantificar a utilidade clínica e prática do framework e o seu impacto real na tomada de decisão. 8 Conclusão Esta tese propôs e validou um framework metodológico, denominado eXAI (Ensemble Explainable Artificial Intelligence), projetado para desenvolver sistemas de classificação de imagens que são simultaneamente precisos, robustos e interpretáveis. Através da aplicação deste framework em dois domínios críticos distintos, o diagnóstico de Retinopatia Diabética e a detecção de adulteração de imagens por Seam Carving, demonstrou-se sua flexibilidade e eficácia. A principal contribuição deste trabalho reside na demonstração de que a integração de técnicas de Deep Learning (CNNs), Ensemble Learning — particularmente o stacking para dados multimodais — e XAI pode superar os desafios da opacidade dos modelos de caixa-preta. Conforme discutido no Capítulo 7, os resultados dos estudos de caso validam a hipótese central desta tese: é possível construir modelos de IA para aplicações críticas que não apenas alcançam alta performance, mas cujas decisões são transparentes e alinhadas ao conhecimento do especialista. A análise XAI, em particular, provou ser uma ferramenta de valor contextual, primeiramente ao validar o raciocínio clínico em um cenário de diagnóstico e, em segundo lugar, ao revelar a estratégia de detecção de artefatos em um cenário forense. Em suma, esta pesquisa contribui com um framework metodológico pragmático e validado, reforçando que a interpretabilidade não deve ser vista como um adendo, mas como um componente central no desenvolvimento de sistemas de IA confiáveis e prontos para a adoção em cenários do mundo real. 8.1 Limitações e Trabalhos Futuros Apesar dos resultados promissores, esta pesquisa possui limitações que, ao serem reconhecidas, abrem avenidas importantes para trabalhos futuros. Uma primeira limitação refere-se à validação dos modelos em conjuntos de dados específicos para cada problema. Embora os protocolos de teste tenham sido rigorosos, a generalização dos modelos para outros datasets com diferentes características precisa ser investigada. Um passo futuro crucial seria a validação em datasets públicos de referência, como EyePACS ou APTOS para RD, para realizar um benchmark externo e avaliar a robustez do framework em cenários mais amplos. Do ponto de vista metodológico, conforme apontado durante a avaliação deste trabalho, a robustez estatística das conclusões poderia ser aprofundada. A validação dos modelos foi baseada em uma única divisão dos dados, e trabalhos futuros poderiam empregar técnicas como a validação cruzada (k-fold) ou múltiplas execuções com sementes aleatórias distintas. Adicionalmente, a aplicação de testes estatísticos formais, como o teste de DeLong para a comparação de curvas ROC, permitiria uma quantificação mais rigorosa da significância das diferenças de desempenho entre os modelos. No que tange à explicabilidade, um esforço foi feito para ir além da análise qualitativa, incorporando validações quantitativas iniciais para validar a coerência das saídas do XAI. No estudo de Seam Carving, demonstrou-se estatisticamente a correlação entre a atenção do modelo (Grad-CAM) e a complexidade textural da imagem. No estudo de RD, foi comprovada a correlação entre a importância das características visuais (SHAP) e os fatores de risco clínicos. No entanto, a estabilidade das próprias explicações não foi formalmente testada. Uma direção valiosa para pesquisas futuras, alinhada às sugestões recebidas, seria a implementação de testes de robustez para as explicações, como os de inserção e deleção de features, para quantificar a confiabilidade dos valores SHAP frente a perturbações na entrada. Finalmente, outras direções de pesquisa incluem a expansão da integração de dados clínicos no estudo de RD e o desenvolvimento de interfaces de XAI mais interativas para validar a utilidade prática do framework através de estudos de usuário com especialistas (médicos e analistas forenses), quantificando o impacto real das explicações geradas na tomada de decisão. Referências ADADI, A.; BERRADA, M. Peeking inside the black-box: A survey on explainable artificial intelligence (xai). IEEE Access, v. 6, p. 52138–52160, 2018. ARRIETA, A. B.; DíAZ-RODRíGUEZ, N.; SER, J. D.; BENNETOT, A.; TABIK, S.; BARBADO, A.; GARCíA, S.; GIL-LóPEZ, S.; MOLINA, D.; BENJAMINS, R.; CHATILA, R.; HERRERA, F. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, v. 58, p. 82–115, 2020. AVIDAN, S.; SHAMIR, A. Seam carving for content-aware image resizing. ACM Trans. Graph., ACM, v. 26, n. 3, p. 10, 2007. BAKALO, R.; GOLDBERGER, J.; BEN-ARI, R. Weakly and semi supervised detection in medical imaging via deep dual branch net. Neurocomputing, Elsevier BV, v. 421, p. 15–25, Jan 2021. ISSN 0925-2312. Disponível em: . BIACH, F.; IALA, I.; LAANAYA, H.; MINAOUI, K. Encoder-decoder based convolutional neural networks for image forgery detection. Multimedia Tools and Applications, 01 2021. BIOLCHINI, J.; MIAN, P. G.; NATALI, A. C. C.; TRAVASSOS, G. H. Systematic review in software engineering. System Engineering and Computer Science Department COPPE/UFRJ, Technical Report ES, v. 679, n. 05, p. 45, 2005. BREIMAN, L. Random forests. Machine learning, Springer, v. 45, p. 5–32, 2001. BUDA, M.; MAKI, A.; MAZUROWSKI, M. A. A systematic study of the class imbalance problem in convolutional neural networks. Neural Networks, Elsevier, v. 106, p. 249–259, 2018. CAI, Y.; KONG, X.; WANG, X. Temporal action detection with long action seam mechanism. ACM Digital Library, v. 2, p. 165–171, 2018. CELEBI, N.; HSU, T.; LIU, Q. A comparison study to detect seam carving forgery in JPEG images with deep learning models. Journal of Surveillance, Security and Safety, v. 3, n. 2, p. 88–100, 2022. CHEN, C.; GRAUMAN, K. Subjects and their objects: Localizing interactees for a person-centric view of importance. International Journal of Computer Vision, v. 126, 2018. Disponível em: . CHENG, H.-J.; WEI, J.-D.; LIN, C.-Y.; YE, J. Detecting seam-carved image by extreme learning machines using patch analysis method, jury voting, and combinatorial fusion. IEEE Transactions on Systems, Man, and Cybernetics: Systems, v. 50, n. 5, p. 1850–1864, 2018. CHITTAJALLU, D. R.; DONG, B.;