Vinícius Camargo da Silva Sumarização Extrativa de Texto Utilizando Modelos Aditivos Generalizados com Interações para Seleção de Sentenças Bauru, SP, Brasil 2023 Vinícius Camargo da Silva Sumarização Extrativa de Texto Utilizando Modelos Aditivos Generalizados com Interações para Seleção de Sentenças Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Ciência da Computação, junto ao Programa de Pós-Graduação em Ciência da Computação, da Faculdade de Ciências da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de Bauru. Financiadora: Capes Orientador: Prof. Dr. João Paulo Papa Bauru, SP, Brasil 2023 S586s Silva, Vinícius Camargo da Sumarização Extrativa de Texto Utilizando Modelos Aditivos Generalizados com Interações para Seleção de Sentenças / Vinícius Camargo da Silva. -- Bauru, 2023 63 f. : il., tabs. Dissertação (mestrado) - Universidade Estadual Paulista (Unesp), Faculdade de Ciências, Bauru Orientador: João Paulo Papa 1. Ciência da computação. 2. Aprendizado do computador. 3. Processamento de linguagem natural (Computação). I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Ciências, Bauru. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. UNIVERSIDADE ESTADUAL PAULISTA Câmpus de Bauru ATA DA DEFESA PÚBLICA DA DISSERTAÇÃO DE MESTRADO DE VINICIUS CAMARGO DA SILVA, DISCENTE DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO, DA FACULDADE DE CIÊNCIAS - CÂMPUS DE BAURU. Aos 10 dias do mês de março do ano de 2023, às 14:00 horas, por meio de Videoconferência, realizou-se a defesa de DISSERTAÇÃO DE MESTRADO de VINICIUS CAMARGO DA SILVA, intitulada "Sumarização Extrativa de Texto Utilizando Modelos Aditivos Generalizados com Interações para Seleção de Sentenças". A Comissão Examinadora foi constituída pelos seguintes membros: Prof. Dr. JOAO PAULO PAPA (Orientador(a) - Participação Virtual) do(a) Departamento de Computação/Faculdade de Ciências - UNESP - Bauru, Prof. Dr. APARECIDO NILCEU MARANA (Participação Virtual) do Departamento de Computação /Faculdade de Ciências - UNESP - Bauru, Prof. Dr. TIAGO AGOSTINHO DE ALMEIDA (Participação Virtual) do Departamento de Computação/Universidade Federal de São Carlos (UFSCAR) - Campus Sorocaba. Após a exposição pelo mestrando e arguição pelos membros da Comissão Examinadora que participaram do ato, de forma presencial e/ou virtual, o discente recebeu o conceito final APROVADO. Nada mais havendo, foi lavrada a presente ata, que após lida e aprovada, foi assinada pelo Presidente da Comissão Examinadora. Prof. Dr. JOAO PAULO PAPA Para meus pais, Batista e Silvia, por tudo. Agradecimentos Agradeço aos meus pais, que me ensinaram, do seu jeitinho, a sonhar, e também sonharam comigo. Agradeço aos meus irmãos, Bruna e Mateus, que me acolheram e me entenderam tantas vezes. Agradeço ao meu orientador João Paulo, pelo aprendizado, paciência e inspiração. Agradeço à UNESP, pelas inúmeras oportunidades acadêmicas, e à CAPES, pelo apoio financeiro durante o desenvolvimento deste projeto. Por último e em especial, agradeço a Deus, que cuida, com tanto carinho, de um ser tão pequeno, resmungão e limitado como eu. “No dia da prosperidade, goza do bem; mas, no dia da adversidade, considera em que Deus fez tanto este como aquele, para que o homem nada descubra do que há de vir depois dele.” (Bíblia Sagrada, Eclesiastes 7, 14) Resumo A explicabilidade de modelos inteligentes se tornou um importante tópico de pesquisa recente- mente. Em função da evolução de diversos algoritmos estatísticos e de Aprendizado de Máquina, hoje, modelos do gênero são capazes de executar tarefas altamente complexas, entretanto, diversos exemplares carecem de transparência sobre seu processo de decisão, culminando em inferências muitas vezes acuradas, segundo métricas e taxas de acerto, porém pouco explicáveis ao usuário em questão. Assim, o termo Inteligência Artificial Explicável ganhou notoriedade nos últimos anos, almejando metodologias capazes de aliar inteligência computacional à explicabili- dade na execução de tarefas. A Sumarização Automática de Texto tem se tornado relevante com o crescimento de dados no formato textual, no entanto, com a popularização de grandes bases de dados públicas, abordagens recentes de Aprendizado de Máquina têm se concentrado em modelos e arquiteturas densos que, apesar de produzirem resultados notáveis, geralmente culminam em modelos difíceis de interpretar. Em contrapartida, seria interessante contar com sistemas que promovessem, em paralelo aos resumos gerados, capacidade de oferecer interpretações acerca de seu comportamento ou decisões de maneira transparente, entretanto, essa prática ainda está distante da realidade, uma vez que a interpretabilidade de modelos de sumarização de texto ainda é um assunto desafiador e pouco estudado. Modelos Aditivos Generalizados com Interações (do inglês, Generalized Additive Models with Interactions ou GAMI) são conhecidos por aliar poder preditivo a interpretabilidade em tarefas supervisionadas, assim, este trabalho investiga dois desses modelos, a saber, EBM e GAMI-Net, em uma abordagem à tarefa de Sumarização Extrativa, visando explorar sua aplicabilidade ao desafio de sumarização de texto, dado o interesse latente de metodologias interpretáveis. A abordagem proposta, baseada em treinar exemplares de GAMI na forma de um problema de classificação binária, mostrou-se uma alternativa simples, mas atraente a certos algoritmos caixa-preta, cuja avaliação foi realizada utilizando as bases de dados CNN/Dailymail e PubMed. Palavras-chave: Processamento de linguagem natural; Sumarização automática de texto; Aprendizado de máquina interpretável. Abstract The explainability of intelligent models has recently become an important research topic. Due to the evolution of several statistical algorithms and Machine Learning, today, models of this kind are capable of performing highly complex tasks, however, several examples lack transparency about their decision process, culminating in inferences that are often accurate, according to metrics and accuracy rates, but barely explainable to the user. Thus, the term Explainable Artificial Intelligence has gained notoriety in recent years, aiming for methodologies capable of combining computational intelligence with explainability in the execution of tasks. Automatic Text Summarization has become relevant with the growth of data in textual format, however, with the popularization of large public datasets, recent Machine Learning approaches have focused on dense models and architectures that, despite producing notable results often culminate in models that are difficult to interpret. On the other hand, it would be interesting to have systems that promote, in parallel with the summaries generated, the ability to offer interpretations about their behavior or decisions in a transparent way, however, this practice is still far from reality, since the interpretability of text summarization models is still a challenging and understudied subject. Generalized Additive Models with Interactions (GAMI) are known for combining predictive power with interpretability in supervised tasks, as such, this work investigates two of these models, namely, EBM and GAMI-Net, in an approach to the Extractive Summarization task, aiming to explore their applicability to the challenge of text summarization, given the latent interest in interpretable methodologies. The proposed approach, based on training GAMI instances in the form of a binary classification problem, proved to be a simple but attractive alternative to certain black-box algorithms, whose evaluation was performed using the CNN/Dailymail and PubMed datasets. Keywords: Natural language processing; Automatic text summarization; Interpretable machine learning. Lista de ilustrações Figura 1 – Grafo bipartido de sentenças e conceitos . . . . . . . . . . . . . . . . . . 23 Figura 2 – Correspondência da representação de resumos e documento no espaço latente. 25 Figura 3 – Desempenho vs. Explicabilidade . . . . . . . . . . . . . . . . . . . . . . . 29 Figura 4 – LIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Figura 5 – Explicando predições individuais . . . . . . . . . . . . . . . . . . . . . . . 32 Figura 6 – Explicação de pixels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Figura 7 – Funções de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Figura 8 – Processo de sumarização utilizando GAMI . . . . . . . . . . . . . . . . . . 44 Figura 9 – Função de forma da característica Posição (Eq. 3.3). . . . . . . . . . . . . 53 Figura 10 – Top-7 funções de forma em Razão de Importância (IR) na base CNN/Dailymail. 54 Figura 11 – Top-7 funções de forma em Razão de Importância (IR) na base Pubmed. . 54 Lista de quadros Quadro 1 – Inteligibilidade e Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Quadro 2 – Exemplo de documento e resumo da base CNN/Dailymail . . . . . . . . 48 Lista de tabelas Tabela 1 – Resultados para a base CNN/Dailymail. . . . . . . . . . . . . . . . . . . . 51 Tabela 2 – Resultados para a base PubMed. . . . . . . . . . . . . . . . . . . . . . . 52 Lista de abreviaturas e siglas EBM Explainable Boosting Machine GAM Generalized Additive Model GAMI Generalized Additive Model with Interaction IA Inteligência Artificial LR Logistic Regression LRP Layer-wise Relevance Propagation LSA Latent Semantic Analysis LSTM Long Short-Term Memory NBC Naive Bayes Classifier PLN Processamento de Linguagem Natural PSVM Probabilistic Support Vector Machine RF Random Forest RNN Recurrent Neural Network SA Sumarização Abstrativa SAT Sumarização Automática de Texto SE Sumarização Extrativa SVD Singular Value Decomposition TF-IDF Term Frequency -Inverse Document Frequency TF-ISF Term Frequency -Inverse Sentence Frequency XAI Explainable Artificial Intelligence Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1 Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Estrutura da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . 19 2.1 Sumarização Automática e a Sumarização Extrativa . . . . . . . . . 19 2.1.1 Sumarização Extrativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Treinamento e teste de modelos . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 Inteligência Artificial Explicável . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 Tipos de explicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.2 Metodologias explicáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2.2.1 Transparência e modelos caixa-de-vidro . . . . . . . . . . . . . . . . . . . . . 30 2.2.2.2 Explicabilidade e modelos caixa-preta . . . . . . . . . . . . . . . . . . . . . . 30 2.2.3 Trabalhos correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3 Modelos Aditivos Generalizados . . . . . . . . . . . . . . . . . . . . . 34 2.3.1 Explainable Boosting Machine . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3.2 Interações de pares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.3 GAMI-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.1 Abordagem proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Extração de características . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.1 Definições das características utilizadas . . . . . . . . . . . . . . . . . . . 45 3.2.1.1 TF-ISF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.1.2 Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.1.3 Comprimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.1.4 Nomes próprios e númericos . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.1.5 Similaridade sentença-sentença . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4 Detalhes da experimentação . . . . . . . . . . . . . . . . . . . . . . . 49 4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 51 5 CONLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1 Publicação realizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 15 1 Introdução Vivemos em um contexto com volume de dados crescente onde, não por acaso, tópicos como processamentos de dados ganharam espaço. Nesse contexto, sistemas que automatizem ou facilitem processos cresceram em demanda e têm avançado em diferentes cenários. Existem atividades onde a interação humana é importante e não pode ser dispensada, mas que a presença de ferramentas específicas possibilitaria melhoraria de eficiência, servindo, por exemplo, no auxílio à tomada de decisões ou na automatização de tarefas. Com a interação entre homem e máquina ganha-se robustez e confiabilidade nos resultados finais, um complementando o outro em suas deficiências. No que diz respeito aos dados, a Internet possibilitou um compartilhamento praticamente incessante de informações. A todo instante, publicações são veiculadas em portais de notícias, redes sociais e postagens on-line. Artigos científicos de diversas áreas, por exemplo, são indexados diariamente em bases da Web, o que denota a concentração cada vez maior de conhecimento no meio digital, muitas vezes, em formato de texto. Uma tarefa de Processamento de Linguagem Natural (PLN) que ganha destaque com a concentração de dados em formato textual e a possibilidade de examiná-los de maneira mais eficiente é a Sumarização Automática de Texto (SAT), que aborda métodos capazes de compilar documentos em porções menores de maneira automática, gerando resumos inteligíveis. O desafio, entretanto, é que, embora resumir informação possa ser uma tarefa cotidiana dos seres humanos, trata-se de um problema que contém em si paradigmas de linguagem complexos de se imitar computacionalmente. Assim, diferentes técnicas têm sido estudadas ao longo dos anos em busca de soluções mais capazes. Dentre as abordagens promissoras recentes está a utilização de técnicas de Aprendizado de Máquina, que ganharam bastante atenção nos últimos anos graças aos resultados obtidos. Apesar do sucesso eminente, no entanto, um ponto importante é que a medida que os algoritmos de Aprendizado de Máquina se sofisticaram ao longo de sua evolução para contornar a complexidade dos problemas, a compreensão prática de suas operações internas se tornou mais complicada e a desconfiança envolvida no seu uso aumentou (ZHU et al., 2018). Pela forma como diversos desses algoritmos trabalham, pode ser difícil rastrear o “raciocínio” envolvido no seu funcionamento mesmo que sob o olhar de especialistas da área, o que faz com que, ainda que eficazes segundo métricas como acurácia, tais algoritmos possam cair em descrédito por erros ingênuos ou acertos fortuitos. Mais do que analisar taxas de acerto, hoje, entende-se que é importante investigar mais profundamente o comportamento desses modelos. Algoritmos que simplesmente “funcionam”, Capítulo 1. Introdução 16 mas que o usuário envolvido não sabe “como” ou “porque” funcionam, também não manifestam confiabilidade e clareza sobre as decisões sugeridas (SAMEK; MÜLLER, 2019). A realidade é que a Inteligência Artificial ainda causa ceticismo na sociedade (DOŠILO- VIĆ; BRČIĆ; HLUPIĆ, 2018) e que muitos dos modelos aparentemente acurados, na prática, podem estar cometendo erros crassos – como a falha de tradução automática que levou um homem a ser preso (HERN, 2017) – oriundos de limitações que podem passar despercebidas pela falta de transparência. Hoje, já estão crescendo as demandas sociais por métodos algorítmicos de fato interpre- táveis (GOODMAN; FLAXMAN, 2017), o que se conecta à explicabilidade e à transparência no contexto dos modelos de Aprendizado de Máquina. Os esforços aumentaram, culminando na origem da chamada XAI ou Inteligência Artificial Explicável, que compreende o estudo e desenvolvimento de metodologias apropriadas dentro dessa problemática. Da mesma forma, modelos de SAT, especialmente os baseados em técnicas de Aprendi- zado de Máquina, herdam essas discussões, já que explicar como resumos são elaborados passa a ser considerado uma necessidade (SARKHEL et al., 2020). No entanto, graças as particulari- dades do problema, são necessários estudos que levem em conta suas próprias propriedades e interesses dentro desse contexto. No contexto da SAT, a modelagem interpretável diz respeito a dar transparência ao processo de sumarização do modelo, o que pode contribuir para uma melhor percepção das limitações e capacidades do modelo, ajudar na investigação de por que o modelo comete erros ou até mesmo auxiliar na obtenção de insights sobre o problema de sumarização em si. Tais informações podem ser úteis, por exemplo, para evoluir abordagens e esclarecer o que o modelo realmente satisfaz em contraste com as expectativas do usuário. Trabalhos existentes nessa temática ainda são escassos, desse modo, pensando na importância e no impacto da criação e utilização de metodologias de SAT intepretáveis, surge a motivação do presente trabalho. Modelos Aditivos Generalizados com Interações (do inglês, Generalized Additive Models with Interactions ou GAMI) ganharam destaque recentemente como uma classe de modelos que utiliza formulação aditiva e funções não lineares para equilibrar desempenho preditivo a interpretabilidade em problemas de aprendizado. Assim sendo, este trabalho visa investigar o problema de SAT através da aplicação de exemplares desses modelos à tarefa de Sumarização Extrativa. Modelos EBM e GAMI-Net são dois tipos de GAMI, construídos, respectivamente, utilizando árvores de decisão e redes neurais, sobre uma proposta de equilibrar inteligibilidade e poder preditivo em problemas supervisionados, combinando efeitos principais e interações de pares de forma aditiva, fazendo uso de abordagens modernas de Aprendizado de Máquina. A ideia por trás dos modelos é aproveitar a formulação aditiva para facilitar a inspeção de seu comportamento e contribuições considerando características explicativas e saídas, Capítulo 1. Introdução 17 fomentando interpretabilidade. Para algumas tarefas, esses modelos alcançaram desempenho preditivo que compete com o de conhecidas técnicas supervisionadas de Aprendizado de Máquina, ainda que estas outras se utilizassem de formulações mais complexas, que culminam por torná-las pouco transparentes, humanamente falando. Até onde o autor tem conhecimento, EBMs, GAMI-Nets ou mesmo Modelos Aditivos Generalizados nunca foram antes explorados no contexto de SAT, assim, este trabalho visa investigar a aplicabilidade desses dois tipos de modelo à tarefa de Sumarização Extrativa, na forma de um problema de classificação binária, para posteriormente inferir a relevância das sentenças nos documentos de interesse. Uma vez que esses modelos são considerados interpretáveis, obter desempenho semelhante ou superior a outras técnicas nessa tarefa, e ainda contar com a sua capacidade de transparecer o comportamento aprendido durante o treinamento, poderia simbolizar um passo importante em direção a metodologias interpretáveis para o problema de SAT. 1.1 Hipótese Exemplares de GAMI como EBM e GAMI-Net podem ser aplicados com êxito à tarefa de Sumarização Extrativa e competir com técnicas menos transparentes de SAT. 1.2 Objetivos 1.2.1 Objetivo Geral Desenvolver uma abordagem interpretável baseada em GAMI para a tarefa de Sumari- zação Extrativa. 1.2.2 Objetivos Específicos a) Verificar a eficácia de GAMI para o problema de Sumarização Extrativa em compa- ração a abordagens variadas, baseadas em técnicas de Aprendizado de Máquina; b) Entre EBM e GAMI-Net, verificar qual é mais eficaz na solução do problema exposto. 1.3 Estrutura da Dissertação O restante da dissertação estão organizados da seguinte maneira: • O Capítulo 2 apresenta um panorama teórico acerca de três assuntos discutidos na dissertação: Sumarização Extrativa, Inteligência Artificial Explicável e Modelos Aditivos Generalizados; Capítulo 1. Introdução 18 • O Capítulo 3 apresenta a metodologia utilizada para desenvolver e testar a abordagem proposta, bem como bases de dados e detalhes de experimentação; • O Capítulo 4 apresenta os resultados obtidos; • O Capítulo 5 apresenta as conclusões da dissertação. 19 2 Referencial Teórico Este capítulo tem como objetivo apresentar o referencial teórico em três seções principais, concernindo o referencial teórico do projeto. Na Seção 2.1, será apresentado o problema de Sumarização Automática e Sumarização Extrativa, na Seção 2.2, o assunto de Inteligência Artificial Explicável e, na Seção 2.3, os Modelos Aditivos Generalizados. 2.1 Sumarização Automática e a Sumarização Extrativa Nos dias de hoje, os sistemas de computador assumiram um papel importante no acesso e na construção de informação de fácil acesso. Algoritmos que contribuam para este processo, seja ele em pequena ou larga escala, são desejáveis e têm recebido cada vez mais atenção nos últimos anos. As técnicas de SAT ganham força com essa necessidade, já que sistemas que permitam processar e condensar informação útil estão se tornando cada vez mais relevantes se levarmos em conta a quantidade de dados que são gerados diariamente, especialmente em linguagem natural (EL-KASSAS et al., 2020). Nesse sentido, gerar resumos automaticamente pode ser uma forma de facilitar processos. De maneira geral, um resumo bem elaborado tem a capacidade de denotar um conteúdo de maneira mais sucinta e acelerar o entendimento contido em uma ou mais fontes de texto. Elaborar resumos manualmente se trata de uma tarefa custosa em tempo e esforço (EL-KASSAS et al., 2020), geralmente requerendo familiaridade com o assunto, o que pode culminar em mão de obra qualificada, que poderia se concentrar em outras tarefas, a despender tempo vasculhando documentos ou facilitando informação (LUHN, 1958). Para Moratanch e Chitrakala (2017) o objetivo da sumarização é condensar um texto original em uma versão que preserve seu sentido total, enquanto Maybury (1995) alega que o bom resumo é o que destila as informações mais importantes da fonte levando em conta tanto os usuários como as tarefas de interesse. Em suma, a ideia é balancear a compreensão e os detalhes presentes no texto de entrada com o comprimento desejado, que é mais curto que o original por definição. Do ponto de vista algorítmico, um programa de SAT recebe texto como entrada e gera uma versão resumida como saída (TAS; KIYANI, 2007). Na prática, no entanto, o processo não é tão simples, dado que a linguagem natural é bastante complexa, além de ser uma forma de dado pouco estruturada da perspectiva de máquina. Para isso, são necessários processamentos e modelagens adequados de texto, objeto de estudo da área de Processamento de Linguagem Natural (PLN). Capítulo 2. Referencial Teórico 20 O primeiro trabalho em sumarização automática publicado foi desenvolvido por Luhn (1958). Sua ideia é bastante simples, mas serviu como base para diversas outras técnicas da área. Segundo sua abordagem, quando analisamos um documento, algumas palavras são mais descritivas que outras e isto estaria atrelado à frequência com que elas ocorrem. Desse modo, as sentenças mais relevantes no texto seriam as que possuem um maior número dessas palavras, bastando, então, extrair-se as sentenças mais descritivas do texto para a formulação do resumo. Abordagens como a de Luhn ficaram posteriormente conhecidas como técnicas de Sumarização Extrativa (SE), que caracterizam os modelos que selecionam partes do texto na íntegra, organizando de maneira adequada, para a confecção do resumo. Diferentemente há, ainda, a chamada Sumarização Abstrativa (SA) onde o resumo pode conter reuso de partes do texto original, no entanto, termos e sentenças próprios podem aparecer (NENKOVA; MCKEOWN, 2011). A SE é o nicho da SAT que estuda a geração de resumos a partir de segmentos (usualmente sentenças) presentes no texto original. A ideia consiste em escolher partes relevantes do texto e rearranjá-las na forma de um resumo. Em geral, o processo envolve três pontos vitais: segmentar o texto original em representações intermediárias, quantificar, de alguma forma, a importância desses segmentos e selecionar, dentre eles, os mais apropriados para o resumo segundo algum critério (NENKOVA; MCKEOWN, 2012). Usualmente, as técnicas variam pela forma como executam essas etapas. De outro modo, a SA é caracterizada pela criação de novas sentenças, seja reformulando frases ou utilizando novas palavras (GUPTA; GUPTA, 2019). Na teoria, o que a SA propõe é mais próximo do processo utilizado por humanos na produção de resumos, que normalmente usam tais estratégias para dar naturalidade ao texto. No entanto, a complexidade se intensifica ao abordar o problema dessa forma, já que a geração de linguagem ainda é um desafio pouco trivial. Desse modo, a SE ainda é atraente, pois, em geral, pode ser feita através de metodologias menos complexas, menos custosas computacionalmente e que sofrem menos com problemas gramaticais ou semânticos (NALLAPATI; ZHAI; ZHOU, 2017), já que os segmentos são extraídos na íntegra. O papel do sumarizador extrativo é mais claro: ressaltar e compilar os segmentos importantes do texto de entrada. Existem, também, outras formas menos expressivas de qualificar problemas de suma- rização. Quanto ao conteúdo, alguns autores categorizam os resumos como indicativos ou informativos (TAS; KIYANI, 2007; EL-KASSAS et al., 2020), dependendo do objetivo final. Enquanto resumos indicativos são aqueles cujo objetivo é informar sobre o escopo de um texto, auxiliando na escolha de lê-lo no todo ou não (EL-KASSAS et al., 2020), resumos informativos devem compreender as informações importantes contidas nos mesmos. Outra forma de discriminação é entre resumos monodocumento e resumos multido- Capítulo 2. Referencial Teórico 21 cumento (TAS; KIYANI, 2007; EL-KASSAS et al., 2020). Na sumarização monodocumento apenas um corpo de texto é utilizado como base para o resumo. Já na sumarização multidocu- mento, um conjunto desses textos é usado no processo e o objetivo principal é que não haja informação repetitiva (JOSHI; WANG; MCCLEAN, 2018), o que pode ser uma tarefa complexa, haja vista que espera-se que o resumo mantenha coerência e coesão (TAS; KIYANI, 2007). A seguir, a Seção 2.1.1 discorre sobre algumas soluções ao problema de SE, enquanto a Seção 2.1.2 aborda treinamento e validação de modelos de Aprendizado de Máquina nesse contexto. 2.1.1 Sumarização Extrativa Com relação a estudos desenvolvidos para SE, inúmeras estratégias já foram propostas para o problema. Dentre as abordagens mais clássicas, Neto et al. (2000) apresentam um sistema de sumarização de informações baseado em TF-ISF (Term Frequency - Inverse Sentence Frequency), uma variante do popular TF-IDF (Term Frequency - Inverse Document Frequency). Para o processo de sumarização de texto, o TF-ISF adapta a noção original do algoritmo, representando um documento como um conjunto de sentenças, sobre as quais a frequência de termos (TF) e a frequência inversa de aparições (ISF) incidem. A estratégia de Neto et al. é baseada na obtenção de uma pontuação para cada sentença, obtida pelo pela média dos pesos TF-ISF dos termos relativos à sentença em questão. Todas as sentenças cuja pontuação obtida for maior do que um limite estabelecido estariam presentes no resumo, na ordem de aparição do documento original. Intuitivamente, cada pontuação simboliza a relevância de uma dada sentença do texto base, logo pontuações maiores significam maior prioridade de aparição no resumo a ser obtido. Uma outra possibilidade seria utilizar o TF-IDF (ou o TF-ISF) para a vetorização das sentenças (JOACHIMS, 1996) e então usar esses vetores como representações intermediárias, que possam servir como entrada para outros perfis de algoritmos. Um exemplo de trabalho que faz uso desse tipo de representação é o de Ozsoy, Alpaslan e Cicekli (2011), que propõe um sistema genérico de sumarização de texto utilizando Análise de Semântica Latente (do inglês, Latent Semantic Analysis ou LSA) (LANDAUER; FOLTZ; LAHAM, 1998), método algébrico baseado em Decomposição em Valores Singulares (do inglês, Singular Value Decomposition ou SVD), que apresenta algumas possibilidades quanto à utilização dessa técnica no contexto da SE. A LSA objetiva a extração de relações entre sentenças, palavras e conceitos com base em um texto de entrada: “A LSA se baseia na ideia que o agregado de todos os contextos de palavras nos quais uma dada palavra aparece ou não aparece fornece um conjunto de restrições mútuas que determina em grande parte a similaridade de significado de palavras e conjuntos de palavras entre si.” (LANDAUER; FOLTZ; LAHAM, 1998, tradução nossa). Capítulo 2. Referencial Teórico 22 De acordo com Ozsoy, Alpaslan e Cicekli, os algoritmos de sumarização com base na LSA usualmente contêm três principais passos: criação da matriz de entrada, SVD e seleção de sentenças, cujas escolhas de metodologia, especificamente do primeiro e do último, interferem diretamente no resultado final. A matriz de entrada teria o papel de representar o documento de entrada, com as colunas indicando as sentenças e as linhas indicando as palavras/frases, de forma que cada célula quantifique a importância de cada palavra em cada sentença. Os autores também discorrem sobre as possibilidades de diferentes técnicas nesse sentido, como o TF-IDF e a frequência pura de ocorrência das palavras, entre outras. A seleção de sentenças seria então executada a partir da saída obtida da aplicação de decomposição sobre a matriz de entrada. As estratégias de seleção estão fundamentadas na noção de que a LSA permite que conceitos (ou tópicos) sejam encontrados estatisticamente no documento de origem. Uma estratégia simplista, por exemplo, seria, para cada conceito encontrado, escolher a sentença mais pertinente ao conceito e incutir no resumo. Um outro trabalho que faz uso da noção de sumarização baseada em conceitos é o de Ramanathan et al. (2009). Sua principal contribuição, no entanto, é a utilização de conhecimento externo nesse processo. O problema é representado como um grafo bipartido entre sentenças e conceitos representados através de artigos de Wikipedia, encarregados de trazer conhecimento comum para a escolha de sentenças (Figura 1). A partir das sentenças do documento original, os autores aplicam o motor de busca Lucene na recuperação de artigos Wiki relevantes, que são ranqueados levando em conta o número de sentenças relacionadas, assumindo-se que os mais importantes estariam associados a um maior número de sentenças. Dessa forma, as sentenças relacionadas aos conceitos mais importantes, são colocadas no resumo. Em um segundo trabalho (SANKARASUBRAMANIAM; RAMANATHAN; GHOSH, 2014), os autores refinam o processo, dessa vez, adotando o plano de ranquear também a importância das sentenças, além da estratégia original de ranquear a importância dos conceitos, na argumentação que uma importância determina a outra de maneira “mutuamente reforçada”. Se por um lado, sentenças relacionadas a diversos conceitos poderiam conter muita informação do texto compilada em si, o que seria potencialmente importante para o resumo, também podem satisfazer essa condição por serem extremamente vagas ou genéricas demais. O equilíbrio entre o número e a relevância de conceitos ou sentenças não pode ser trivializado e comumente é um fator sensível de se considerar no emprego desse tipo de técnica. A dificuldade em relativizar essas questões é uma das motivações por trás da ideia de modelar o problema estatisticamente. Com o crescimento da área de Aprendizado de Máquina na resolução de problemas variados, surgiu também o interesse em aplicá-la ao problema de SAT. Um fator importante nesse contexto é o volume dos dados necessário pelas técnicas supervisionadas (WONG; WU; LI, 2008), uma vez que esse tipo de técnica se baseia na modelagem estatística entre pares de Capítulo 2. Referencial Teórico 23 Figura 1 – Grafo bipartido de sentenças e conceitos Fonte: Sankarasubramaniam, Ramanathan e Ghosh (2014) dados de entrada e rótulos, chamados de base de dados ou datasets. As técnicas extrativas mencionadas até então não são técnicas de Aprendizado de Máquina, sendo possível afirmar que não requerem treinamento supervisionado. Embora isso represente uma vantagem com relação a simplicidade e aplicabilidade de um modelo, abordagens baseadas em Aprendizado de Máquina supervisionado (e mais recentemente, Aprendizado Profundo (LECUN; BENGIO; HINTON, 2015)) têm apresentado possibilidades promissoras nesse contexto. Um exemplo que faz uso de Aprendizado de Máquina clássico é o trabalho de Wong, Wu e Li (2008), que investiga a aplicação de Máquinas de Vetores de Suporte Probabilísticas (do inglês Probabilistic Support Vector Machines ou PSVMs) (WU; LIN; WENG, 2004) e Classificadores Naive Bayes (do inglês, Naive Bayes Classifiers, ou NBCs) na extração de resumos. Os autores analisam a combinação de diferentes procedimentos na fase de extração de características, apresentando uma comparação de performance. Mais especificamente, eles testam quatro tipos de características de sentenças, referidas como caraterísticas de superfície, de conteúdo, de eventos e de relevância. De maneira geral, o trabalho evidencia como a etapa de processamento de linguagem é preponderante quanto a utilização de técnicas mais clássicas de aprendizado máquina na extração de resumos. O trabalho de Wong, Wu e Li (2008) ainda discute a quantidade grande de dados anotados necessária para o treinamento de modelo supervisionados. O processo de anotação manual pode ser bastante laborioso na prática, o que incentiva estudos focados em contornar a questão. Pensando nisso, o trabalho também introduz o uso de co-treinamento (BLUM; MITCHELL, 1998) nesse contexto, mostrando que o uso da técnica semi-supervisionada pôde reduzir a quantia de dados de treino pela metade sem que houvessem grandes perdas na Capítulo 2. Referencial Teórico 24 capacidade de sumarização. Mais recentemente, assim como em outras áreas de estudo, redes neurais profundas alavancaram muitas tarefas dentro de PLN, oferecendo resultados competitivos ou superando metodologias existentes (LECUN; BENGIO; HINTON, 2015). Modelos como as Redes Neurais Recorrentes (do inglês, Recurrent Neural Networks ou RNNs) e os Transformers (VASWANI et al., 2017) foram dois tipos de modelos bastante explorados, visto que conseguem processar informações sequenciais pouco estruturadas, tal como as palavras de um texto, capturando características como morfologia e sintaxe de sentenças automaticamente. Em contrapartida, usualmente são necessários ainda mais dados do que técnicas supervisionadas tradicionais para que os modelos entreguem resultados superiores. Nallapati, Zhai e Zhou (2017) propõem uma metodologia baseadas em LSTMs (do inglês, Long Short-Term Memory (HOCHREITER; SCHMIDHUBER, 1997), um tipo especial de RNN), que introduz uma metodologia de treinamento extrativa baseada em resumos abstrativos. Narayan, Cohen e Lapata (2018), por sua vez, utilizam uma aquitetura hierárquica de CNNs (Convolutional Neural Networks) e LSTMs em combinação com aprendizado por reforço no ranqueamento de sentenças. Eles argumentam que a abordagem padrão por entropia cruzada de máxima probabilidade (como é o caso no trabalho de Nallapati, Zhai e Zhou) seria deficiente para o ranqueamento de sentenças na sumarização de texto. A partir dessa motivação, propõem um algoritmo baseado em combinar essa métrica com a avaliação ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (LIN, 2004) em uma política de aprendizado por reforço, superando o desempenho de modelos similares treinados com aprendizado supervisionado. No contexto das redes Transformers, o trabalho de Liu (2019), por exemplo, adapta a arquitetura original do modelo de representação de linguagem BERT (DEVLIN et al., 2019). O BertSum, como é chamado o modelo, aproveita a ideia do BERT modificando a forma como as sentenças são inseridas no modelo de linguagem. No BertSum, um documento segmentado em mútiplas sentenças serve como uma única entrada, cujas sentenças são separadas por um token especial, além de receberem um de dois embeddings que são intercalados ao longo das sentenças para que o modelo possa distingui-las dentro do documento. Essa mudança permite que o modelo possa ser adequado ao problema de SE. A base do BertSum, então, fica encarregada de gerar representações vetoriais das sentenças, que são oferecidas a algum classificador neural que recebe ajuste fino junto com o restante do modelo, assim como nas aplicações do BERT. Também nesse contexto, Zhong et al. (2020) introduz o modelo MatchSum, outra abordagem baseada na arquitetura BERT. O MatchSum, no entanto, interpreta o problema de SE como um problema de matching semântico. Em outras palavras, o objetivo é obter o resumo que, no todo, mais se aproxima semanticamente do documento original, em vez de analisar as sentenças em separado. Para tanto, eles investigam a utilização de uma arquitetura siamesa (BROMLEY et al., 1993) baseada em BERT, cuja intenção é medir quão semanticamente Capítulo 2. Referencial Teórico 25 correspondentes são documentos e candidatos a resumo (Figura 2). Os candidatos de resumo são obtidos a partir de todas as combinações de sentenças identificadas salientes aplicando-se uma adaptação do BertSum. Figura 2 – Correspondência da representação de resumos e documento no espaço latente. Fonte: Traduzida de Zhong et al. (2020). 2.1.2 Treinamento e teste de modelos No contexto de Aprendizado de Máquina, quando problemas são analisados com relação a, principalmente, os dados prévios que se tem, uma distinção comumente feita ao categorizar sua modelagem é dada entre modelos supervisionados e não supervisionados. Dentro da SA, técnicas não supervisionadas aprenderiam e elaborariam resumos diretamente com base em documentos de interesse, enquanto técnicas supervisionadas demandariam treinamento sobre rótulos. Confeccionar essas bases, no entanto, é um processo demorado; além do tempo de construí-las, existe também um ponto controverso para sumarização, que é a dificuldade em estabelecer padrões claros para a inclusão de sentenças no resumo. Não seria difícil que pessoas distintas escolhessem também de maneira distinta as sentenças no momento da construção de um resumo (ALLAHYARI et al., 2017). Ainda assim, técnicas supervisionadas são comuns, pois tendem a direcionar melhor os modelos, mesmo que utilizando rótulos sintéticos (NALLAPATI; ZHAI; ZHOU, 2017; KEDZIE; MCKEOWN; III, 2018; XIAO; CARENINI, 2019; LIU, 2019). A questão é que para o treinamento de modelos supervisionados, em geral, são necessárias bases grandes de dados, fator que pode se intensificar de acordo com as técnicas empregadas. Desse modo, em vez de construir bases próprias do zero, trabalhos recentes vêm utilizando bases já estruturadas e de fácil acesso à Capítulo 2. Referencial Teórico 26 comunidade acadêmica no processo de criação e validação de metodologias supervisionadas, como a CNN-Dailymail (HERMANN et al., 2015). Uma etapa importante na preparação de um sumarizador é avaliar a qualidade dos resumos que são elaborados, o que pode ser feito tanto através de avaliação humana ou utilizando métodos automáticos que se baseiem nos resumos-candidato, isto é, gerados pelo modelo, e resumos-referência para mensurar qualidade. A principal das métricas automáticas de desempenho, especialmente para sumarizadores extrativos, são as pontuações ROUGE, uma família de métricas que leva em conta a coocorrência de n-gramas presentes no resumo- candidato comparado a um ou mais resumos-referência. Com base em um resumo-alvo S e um resumo-candidato R as pontuações ROUGErecall (Equação 2.1) e ROUGEprecision (Equação 2.2) são calculadas como se segue: ROUGErecall−n = ∑ gramn∈S countmatch(S,R)(gramn)∑ gramn∈S count(gramn) (2.1) ROUGEprecision−n = ∑ gramn∈S countmatch(S,R)(gramn)∑ gramn∈R count(gramn) (2.2) onde countmatch(S,R)(gramn) corresponde ao número máximo de coocorrências considerando do n-grama gramn, e count(gramn) é o número de ocorrências de gramn. Costumeiramente, é empregada a média harmônica entre as pontuações ROUGErecall−n e ROUGEprecision−n, referida como ROUGE Fn, ou simplesmente ROUGEn, para avaliar o desempenho dos modelos de maneira unificada. Existe ainda a medida ROUGEL que considera a maior subsequência de n-gramas para realizar o cálculo. 2.2 Inteligência Artificial Explicável Recentemente, algoritmos de aprendizado de máquina demonstraram capacidades avançadas, muito em função do avanço na área do Aprendizado Profundo (LECUN; BENGIO; HINTON, 2015). Hoje, modelos do gênero são capazes de executar tarefas altamente complexas e até humanamente inviáveis. As redes neurais profundas, nome utilizado para endereçar redes neurais com múltiplas camadas escondidas (LECUN; BENGIO; HINTON, 2015), rapidamente se tornaram tendência de estudo e aplicação, impulsionando pesquisas e o mercado, além de contribuir para o crescimento de novas carreiras. Mesmo que muitas dessas tecnologias tenham evoluído ao ponto de entregarem re- sultados sobre-humanos, ainda existem diversos desafios a serem sobrepostos nessa área. Um particularmente relevante é a falta de transparência e explicabilidade desses modelos (DOŠILOVIĆ; BRČIĆ; HLUPIĆ, 2018; SAMEK; MÜLLER, 2019; ARRIETA et al., 2020), que Capítulo 2. Referencial Teórico 27 diminui a confiabilidade e a clareza por trás das decisões tomadas por esses algoritmos. Com a sofisticação das técnicas de aprendizado de máquina, os modelos têm se tornado cada vez mais complexos, aumentando a desconfiança envolvida (ZHU et al., 2018). Se levarmos em conta ambientes de natureza mais crítica, como as aplicações de algoritmos de IA no auxílio a decisões médicas ou financeiras, a falta de transparência das técnicas pode ser um fator limitante ou até desqualificante (SAMEK; MÜLLER, 2019). Em resposta, termos como interpretabilidade e explicabilidade de modelos têm sido cada vez mais recorrentes em publicações da área de IA (ARRIETA et al., 2020), o que denota a preocupação crescente da comunidade científica com relação a essas questões. A Inteligência Artificial Explicável (do inglês, Explainable Artificial Intelligence ou XAI) é área de estudo que surge para compreender essa problemática. A XAI estuda o universo que abrange desde a criação de modelos transparentes, compreensíveis e interpretáveis a técnicas que visam promover a explicabilidade de modelos caixa-preta – outro termo bastante presente para denotar a ausência de interpretabilidade. Se, em geral, o foco das técnicas de aprendizado de máquina é resolver problemas através de modelos estatísticos inteligentes, o foco da XAI é concentrado em aliar essas questões ao entendimento das pessoas envolvidas. Arrieta et al. (2020) argumentam que uma IA, para ser dita explicável, precisa ser não só simples de entender, mas especialmente entendível na perspectiva do usuário em questão. Na visão dos autores, tanto as razões quanto a clareza das explicações depende completamente do público, e portanto, o sistema precisa ser desenvolvido sob essa ótica. Ainda sobre isso, Samek e Müller (2019), por sua vez, acreditam que diferentes perfis de usuários podem vir a requerer diferentes tipos explicações, o que eventualmente implicará na utilização de diferentes abordagens. Um primeiro motivo para a elaboração desses modelos é que explicações fomentam confiança e verificabilidade (SAMEK; MÜLLER, 2019). Receber explicações proporciona aos humanos mais segurança e convicção quanto a decisões que estão sendo tomadas. Além da confiança incutida, fica também mais claro as potencialidades e limitações do algoritmo; se é entendido “como” as decisões são tomadas, também é verificado “onde” e “porque” o modelo funciona (ou deixa de funcionar). Um episódio curioso a respeito disso é o do classificador capaz de predizer “acurada- mente” imagens de cavalos que, na prática, estava decidindo com base na presença de marcas d’água de direitos autorais no canto das imagens – que passaram despercebidas na coleta de dados para treino e teste – e não no que era esperado, os cavalos (LAPUSCHKIN et al., 2016). Um modelo com um viés indesejado ou que se baseia demais em características impraticáveis, ainda que aparente ser acurado, é indesejado e pouco confiável. Nesse sentido, as explicações poderiam cumprir um papel fundamental ao dar credibilidade ou não ao funcionamento do algoritmo. Explicações também poderiam contribuir para a formação de insights a respeito do Capítulo 2. Referencial Teórico 28 problema e seus dados (SAMEK; MÜLLER, 2019), o que poderia ser útil em diferentes cenários, especialmente em contextos acadêmicos ou de pesquisa. Usuários poderiam, a partir da modelagem de uma tarefa ou problema específico, descobrir relações inicialmente desconhecidas dentro das características dos dados. Na biomedicina, por exemplo, entender melhor as relações entre as características de entrada pode contribuir para elaboração de um teste clínico mais simples e menos custoso (LIBBRECHT; NOBLE, 2015), a partir do reconhecimento dos atributos mais relevantes para uma dada tarefa. Muito além da modelagem de tarefas em si, por vezes seria interessante aprender com o problema que está sendo tratado. Um outro motivo importante é a ética e a responsabilidade atrelada ao uso da IA. Em 2016 o Parlamento Europeu instituiu várias diretrizes quanto ao uso de dados pessoais e o direito de pedir por explicações sobre decisões baseadas em algoritmos de computador (GOODMAN; FLAXMAN, 2017). Com o uso da IA muito presente no cotidiano, adequações legais são importantes e tendem a se tornar frequentes, uma vez que é esperado que os algoritmos não firam princípios éticos e de privacidade de pessoas. Para tanto, técnicas explicáveis são imprescindíveis para a melhor compreensão e entendimento a respeito das saídas desses algoritmos. Técnicas interpretáveis e explicáveis se tornaram um tópico muito discutido na área de IA e representa o próximo grande passo em direção a modelos confiáveis e responsáveis. A seguir, serão apresentados conceitos gerais a respeito de XAI, além de assuntos pertinentes ao presente trabalho nesse contexto. 2.2.1 Tipos de explicação Assim como discutido no início do capítulo, o que determina a qualidade das explicações é o entendimento do usuário. Além do nível de detalhamento das explicações, o conteúdo que está sendo apresentado é muito importante em ditar a percepção do que está sendo efetivamente explicado. Tipos diferentes de explicação abordam diferentes aspectos do modelo (SAMEK; MÜLLER, 2019) de acordo com a intenção. Isto posto, para Samek e Müller (2019) são quatro os tipos principais de explicação: • Representações aprendidas: visam explicitar o entendimento contido em representa- ções intermediárias geradas pelo algoritmo (KIM et al., 2018), especialmente quando lidando com redes neurais. Isto contribui para a compreensibilidade de que tipo de informação pode ser encontrada nas representações internas de um modelo, seja para entendê-lo melhor ou para proteger informações. Por exemplo, não entender ou se atentar ao que está armazenado nestas representações poderia implicar em brechas de segurança, caso terceiros o façam (ARRIETA et al., 2020). • Predições individuais: pretendem gerar explicações a respeito de predições individuais, especialmente com relação aos dados de entrada. Por exemplo, ao gerar um mapa de Capítulo 2. Referencial Teórico 29 calor que denote áreas salientes (SIMONYAN; VEDALDI; ZISSERMAN, 2014) para uma dada predição do algoritmo. Pode ser útil para a prospecção de insights mais sutis entre as características ou do porquê uma classe foi atribuída a uma amostra específica. • Comportamento do modelo: a ideia geral consiste em gerar um entendimento abran- gente do comportamento do modelo. Um exemplo seria elencar as características mais relevantes globalmente com base no aprendizado obtido no todo. Além de ajudar a encontrar causalidade entre características de entrada e as predições, torna as decisões do modelo no geral mais transparentes, promovendo confiabilidade. • Exemplos representativos: identificam exemplos de treino representativos para a tarefa em questão. Como elencado por Samek e Müller(2019), esse tipo de explicação pode propiciar um melhor entendimento da base de dados além ajudar identificar os tipos de vieses que o modelo está sofrendo a partir dela. 2.2.2 Metodologias explicáveis Técnicas de XAI pretendem, de modo geral, promover explicabilidade na modelagem de problemas de IA. Nesse contexto, metodologias transparentes e interpretáveis estão mais relacionadas a modelos explicáveis em essência. Por outro lado, existem também as técnicas post-hoc que se referem a produção de explicações a partir de algoritmos não naturalmente explicáveis (ou caixa-preta) (ARRIETA et al., 2020). Como apresentado na Figura 3, por padrão, algoritmos que apresentam melhores resultados em termos de desempenho são menos explicáveis em contrapartida. Contornar essa dificuldade, seja tornando modelos performáticos mais interpretáveis ou elaborando algoritmos mais transparentes, é o grande interesse das metodologias de XAI. Figura 3 – Desempenho vs. Explicabilidade Fonte: Gunning (2017) A seguir, serão apresentados alguns conceitos básicos acerca de modelos transparentes e técnicas de explicabilidade. Capítulo 2. Referencial Teórico 30 2.2.2.1 Transparência e modelos caixa-de-vidro As técnicas interpretáveis, caixa-de-vidro, ou transparentes são aquelas onde o processo de entender o modelo em questão é direto ou simplificado. A natureza de inúmeras técnicas de aprendizado de máquina clássicas está inclinada a abordagens mais simples de entender e interpretar, tornando-as mais transparentes do que técnicas avançadas como, por exemplo, Redes Neurais Profundas. O problema, entretanto, não está no uso de neurônios em si, mas na densidade dessas redes. Um único perceptron (ROSENBLATT, 1958), provavelmente seria mais interpretável do que um sistema baseado em um número grande de regras (ARRIETA et al., 2020), mesmo que as regras, individualmente, sejam mais intuitivas que a ativação neural. A densidade, porém, seja de um número grande de neurônios ou de regras, é um dos pontos que afeta a transparência do modelo. Em alguns cenários, a interpretabilidade pode ser mais importante do que o desempenho em si, pois, como mencionado, as métricas de desempenho não garantem que o modelo é necessariamente confiável e aplicável no mundo real (LAPUSCHKIN et al., 2019). Nesse contexto, técnicas transparentes ganham força em detrimento de abordagens mais sofisticadas e menos interpretáveis. As Arvores de Decisão, por exemplo, possuem transparência considerável, razão pela qual são bastante utilizadas na tomada de decisões ainda que seu desempenho normalmente não acompanhe outras metodologias. Mesmo para um não-especialista, a noção por trás do processo de decisão do algoritmo é bastante intuitiva, facilitando a compreensão e o convencimento do algoritmo. Regressores Lineares/Logísticos também favorececem a sua interpretabilidade graças a relação linear que constroem entre as características de entrada e a saída. Se por um lado, muitos problemas podem ser difíceis de se resolver linearmente, por outro, isto pode simplificar a visualização da relevância e possíveis causalidades das características para o problema. Os Modelos Aditivos Generalizados (do inglês, Generalized Additive Models ou GAMs), que constituem uma classe de modelos que substituem a função linear dos regressores por uma de agregação de funções suaves (HASTIE; TIBSHIRANI, 1987), também podem ser vistos como transparentes, baseado na aditividade do modelo. Em resumo, as chamadas técnicas transparentes são aquelas que, na sua natureza, podem ser facilmente apresentadas ao humano, seja conceitualmente ou em termos visuais, permitindo que suas partes sejam explicadas sem que ferramentas adicionais muito elaboradas sejam usadas (ARRIETA et al., 2020). 2.2.2.2 Explicabilidade e modelos caixa-preta Diferentemente dos modelos transparentes, os modelos caixa-preta ou com baixa interpretabilidade são aqueles onde o entendimento das decisões tomadas é dificultoso. Alguns Capítulo 2. Referencial Teórico 31 exemplares, como arquiteturas neurais profundas, usualmente são procurados por aliviar a etapa de engenharia de características, e entregar, para muitas tarefas, alto desempenho estatístico. No entanto, quanto mais densas e complexas as arquiteturas, menos transparentes e mais difíceis de compreender se tornam as predições. Nesse caso, técnicas à parte que fomentem explicabilidade de modelos inicialmente densos são chamadas técnicas post-hoc. As técnicas post-hoc visam preencher a lacuna entre modelos caixa-preta e as explicações (ARRIETA et al., 2020). Para tanto, algumas técnicas se utilizam de perturbações do modelo original para a obtenção de explicações. O método de oclusão (ZEILER; FERGUS, 2014), por exemplo, diz respeito à investigação de modelos através da obstrução de diferentes áreas das entradas (no trabalho em questão, imagens), visando identificar quais partes seriam mais sensíveis às perturbações, baseando-se nas mudanças verificadas na intensidade das saídas intermediárias ao longo das camadas da rede. As áreas de sensibilidade podem ser entendidas como pontos-chave no entendimento das predições. O LIME (RIBEIRO; SINGH; GUESTRIN, 2016), por sua vez, advém da ideia de utilizar perturbações para o treinamento de novos modelos interpretáveis, que expliquem o modelo caixa-preta. O algoritmo usa perturbações sobre uma amostra original para aprender um modelo simplificado que aproxime o comportamento do modelo original nos arredores daquela amostra. Como pode ser visto na Figura 4, a ideia é obter um processo de decisão que represente a modelagem do problema localmente, dessa forma, o modelo simplificado poderia ser utilizado para elaborar explicações para a predição da amostra a ser investigada. A Figura 5 denota o processo, onde a linha tracejada representa a aproximação obtida via LIME que visa explicar o comportamento do modelo original, representado pela classificação em áreas azuis e vermelhas. Figura 4 – LIME Fonte: Ribeiro, Singh e Guestrin (2016) Existem, também, técnicas baseadas em propagação, como é o caso do framework LRP (do inglês, Layer-wise Relevance Propagation) (BACH et al., 2015). A ideia consiste em explicar decisões individuais de modelos neurais retro-propagando a predição em direção às entradas usando regras locais de redistribuição (SAMEK; MÜLLER, 2019). O interesse é em Capítulo 2. Referencial Teórico 32 Figura 5 – Explicando predições individuais Modelo Dados e Predição Explicação Humano toma decisão Explicadorgripe espirro peso enxaqueca sem fadiga idade espirro enxaqueca sem fadiga Fonte: Traduzida de Ribeiro, Singh e Guestrin (2016) investigar as ativações dos neurônios de maneira facilitada, o que também pode ser usado para identificar áreas relevantes nas entradas, como na Figura 6, que denota o processo de utilizar uma medida de saliência e mapas de calor para representar as áreas consideradas mais importantes durante a classificação da imagem à esquerda. Figura 6 – Explicação de pixels Fonte: Traduzida de Bach et al. (2015) Lapuschkin et al.(2019) mostram, que meta-explicações, nesse contexto, também poderiam ser úteis para a elaboração de explicações. Mais especificamente, os autores pro- põem a metodologia SpRAy (acrônimo para Spectral Relevance Analysis) para a inspeção de comportamentos de decisão do modelo, através da clusterização de explicações geradas pelo LRP. O principal objetivo é identificar as diferentes estratégias de predição do modelo e seus comportamentos típicos e atípicos. Na prática, isso ajudaria a entender o que o modelo leva em consideração para funcionar, possivelmente ajudando na identificação de comportamentos indesejados. Em resumo, as técnicas post-hoc são ferramentas complementares que, de alguma forma, tentam contornar a carência de interpretabilidade inerente a modelos originalmente caixa-preta. Capítulo 2. Referencial Teórico 33 2.2.3 Trabalhos correlatos Diversos trabalhos de destaque, hoje em dia, estão relacionados a modelos neurais profundos, que, apesar de terem elevado o nível, tornaram a resolução de tarefas muito menos intuitiva (DANILEVSKY et al., 2020). Na Sumarização Abstrativa, por exemplo, os modelos evoluíram consideravelmente após o advento do Aprendizado Profundo (WU et al., 2021). A intepretabilidade na área de sumarização poderia trazer uma nova visão ao problema e à evolução da tarefa, no entanto, trabalhos nesse sentido ainda são escassos, principalmente considerando o latente interesse nos modelos de linguagem grandes (do inglês, Large Language Models ou LLM), que são comumente complexos e densos (DEVLIN et al., 2019; SUTSKEVER; VINYALS; LE, 2014), e estão distantes das ideias fomentadas pela XAI. Um estudo recente – o primeiro que se tem conhecimento, fez um levantamento da aplicação de técnicas de XAI no domínio de PLN (DANILEVSKY et al., 2020). Segundo os autores, as abordagens mais comuns são as voltadas à investigação da importância de características, que tendem a possibilitar intuitividade dentro do processo lógico dos modelos, o que justificaria seu uso. A utilização de mecanismos de atenção (BAHDANAU; CHO; BENGIO, 2015), por exemplo, foi uma das abordagens mais utilizadas, justamente por apelar à intuição humana e ajudar a indicar onde o modelo neural está “focando” (DANILEVSKY et al., 2020). GHAEINI; FERN; TADEPALLI (2018), por exemplo, fazem um mapeamento da saliência (nesse caso, derivadas de primeira ordem) dos mecanismos de atenção e dos portões de redes LSTMs. No entanto, o debate sobre o uso e quão explicáveis esses mecanismos são na prática, ainda permanece em aberto (JAIN; WALLACE, 2019; SERRANO; SMITH, 2019). A recente utilização de LRP dentro de PLN (ARRAS et al., 2017) também é um sinal positivo de avanço, visto que a técnica é aplicável a muitos tipos de arquitetura neural. Entretanto, seu uso ainda é preponderante para tarefas de classificação padrão, não tendo sido estudado em arquiteturas mais complexas e bem-sucedidas como sequence-to-sequence, até onde se tem conhecimento. Na área de visualização da informação, o trabalho de Strobelt et al. (2018) propôs uma ferramenta de visualização para depuração de modelos sequence-to-sequence em geral. A ferramenta permite investigar as decisões do modelo utilizando busca em feixe sobre o processo de decisão, além de possibilitar relacionar o estado interno de amostras similares. A ideia é permitir que usuário examine as decisões do modelo tanto do ponto de vista geracional, quanto do de “entendimento” da sentença de entrada. Em um outro trabalho, este com foco em Sumarização Extrativa, Nallapati, Zhai e Zhou (2017) argumentam promover interpretabilidade de maneira automática ao treinamento do modelo. A ideia consiste em calcular a probabilidade de uma dada sentença ser adicionada ao resumo através de uma função elaborada pelos autores que, segundo argumentam, indicam Capítulo 2. Referencial Teórico 34 propriedades como adequação de conteúdo, saliência e novidade da sentença, que poderiam ser utilizadas como informação interpretável ao usuário. Na prática, entretanto, pode ser difícil validar a qualidade dessas interpretações e garantir que elas realmente preservam os significados propostos, dada a profundidade e a complexidade da rede. Sarkhel et al. (2020), por sua vez, propõem um novo mecanismo de atenção para pro- blemas de Sumarização Abstrativa que, segundo discutem os autores, é mais leve e interpretável do que o utilizado em outras abordagens. O método consiste em construir um resumo protótipo a partir de uma arquitetura neural estabelecida e depois adequá-lo usando um mecanismo de atenção baseado em 3 núcleos. Cada núcleo está associado a uma propriedade (a saber, cobertura de tópicos principais, palavras-chave e redundância de informações), expressa pelas características que são aproveitadas no núcleo, e possibilitando que, durante a inferência, a contribuição de cada sentença protótipo seja medida com relação as propriedades, segundo argumentam os autores. Também recentemente, Ghodratnama et al. (2020) propuseram uma metodologia inter- pretável baseada em mapeamento de características para Sumarização Extrativa. A metodologia, que aprende e atribui pesos às características que podem ser posteriormente usados como explicações, apresentou resultados superiores a outra técnicas robustas e menos interpretáveis, como por exemplo o modelo neural de Nallapati, Zhai e Zhou (2017). A estratégia se baseia em um algoritmo que mistura aprendizados supervisionado e não-supervisionado em um proce- dimento que permite indicar a importância de cada uma das características seja para a decisão de inclusão ou exclusão de uma dada sentença no resumo. De modo geral, a formulação e o uso de metodologias interpretáveis aplicadas ao PLN ainda está em seus estágios iniciais. A sumarização de texto, especificamente, também foi pouco explorada nesse contexto, sendo raramente mencionada junto a estratégias e metodologias que fomentem diretamente interpretabilidade. 2.3 Modelos Aditivos Generalizados Como discutido anteriormente, a sofisticação dos modelos de Aprendizado de Máquina afetou os algoritmos e sua explicabilidade, corroborando para a criação de modelos mais acurados ao preço de torná-los, também, menos transparentes (ZHU et al., 2018). Os GAM (HASTIE; TIBSHIRANI, 1987), por sua vez, se destacam como uma espécie de meio termo entre modelos de complexidade total e modelos lineares, mesclando aspectos positivos de ambos os contextos (LOU; CARUANA; GEHRKE, 2012). Em modelos de alta complexidade, como redes neurais profundas, é comum serem utilizadas funções não-lineares que agregam múltiplos componentes de entrada por vez, sejam eles características extraídas ou dados sem qualquer processamento (como os pixeis de uma imagem). Em geral, isso requer conjuntos maiores de dados para treinamento, mas propicia Capítulo 2. Referencial Teórico 35 ao modelo um potencial maior de aprendizado. Por outro lado, isso também dificulta a interpreatabilidade do modelo, já que analisar a relação construída entre componentes e a saída durante o aprendizado do modelo se torna mais abstrata. Em contrapartida, a formulação de modelos lineares resulta em simplicidade no que diz respeito a sua interpretabilidade, já que o exercício de analisar os coeficientes lineares presentes na formulação do modelo pode trazer certa clareza sobre sua relevância (módulo) ou até como se relacionam com a saída das predições (sinal). Desse modo, a estratégia dos GAM pode ser vista como uma tentativa de conciliar o desempenho oferecido por abordagens não-lineares ao ajustar problemas avançados e a interpretabilidade atrelada a elaborar funções de baixa dimensionalidade que são combinadas de maneira aditiva. Os GAM representam a classe de modelos cuja fórmula é descrita pela Equação 2.3: g(y) = ∑ fi(xi) (2.3) onde a função g é chamada função link ou função de ligação e as funções f são chamadas funções shape ou funções de forma. Dessa forma, cada componente ou característica de entrada xi é ajustada por sua respectiva função de forma fi. No contexto de explicabilidade, um modelo de ordem linear pode ser considerado intuitivo, no entanto, isto não significa necessariamente que as interpretações que oferece são fidedignas a natureza do problema, como exemplificado por Lou, Caruana e Gehrke (2012), que advertem que tal tentativa pode se fazer “enganosa”. Em outras palavras, poderíamos obter uma solução com boa interpretabilidade, mas que quanto mais distante do comportamento de mundo real do problema, como consequência, pode não oferecer a melhor interpretação acerca do problema, em si. Assim sendo, a presença de funções de forma não-lineares encontrada nos GAM pode, além de elevar a acurácia final, contribuir para um modelo interpretável mais adequado ao problema se comparados a modelos transparentes menos robustos. Analisar as funções de forma uma a uma, como ilustrado na Figura 7, pode ser uma forma de ajudar o usuário a visualizar as relações aprendidas pelo modelo. Ademais, graças a aditividade do modelo, o processo de entender “quanto” cada característica contribui para resultado final é mais direto do que em modelos de complexidade total. Assim, o modelo também facilita a visualização de seu processo de inferência para amostras individuais, chamadas de explicações locais, bem como para conjuntos de múltiplas amostras (LOU; CARUANA; GEHRKE, 2012; LOU et al., 2013; NORI et al., 2019). É possível, por exemplo, observar quais funções f contribuem mais em uma dada predição, ou, até, calcular a contribuição média de uma dada f para um conjunto de múltiplas amostras, oferecendo uma certa noção de como a característica atrelada foi impactante nas predições daquelas observações (LOU; CARUANA; GEHRKE, 2012; NORI et al., 2019). Capítulo 2. Referencial Teórico 36 Figura 7 – Funções de forma Fonte: Lou, Caruana e Gehrke (2012) O Quadro 1 resume conceitualmente a relação entre a complexidade de modelos, inteli- gibilidade e acurácia potencial, onde ML, MLG, MA, MAG e MCT denotam, respectivamente, Modelo Linear, Modelo Linear Generalizado, Modelo Aditivo, Modelo Aditivo Generalizado e Modelo de Complexidade Total. Enquanto modelos lineares são altamente inteligíveis, modelos de alta complexidade ganham em acurácia, ao preço de sua inteligibilidade; por sua vez, Mode- los Aditivos e Modelos Aditivos Generalizados apresentam um balanço entre inteligibilidade e acurácia (LOU; CARUANA; GEHRKE, 2012). Quadro 1 – Inteligibilidade e Acurácia Modelo Fórmula Inteligibilidade Acurácia ML y = β0 + β1x1 + ...+ βnxn +++ + MLG g(y) = β0 + β1x1 + ...+ βnxn +++ + MA y = f1(x1) + ...+ fn(xn) ++ ++ MAG g(y) = f1(x1) + ...+ fn(xn) ++ ++ MCT y = f(x1, ..., xn) + +++ Fonte: Extraído de Lou, Caruana e Gehrke (2012). Uma forma popular de aprender Modelos Aditivos é empregando o algoritmo Backfitting (HASTIE; TIBSHIRANI, 1987; LOU; CARUANA; GEHRKE, 2012). O conceito do algoritmo consiste em, iterativamente, aprender cada função de forma sobre os resíduos das demais funções, na intenção de alcançar um modelo total que possibilite aproximar suas predições de y. A seguir, o Algoritmo 1 denota o processo para um conjunto de dados D = {(xi, yi)}N 1 , onde x = (x1, ..., xK) são vetores com K características e y ∈ R é o alvo. Como explicita Lou, Caruana e Gehrke (2012), a primeira função de forma f1 é aprendida com o objetivo Capítulo 2. Referencial Teórico 37 de predizer y, a segunda (f2) de predizer os resíduos y − f1(x1), a terceira (f3) os resíduos y−f1(x1)−f2(x2), e assim por diante até o obter-se as K funções, cada uma modelando uma das K características. Feito isso, a primeira função de forma é descartada e reaprendida nos resíduos das outras n−1 funções, e assim por diante. O algoritmo termina com o encerramento do laço externo M, ou utilizando alguma medida de convergência. Algoritmo 1 Backfitting (regressão) 1: fj ← 0 2: para m ← 1 até M faça 3: para j ← 1 até K faça 4: R ← {xij, yi − ∑ k fk(xik)}N i , k 6= j 5: Aprende a função de forma fj : xj → y usando R como conjunto de treino 6: fim para 7: fim para No caso de um problema logístico, como é a tarefa de classificação binária em que yi ∈ {0, 1}, deduzimos a Equação 2.4 a partir de 2.3: logit p(x) = ∑ fi(xi) (2.4) onde p(x) = P (y = 1|x) e logit p(x) = log[p(x)/(1− p(x))]. Nesse caso, o modelo é treinado pelo algoritmo de Local Scoring, uma generalização do Backfitting, proposta por Hastie e Tibshirani (1987). Seja F (xi) = ∑ k fk(xik), a Equação 2.5 formula p(xi) como se segue: p(xi) = logit−1(F (xi)) = exp(F (xi)) 1 + exp(F (xi)) = 1 1 + exp(−F (xi)) (2.5) Para classificação binária, o Local Scoring consiste, então, em obter as funções fk da iteração m + 1 aproximando a resposta zi, em vez de yi, usando o algoritmo Backfitting e pesos de observação wi, de acordo com as Equações 2.6 e 2.7: zi = F (xi)m + yi − p(xi) p(xi)(1− p(xi)) (2.6) wi = p(xi)(1− p(xi)) (2.7) Os Modelos Aditivos Generalizados receberam atenção em estudos recentes, cujos ajustes propostos permitiram melhorias de desempenho e resultados próximos de técnicas de Capítulo 2. Referencial Teórico 38 complexidade total (LOU; CARUANA; GEHRKE, 2012; LOU et al., 2013; NORI et al., 2019). As chamadas Explainable Boosting Machine e GAMI-Net abordadas nas Seções 2.3.1 e 2.3.3, respectivamente, são resultados de alguns desses estudos. 2.3.1 Explainable Boosting Machine Como apresentado anteriormente, GAM combinam aditivamente uma sequência de funções de forma, cada uma modelando uma característica distinta da entrada, em um modelo maior e mais robusto, que pode ser usado para aproximar comportamentos esperados. Por definição, as funções de forma admitem comportamentos variados, no entanto, considerando a viabilidade do modelo esperado, a escolha da estratégia para obtenção das funções de forma é uma etapa importante para potencializar o desempenho desses modelos. Assim, o algoritmo GA2M compreende estratégias avançadas que combinam GAM a técnicas modernas de Aprendizado de Máquina (LOU et al., 2013; NORI et al., 2019). Explainable Boosting Machine (EBM) é a nomenclatura utilizada a partir da disponibilização pública do algoritmo GA2M (LOU et al., 2013) em conjunto ao framework InterpretML (NORI et al., 2019). Uma das estratégias é a de utilizar árvores de decisão combinadas através de bagging para a composição das funções. As árvores de decisão (QUINLAN, 1986) são conhecidas pela sua simplicidade e eficiência de execução, e funcionam tal qual um fluxograma, nesse caso, de decisões tomadas sobre as entradas. Entretanto, suas propriedades de generalização são pobres quando comparadas a outras famílias de modelos, o que as torna limitadas em contextos onde mais capacidade de aprendizado é necessária (ARRIETA et al., 2020). Por outro lado, quando inúmeras delas são arranjadas através de estratégias de combinação (BAUER; KOHAVI, 1999) ganhos de acurácia podem ser observados (LOU; CARUANA; GEHRKE, 2012), através da mitigação de variância do modelo total. Com esses ganhos em vista, as EBMs utilizam árvores combinadas em uma estratégia de bagging (BAUER; KOHAVI, 1999), que visa a obtenção de diversos modelos agindo em cooperação. O conceito envolvido pela técnica consiste em construir classificadores/regressores fortes a partir do arranjo de inúmeros e mais simples classificadores/regressores. O processo tradicional se baseia em criar múltiplos subconjuntos (amostras com reposição) a partir da base de dados, usando-os para treinar diferentes modelos de predição, cada qual sobre um dos subconjuntos (BAUER; KOHAVI, 1999). Depois de treinados, as predições são combinadas usando média ou votação por maioria, e a partir daí, a predição do modelo, no todo, é obtida. No caso das EBMs, cada função de forma, individualmente, é uma combinação de inúmeras árvores treinadas via bagging e, assim, tentam conciliar eficiência computacional a comportamentos complexos e não lineares para mapear as características de entrada, o que Capítulo 2. Referencial Teórico 39 incrementa o desempenho em problemas variados (LOU; CARUANA; GEHRKE, 2012; LOU et al., 2013). Outra abordagem incluída nas EBMs diz respeito ao procedimento de treinamento aplicado. De modo geral, Lou, Caruana e Gehrke (2012) propõem uma abordagem baseada em boosting de gradiente (FRIEDMAN, 2001; FRIEDMAN, 2002) para treinamento do modelo total. Nela, as funções são aprendidas fazendo uso de resíduos do preditor, tal como no Backfitting, no entanto, o algoritmo baseado em boosting objetiva, a cada ciclo m, melhorar a aproximação fj atual combinando-a explicitamente a aproximações fj anteriores, em vez de substituir absolutamente fj. Seja y ∈ {−1, 1} o alvo das predições, o objetivo do algoritmo utilizado é minimizar a função de custo L: L(y, F ) = log(1 + exp(−2yF )) (2.8) onde F (x) = 1 2 log [ P (y=1|x) P (y=−1|x) ] será obtida via estratégia de boosting. Desse modo, o procedi- mento ajusta o modelo utilizando o Algoritmo 2 e as predições podem ser feitas pela estimativa p(x) = P (y = 1|x) = 1 1+exp(−2F (x))) . O algoritmo vale-se de obter a pseudo-resposta ŷ, que é usada para ajustar uma nova função que sera combinada à fj anterior. Algoritmo 2 Boosting de GAM baseados em árvore (classificação) 1: fj ← 0 2: para m ← 1 até M faça 3: para j ← 1 até K faça 4: ŷi ← 2yi 1+exp(2yiF (xi)) , i = 1, ..., N 5: Aprende {Rlm}L 1 ← uma árvore com L nós folha usando {(xi, ŷi)}N i como conjunto de treino 6: γlm ← ∑ xij ∈Rlm ŷi∑ xij ∈Rlm |ŷi|(2−|ŷi|) , l = 1, ..., L 7: fj = fj +∑L l=1 γlm1(xij ∈ Rlm) 8: fim para 9: fim para Assim como para o bagging, as estratégias de boosting mitigam variância e contribuem para a acurácia dos modelos. No caso das EBMs, Lou, Caruana e Gehrke (2012) propõem que ambas as técnicas sejam usadas em conjunto para um melhor aproveitamento em acurácia do modelo, além de contar com a possibilidade utilizar interações de pares, apresentadas na Seção 2.3.2. 2.3.2 Interações de pares Modelos Aditivos Generalizados são modelos estatísticos da forma 2.3, cuja interpreta- bilidade está relacionada, de um modo geral, ao fato de cada função f ser univariada. Lou et al. (2013) abordam a lacuna de desempenho entre os GAM padrão e os Modelos de Complexidade Capítulo 2. Referencial Teórico 40 Total utilizando o fato de que a Equação 2.3 não modela interações diretas entre características distintas. O fato de cada função de forma estar associada a uma única característica xi contribui diretamente para a interpretabilidade do modelo, no entanto Lou et al. (2013) argumentam que seria possível, sem grande perda nesse aspecto, melhorar a acurácia acrescentando-se funções de forma bivariadas e valer-se de técnicas de visualização como, por exemplo, mapas de calor. Desse modo, Lou et al. (2013) propõem o algoritmo GA2Ms e a utilização de modelos da classe Modelos Aditivos Generalizados com Interações (GAMI), formulados pela Equação 2.9: g(y) = ∑ hi(xi) + ∑ fij(xi, xj) (2.9) onde h são funções de forma univariadas, também chamadas de efeitos principais (YANG; ZHANG; SUDJIANTO, 2021), e f são chamadas de interações de pares. Nessa variante, os autores introduzem a construção do modelo em duas etapas, usando uma estratégia gananciosa. Na primeira, o melhor GAM é construído normalmente, com base em funções de forma univariadas. Na segunda, as funções do primeiro modelo são corrigidas e funções bivariadas são modeladas nos resíduos de maneira eficiente. De modo geral, o algoritmo de seleção de pares de características mantém dois conjuntos S e Z, onde S contém os pares selecionados até então e Z os pares restantes. Assim, a cada nova rodada de iteração da segunda etapa, em uma estratégia gulosa, o algoritmo aproxima as funções de pares e tenta selecionar o melhor candidato de Z, ou seja, o que melhor ajusta os resíduos, a partir daí removendo-o de Z e adicionando-o a S. Assim, o modelo segue se reajustando, calculando resíduos e incluindo novos pares até que não haja melhoria considerável. Afim de evitar o custo computacional alto de vasculhar Z completamente, Lou et al. (2013) propõem uma heurística baseada em cortes e uma tabela de pesquisa visando acelerar o processo de busca. 2.3.3 GAMI-Net GAMI-Net (YANG; ZHANG; SUDJIANTO, 2021) é uma arquitetura de redes neurais proposta com a intenção de mesclar aspectos de interpretabilidade presentes em modelos aditivos e a capacidade de redes neurais profundas em aprender comportamentos não-lineares. De modo geral, a arquitetura consiste em múltiplas subredes com camadas escondidas, cada qual correspondendo a uma função de forma distinta, que, então, são combinadas aditivamente, conforme a Equação 2.9 que formula os GAMI. Para tanto, os autores (YANG; ZHANG; SUDJIANTO, 2021) propõem uma treinamento baseado em gradiente descendente que ajusta os efeitos principais e interações de pares em etapas separadas. Considerando as funções de forma, a arquitetura foi projetada com a Capítulo 2. Referencial Teórico 41 perspectiva de preservar três principíos: esparsidade, no sentido de preservar apenas efeitos principais que forem considerados relevantes; hereditariedade, mantendo apenas interações de pares com pelo menos um efeito principal pai relacionado; e clareza marginal, que diz respeito a tentativa de evitar que efeitos principais e interações de pares se confundam. Inicialmente, o algoritmo treina somente subredes de efeitos principais, lançando fora aquelas cuja contribuição for considerada de baixa importância, utilizando uma medida calculada. Basicamente, a importância de uma dada função de forma D pode ser obtida com base em sua variância amostral, conforme propõem os autores Yang, Zhang e Sudjianto: D(hi) = 1 n− 1 ∑ h2 i (xi) (2.10) D(fij) = 1 n− 1 ∑ f 2 ij(xi, xj) (2.11) Quanto mais efeitos principais são incluídos no modelo, menor tende a ser o erro de validação, no entanto, incluir efeitos principais demasiadamente poderia culminar em overfitting, dessa forma, a ideia consiste em limitar o modelo apenas a funções de forma que não sejam triviais, estimulando a parcimônia da modelagem em questão (YANG; ZHANG; SUDJIANTO, 2021). Isso é realizado ranqueando os efeitos com base na sua na importância D e podando os que contribuem menos com base em um limite de tolerância que leva em conta o erro de validação (YANG; ZHANG; SUDJIANTO, 2021). Em um segundo momento, o algoritmo treina um conjunto de interações de pares, onde, de maneira similar, o mesmo princípio de esparsidade é aplicado, além da restrição de hereditariedade mencionada anteriormente. O algoritmo seleciona um número fixo de interações de pares usando o procedimento de ranqueamento proposto por (LOU et al., 2013) e retreina a arquitetura com o acréscimo destas interações e os efeitos principais congelados, minimizando a função de custo L utilizando gradiente descendente (YANG; ZHANG; SUDJIANTO, 2021): L(θ) = l(θ) + λ ∑ i∈S1 ∑ (i,j)∈S2 Ω(hi, fij) (2.12) onde os conjuntos ativos de efeitos principais e interações de pares S1 e S2 são determinados sujeitos às restrições de esparsidade e hereditariedade e o custo l(θ) é determinado pela tarefa em questão (por exemplo, regressão ou classificação). O segundo termo é a regularização da clareza marginal, onde λ ≥ 0 é o fator de regularização e Ω é definido como se segue (YANG; ZHANG; SUDJIANTO, 2021): Ω(hi, fij) = ∣∣∣∣ 1n∑hi(xi)fij(xi, xj) ∣∣∣∣ (2.13) Segundo propõem YANG; ZHANG; SUDJIANTO, quanto menor o valor de Ω(hj, fjk), mais claramente o efeito marginal hj é separado de sua interação filha fjk, dessa forma, o Capítulo 2. Referencial Teórico 42 termo de regularização da Equação (2.12) seria responsável por penalizar a não-ortogonalidade denotada por Ω, incentivando a chamada clareza marginal. Por fim, em um terceiro e último estágio, todas as subredes da arquitetura, incluindo efeitos principais e interações de pares, são retreinadas simultaneamente em um procedimento de refinamento – também sujeito a Equação (2.12), visando consolidar o desempenho preditivo do modelo e contornar possíveis vieses deixados pela remoção de efeitos principais ou interações de pares. Com relação a interpretabilidade, os autores sugerem a utilização da Razão de Impor- tância (do inglês, Importance Ratio ou IR) para estimar quantitativamente a contribuição de efeitos principais e interações de pares. O IR de cada efeito principal e interação de pares pode ser calculado, respectivamente, pelas Equações (2.14) e (2.15): IR(i) = D(hi)/T, (2.14) IR(i, j) = D(fij)/T. (2.15) onde T = ∑ i∈S1 D(hi) + ∑ (i,j)∈S2 D(fij). Os IRs de todas as funções de forma somados igualam a um. Na prática, a importância das funções pode ser ordenada com os valores de IR em ordem decrescente para ranquear efeitos principais e funções de pares em importância (YANG; ZHANG; SUDJIANTO, 2021). 43 3 Metodologia Trabalhos como o de Sarkhel et al. (2020) e Ghodratnama et al. (2020), discutidos na Seção 2.2.3, dão mostras de que a combinação do uso adequado de características elaboradas e um modelo com alguma transparência pode indicar um caminho para obter interpretabilidade em modelos de PLN e, mais especificamente, Sumarização Automática. Em paralelo, no contexto da interpretabilidade, as EBM e GAMI-Net foram apresentadas com a proposta de aliar a transparência de algoritmos estatísticos mais simples a robustez de técnicas complexas de Aprendizado de Máquina, explorando diretamente o comportamento das características de entrada, possibilitando um modelo final tão interpretável quanto as características de entrada e sua engenharia permitirem. Com isso em vista, este trabalho investigou a aplicabilidade dos algoritmos EBM e GAMI-Net ao problema de SE e avaliou seu desempenho enquanto algoritmos de sumarização. O capítulo tem como objetivo descrever a abordagem proposta (3.1), detalhes da extração de características via PLN (3.2), bases de dados utilizadas (3.3) e detalhes de experimentação (3.4). 3.1 Abordagem proposta Tanto EBMs quanto GAMI-Net podem ser configuradas para problemas de classificação ou regressão com um ajuste adequado na função de ligação. No entanto, dada a natureza pouco estruturada que documentos e resumos podem apresentar, é necessário que isso seja adequadamente considerado durante a elaboração da solução, para que o problema de SAT possa ser abordado pelas técnicas. Uma das formas de abordar o problema de SE é observá-lo como um problema probabilístico, onde é desejado computar o quão relevantes as sentenças do documento de entrada são para o resumo projetado (WONG; WU; LI, 2008), classificando-as como pertinentes ou não. Solucionar o problema de SAT dessa forma seria uma maneira conveniente – no sentido de ser mais direta, simplificando o desenho da solução – de permitir a utilização de GAMI na tarefa de sumarização. Assim, neste trabalho, instâncias de GAMI, nesse caso EBM e GAMI-Net, são utilizadas dessa forma, como mecanismos que decidem se as sentenças são relevantes ou não ao resumo que será obtido, na forma de um problema supervisionado, trazendo consigo a interpretabilidade atrelada à sua utilização. Para que os GAMI cumpram seu papel enquanto motores de decisão, sem deixar de trazer explicabilidade à solução, é necessário um treinamento baseado em características de entrada bem definidas, e sua transparência está vinculada a interpretabilidade Capítulo 3. Metodologia 44 de tais características. Desse modo, simplificar o desenho da solução e a etapa de engenharia de características é importante para equilibrar essas questões. Seja D = {s0, ..., sn} um documento composto por uma sequência de sentenças si. O objetivo do processo de sumarização aplicado é obter uma sequência S das sentenças mais relevantes em D, onde S é limitado em comprimento para ser mais curto que D. Para cada sentença si, é extraído um vetor x de K características fixas envolvendo atributos de si com relação a D, extraídas via PLN, conforme descreve a Seção 3.2. O procedimento de treinamento consiste em minimizar o erro binário de classificação, em uma abordagem onde pares de vetores x e suas respectivas classes-alvo y, sinalizando exclusão ou inclusão das sentenças em seus respectivos resumos, são utilizados como conjunto de treinamento. Após o treinamento, a capacidade do modelo de distinguir entre sentenças “importantes” e “não-importantes” para, dado um documento de entrada, ranquear e selecionar sentenças apropriadas dentre as demais é utilizada. Note que abordar o problema desse modo não é contribuição deste trabalho (vide Nallapati, Zhai e Zhou (2017), Kedzie, Mckeown e III (2018) e Xiao e Carenini (2019), como exemplos), mas sim, a utilização de GAMI como tal mecanismo. O processo de ranqueamento consiste em obter a probabilidade de uma sentença ser parte do resumo dado, para cada uma das sentenças do documento. Então, o resumo do documento é obtido selecionando as sentenças com ranque mais alto, conforme sua ordem de aparição no documento de entrada, até atingir o limite estabelecido de comprimento, desse modo, a ordem lógica na qual os assuntos aparecem no documento é preservada no resumo. A Figura 8 ilustra as etapas do processo de elaboração de um resumo, após treinamento. Figura 8 – Processo de sumarização utilizando GAMI Fonte: elaborada pelo autor. Capítulo 3. Metodologia 45 3.2 Extração de características As características utilizadas para treinar algoritmos GAMI ditam muito da interpretabi- lidade do modelo, já que a proposta desses algoritmos é justamente utilizar o comportamento mapeado através das características como forma de elucidar o processo das decisões tomadas. Dito isso, visando interpretabilidade para o problema de SE, é desejável que o conjunto de características alie riqueza na representatividade das sentenças de origem à significados mais diretos – e interpretáveis, tanto quanto for possível. Assim, em contrapartida a utilização de representações densas ou de alta dimensio- nalidade como vetores de palavras (por exemplo, Word2Vec (MIKOLOV et al., 2013)) que pudessem depender de treinamento apartado e cujo significado possa ser visto como abstrato, este trabalho adota a utilização de um conjunto menor de características, baseadas em estatís- ticas mais elementares acerca das sentenças, cuja simplicidade deveria contribuir tanto para a interpretabilidade do modelo quanto sua eficiência. A etapa de pré-processamento é responsável por transformar documentos brutos em sequências de sentenças, capturando informações úteis para posterior extração de características, em si. Nela, o processo inicia pela segmentação de documentos brutos em sentenças, que, por sua vez, passam pelo processo de tokenização, isto é, cada sentença é segmentada em uma sequência de termos ou tokens. Em seguida, é executada a remoção de pontuação e stopwords, ou palavras de parada, que são termos frequentes da língua que acrescentam pouco significado para as sentenças. Depois, é realizada a marcação de nomes próprios e termos numéricos, e as palavras são submetidas ao processo de stemming, que almeja reduzir as palavras ao seu radical, removendo possíveis prefixos e sufixos. No desenvolvimento do trabalho, esse processo é realizado com o auxílio da biblioteca Python spaCy (MONTANI et al., 2021), com exceção do procedimento de stemming, realizado com apoio do módulo SnowballStemmer da biblioteca NLTK (BIRD; KLEIN; LOPER, 2009). 3.2.1 Definições das características utilizadas Depois do pré-processamento, seis características são extraídas das sentenças de modo a obter os vetores x = {x1, x2, ..., x6} utillizados para treinamento e predição, conforme as definições apresentadas a seguir. 3.2.1.1 TF-ISF O TF-ISF é uma variante do método TF-IDF aplicada em nível de sentença para sumarização de texto (OLIVEIRA et al., 2016; MUTLU; SEZER; AKCAYOL, 2019). A ideia é computar uma pontuação para cada sentença, com base na importância e na descritividade dos termos dentro do documento (OLIVEIRA et al., 2016), que são medidos pela frequência de termo (TF) e frequência inversa de sentença (ISF) para os termos. No presente trabalho, é Capítulo 3. Metodologia 46 utilizado um TF-ISF baseado em bigramas – sequências de dois termos adjacentes dada uma sentença tokenizada, de modo que cada sentença si de um documento receba uma pontuação de saliência (Equação 3.2): w(si) = Ji∑ j=1 [ F(bj)× log ( n nbj )] , (3.1) x1(si) = w(si) max(w(si)) . (3.2) onde F(bj) é a frequência do bigrama bj no documento, n é o número de sentenças do documento, nbj é o número de sentenças documento em que bj ocorre e Ji é o número de bigramas distintos em si. 3.2.1.2 Posição Considerando que a ordem em que as sentenças aparecem pode fornecer informa- ções importantes sobre sua relevância (FERREIRA et al., 2013; OLIVEIRA et al., 2016), a característica position (Equação 3.3) representa a posição da sentença dentro do documento: x2(si) = pi n , 1 ≤ pi ≤ n. (3.3) onde pi é a posição da sentença si no documento. 3.2.1.3 Comprimento O característica length (Equação 3.4) é calculada com base no comprimento da sentença si em termos, em relação ao comprimento máximo de sentença do documento relacionado (OLIVEIRA et al., 2016; MUTLU; SEZER; AKCAYOL, 2019): x3(si) = número de termos na sentença si max(número de termos em uma sentença) . (3.4) 3.2.1.4 Nomes próprios e númericos A proporção individual de nomes próprios e termos numéricos na frase si pode indicar a presença de informações relevantes (OLIVEIRA et al., 2016). As características respectivas são calculadas da seguinte maneira: x4(si) = número de nomes próprios em si número de termos em si e (3.5) x5(si) = número de termos numéricos em si número de termos em si . (3.6) Capítulo 3. Metodologia 47 3.2.1.5 Similaridade sentença-sentença A similaridade sentença-sentença denota quão semelhante uma sentença é das demais sentenças no documento (MUTLU; SEZER; AKCAYOL, 2019). A característica cos_sims_uni é calculada usando a similaridade de cosseno c entre sentenças como denota a Equação 3.7: x6(si) = ∑n j=1 c(si, sj) maxsk (∑n j=1 c(sk, sj)) , i 6= j. (3.7) onde sk é a k-ésima sentença do documento, que maximiza o denominador. 3.3 Bases de dados Neste trabalho, EBM e GAMI-Net são comparadas a outras abordagens em dois conjuntos de dados públicos de sumarização de texto, CNN/Dailymail (HERMANN et al., 2015; SEE; LIU; MANNING, 2017) e Pubmed (COHAN et al., 2018). Essas bases têm sido adotadas em trabalhos recentes de SAT, especialmente por abordagens baseadas em redes neurais recorrentes e Transformers, devido ao número grande de documentos presentes nas bases. A base CNN/Dailymail (NALLAPATI et al., 2016; HERMANN et al., 2015) conta com pares de artigos de notícia em língua inglesa e seus respectivos resumos, compostos pela configuração padrão de aproximadamente 287,1 mil pares treinamento, 13,4 mil pares de validação e 11,5 mil pares de teste. Nela, os documentos possuem uma média de 781 tokens, enquanto os resumos possuem uma média de 56 tokens (SEE; LIU; MANNING, 2017). No desenvolvimento deste trabalho, foi utilizada a versão não anonimizada do conjunto de dados (SEE; LIU; MANNING, 2017). Por sua vez, a base PubMed (COHAN et al., 2018) é uma coleção de artigos científicos em língua inglesa nos quais a seção de resumo é usada como referência para sumarização, na configuração de 115,5 mil pares de treino, 6,6 mil pares de validação e 6,6 mil pares de teste. Este conjunto de dados tem sido usado para avaliar abordagens de sumarização de documentos longos, já que tanto documentos quanto os resumos são, em geral, mais longos que bases populares como a CNN/Dailymail, com uma média 3016 tokens para documentos e 203 tokens para resumos (XIAO; CARENINI, 2019). Conforme mencionado na Seção 3.1, a abordagem proposta utiliza sentenças individuais como instâncias de entrada para o treinamento. Considerando a necessidade de rótulos extrativos baseados em sentenças para execução desta etapa, no desenvolvimento do trabalho, foram utilizados rótulos sintéticos obtidos via heurísticas automáticas com base nos resumos de referência, uma vez que, originalmente, ambas as bases contariam apenas com resumos abstrativos. Apesar de não ser ideal, este tipo de abordagem tem sido uma estratégia recorrente para obtenção de rótulos de treinamento na ausência de rotulação humana de resumos extrativos. Capítulo 3. Metodologia 48 Dese modo, o presente trabalho faz uso de estratégias já utilizadas por outros autores para a obtenção dos rótulos artificiais de ambas as bases (NALLAPATI; ZHAI; ZHOU, 2017; KEDZIE; MCKEOWN; III, 2018; XIAO; CARENINI, 2019; LIU, 2019). Em suma, tais estratégias baseia-se em uma seleção gulosa de sentenças do documento em questão para um conjunto extrativo, maximizando a pontuação ROUGE entre o conjunto e o resumo abstrativo de referência a cada iteração. Ao fim, as sentenças inclusas no conjunto recebem o rótulo positivo, enquanto as demais recebem o negativo. Neste trabalho, para CNN/Dailymail, os rótulos foram gerados utilizando os mesmos scripts fornecidos por Liu (2019)1 e, para Pubmed, são utillizados os rótulos extraídos e tornados públicos por Xiao e Carenini (2019)2. O Quadro 2 traz um exemplo de documento, resumo de referência e resumo obtido via heurística. Além disso, a segmentação de sentenças pode resultar em pequenas inconsistências de sentido no resumo sintético, ocasionada por eventuais quebras dentro de uma mesma frase (no quadro, entre a sentença 2 e a sentença 3). Quadro 2 – Exemplo de documento e resumo da base CNN/Dailymail Documento original (segmentado em sentenças) 1. (CNN) For the first time in eight years , a TV legend returned to doing what he does best . 2. Contestants told to " come on down ! " 3. on the April 1 edition of " The Price Is Right " encountered not host Drew Carey but another familiar face in charge of the proceedings . 4. Instead , there was Bob Barker , who hosted the TV game show for 35 years before stepping down in 2007 . 5. Looking spry at 91 , Barker handled the first price - guessing game of the show , the classic " Lucky Seven , " before turning hosting duties over to Carey , who finished up, 6. Despite being away from the show for most of the past eight years , Barker did n’t seem to miss a beat . Resumo original Bob Barker returned to host " The Price Is Right " on Wednesday . Barker , 91 , had retired as host in 2007 Resumo sintético On the April 1 edition of " The Price Is Right " encountered not host Drew Carey but another familiar face in charge of the proceedings . Instead , there was Bob Barker , who hosted the TV game show for 35 years before stepping down in 2007 . Fonte: Extraído da base CNN/Dailymail 1 https://github.com/nlpyang/BertSum 2 https://github.com/Wendy-Xiao/Extsumm_local_global_context Capítulo 3. Metodologia 49 3.4 Detalhes da experimentação Neste trabalho, EBM e GAMI-Net são comparadas aos resultados reportados por outras abordagens recentes, boa parte das quais produzida por arquiteturas neurais profundas, no sentido de delinear a capacidade de sumarização da abordagem proposta em contraste com esses modelos, apesar da diferença assumida em termos de interpretabilidade. Além disso, comparamos os modelos EBM e GAMI-Net a outros classificadores de Aprendizado de Máquina supervisionado, nominalmente, Regressão Logística (LR), Floresta Aleatória (RF) e XGBoost, usando o mesmo procedimento para treinamento e predição descritos na Seção 3.1, cada qual treinado e testado dez vezes e as pontuações médias são consideradas para fins de comparação. Os modelos de EBM foram treinados com auxílio da biblioteca InterpretML (NORI et al., 2019) 3, parametrizados com 8 inner bags – número de amostras utilizadas via bagging para o elaboração das árvores obtidas via boosting – e 10 interações de pares. Semelhantemente, os modelos GAMI-Net foram treinados com um valor máximo de 10 interações de pares, utilizando a implementação disponibilizada pelos autores (YANG; ZHANG; SUDJIANTO, 2021)4. Os modelos de RF e XGBoost foram treinados com 100 estimadores, utilizando a biblioteca scikit-learn5. Demais parâmetros foram configurados pelos valores padrão. Além disso, adotamos subamostragem aleatória para lidar com o desequilíbrio de rótulos durante a etapa de treinamento. As abordagens, em geral, foram avaliadas usando a métrica de pontuação ROUGE (LIN, 2004), considerando sua ampla adoção para sistemas de SE, com relação aos resumos originais das bases em questão. Foram consideradas pontuações ROUGEn para n = 1 (R-1) e n = 2 (R-2), além de ROUGEL (R-L). Além disso, avaliamos a capacidade de seleção de sentenças dos classificadores tradicionais, calculando pontuações F1 (Equação (3.10)) com base nas predições para sentenças dos resumos obtidos e rótulos artificiais: Prec = vp vp+ fp , (3.8) Rec = vp vp+ fn , (3.9) F1 = 2 ∗ Prec ∗Rec Prec+Rec . (3.10) onde vp denota verdadeiros positivos, fp falsos positivos e fn falsos negativos. A linha de base Lead corresponde à pontuação de atribuir as primeiras sentenças presentes nos documentos aos resumos (respeitando o limite de comprimento respectivo das bases de dados) e Oracle denota as pontuações obtidas pelos rótulos artificiais, que 3 https://github.com/interpretml/interpret 4 https://github.com/interpretml/interpret 5 https://scikit-learn.org/ Capítulo 3. Metodologia 50 corresponde ao limite superior de utilizá-los. As pontuações ROUGE foram calculadas utilizando a biblioteca pyrouge6, uma interface em Python para os scripts ROUGE-1.5.5 originais. Em relação aos tamanhos, os resumos CNN/Dailymail foram limitados arbitrariamente a três sentenças (ZHONG et al., 2020) enquanto os resumos Pubmed foram limitados a 200 palavras (XIAO; CARENINI, 2019), para fins de cálculo da medida ROUGE e comparação com outros resultados reportados. 6 https://pypi.org/project/pyrouge/ 51 4 Resultados e discussão As Tabelas 1 e 2 apresentam os resultados dos modelos considerados para as bases de dados CNN/Dailymail e Pubmed, respectivamente. A coluna T indica o tipo do modelo apresentando, que pode ser de SA ou SE. A coluna I denota a categoria de interpretabilidade do modelo em questão, entre baixa (B) e alta (A). Nas demais colunas, temos as pontuações ROUGE e F1, conforme apresentado. Conforme mostra a Tabela 1, comparando com outras abordagens, os modelos EBM e GAMI-Net foram capazes de competir com as redes SummaRuNNer (NALLAPATI; ZHAI; ZHOU, 2017) e Pointer-Generator (SEE; LIU; MANNING, 2017) – duas arquiteturas profundas baseadas em RNN, superando a primeira em relação a R-L e ambas considerando R-2 no conjunto de dados CNN/Dailymail. Por outro lado, não conseguiram superar BART+RD (WU et al., 2021) e MatchSum (ZHONG et al., 2020), exemplares baseados em Transformer ou mesmo o ExDoS (GHODRATNAMA et al., 2020), em termos de pontuações. Na base de dados Pubmed, como mostra a Tabela 2, EBM e GAMI-Net alcançaram pontuações R-L mais altas que o SummaRuNNer, mas falharam em competir com ExtSum-LG (XIAO; CARENINI, 2019) e ExtSum-LG+MMR-S+ (XIAO; CARENINI, 2020), que são modelos especializados em sumarização de documentos longos. Além disso, de maneira geral, EBM e GAMI-Net obtiveram resultados semelhantes em ambos os conjuntos de dados. Considerando as pontuações ROUGE, a arquitetura GAMI-Net está à frente no CNN/Dailymail enquanto a EBM é supe