Sumarização extrativa de texto utilizando modelos aditivos generalizados com interações para seleção de sentenças

Carregando...
Imagem de Miniatura

Data

2023-03-10

Autores

Silva, Vinícius Camargo da

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

A explicabilidade de modelos inteligentes se tornou um importante tópico de pesquisa recentemente. Em função da evolução de diversos algoritmos estatísticos e de Aprendizado de Máquina, hoje, modelos do gênero são capazes de executar tarefas altamente complexas, entretanto, diversos exemplares carecem de transparência sobre seu processo de decisão, culminando em inferências muitas vezes acuradas, segundo métricas e taxas de acerto, porém pouco explicáveis ao usuário em questão. Assim, o termo Inteligência Artificial Explicável ganhou notoriedade nos últimos anos, almejando metodologias capazes de aliar inteligência computacional à explicabilidade na execução de tarefas. A Sumarização Automática de Texto tem se tornado relevante com o crescimento de dados no formato textual, no entanto, com a popularização de grandes bases de dados públicas, abordagens recentes de Aprendizado de Máquina têm se concentrado em modelos e arquiteturas densos que, apesar de produzirem resultados notáveis, geralmente culminam em modelos difíceis de interpretar. Em contrapartida, seria interessante contar com sistemas que promovessem, em paralelo aos resumos gerados, capacidade de oferecer interpretações acerca de seu comportamento ou decisões de maneira transparente, entretanto, essa prática ainda está distante da realidade, uma vez que a interpretabilidade de modelos de sumarização de texto ainda é um assunto desafiador e pouco estudado. Modelos Aditivos Generalizados com Interações (do inglês, \textit{Generalized Additive Models with Interactions} ou GAMI) são conhecidos por aliar poder preditivo a interpretabilidade em tarefas supervisionadas, assim, este trabalho investiga dois desses modelos, a saber, EBM e GAMI-Net, em uma abordagem à tarefa de Sumarização Extrativa, visando explorar sua aplicabilidade ao desafio de sumarização de texto, dado o interesse latente de metodologias interpretáveis. A abordagem proposta, baseada em treinar exemplares de GAMI na forma de um problema de classificação binária, mostrou-se uma alternativa simples, mas atraente a certos algoritmos caixa-preta, cuja avaliação foi realizada utilizando as bases de dados CNN/Dailymail e PubMed.
The explainability of intelligent models has recently become an important research topic. Due to the evolution of several statistical algorithms and Machine Learning, today, models of this kind are capable of performing highly complex tasks, however, several examples lack transparency about their decision process, culminating in inferences that are often accurate, according to metrics and accuracy rates, but barely explainable to the user. Thus, the term Explainable Artificial Intelligence has gained notoriety in recent years, aiming for methodologies capable of combining computational intelligence with explainability in the execution of tasks. Automatic Text Summarization has become relevant with the growth of data in textual format, however, with the popularization of large public datasets, recent Machine Learning approaches have focused on dense models and architectures that, despite producing notable results often culminate in models that are difficult to interpret. On the other hand, it would be interesting to have systems that promote, in parallel with the summaries generated, the ability to offer interpretations about their behavior or decisions in a transparent way, however, this practice is still far from reality, since the interpretability of text summarization models is still a challenging and understudied subject. Generalized Additive Models with Interactions (GAMI) are known for combining predictive power with interpretability in supervised tasks, as such, this work investigates two of these models, namely, EBM and GAMI-Net, in an approach to the Extractive Summarization task, aiming to explore their applicability to the challenge of text summarization, given the latent interest in interpretable methodologies. The proposed approach, based on training GAMI instances in the form of a binary classification problem, proved to be a simple but attractive alternative to certain black-box algorithms, whose evaluation was performed using the CNN/Dailymail and PubMed datasets.

Descrição

Palavras-chave

Ciência da computação, Aprendizado do computador, Processamento de linguagem natural (Computação), Natural language processing, Automatic text summarization, Interpretable machine learning

Como citar