Publicação:
Classificação associativa em contextos desbalanceados: aspectos de extração e ranqueamento de regras

Carregando...
Imagem de Miniatura

Data

2025-02-24

Orientador

Carvalho, Veronica Oliveira de

Coorientador

Pós-graduação

Ciência da Computação - FC/FCT/IBILCE/IGCE

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Dissertação de mestrado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

Em diversos problemas é interessante o uso de algoritmos inerentemente interpretáveis, uma vez que facilita o entendimento do conhecimento obtido e das predições realizadas. Dentre estes algoritmos encontram-se os classificadores associativos. Estes mesclam as tarefas de associação e classificação e são, portanto, induzidos em etapas, a saber: [a] extração de um conjunto de regras, [b] ranqueamento das regras via medidas objetivas e [c] poda das regras. Embora a classificação associativa, assim como outras técnicas, apresente bons resultados, quando aplicada a problemas desbalanceados o desempenho não se mantém o mesmo. O desbalanceamento ocorre quando o número de instâncias de uma dada classe, chamada de majoritária, supera em muito o número de instâncias da outra classe, chamada de minoritária. Deste modo, soluções vem sendo desenvolvidas de modo a diferenciar corretamente as instâncias de ambas as classes. Assim, este trabalho explora o uso de classificadores associativos quando aplicados em dados desbalanceados via abordagens internas, i.e., em nível de algoritmo. Para tanto, três objetivos são propostos. O primeiro se refere a execução de uma revisão sistemática da literatura a fim de identificar as abordagens internas que vêm sendo adotadas e/ou propostas a fim de fundamentar este trabalho, assim como identificar lacunas e oportunidades na área. Tendo como base as lacunas identificadas, o segundo objetivo explora o impacto das diferentes estratégias levantadas na revisão para se realizar a extração de regras (etapa [a]) visando identificar a mais adequada a ser utilizada no contexto aqui apresentado. Como resultado recomenda-se o uso da estratégia Apriori-C, já adotada pelo CBA2, algoritmo baseline neste contexto. Por fim, o terceiro objetivo é voltado a proposta de um método de seleção dinâmica de medidas objetivas, denominado DyOMS, a fim de ranquear as regras da melhor maneira possível (etapa [b]). A motivação ocorre em função dos trabalhos identificados na revisão utilizarem poucas das medidas objetivas existentes na literatura de maneira estática, i.e., pré-estabelecida, mesmo sabendo-se que não existe uma medida que seja adequada a todas as explorações, já que o seu desempenho depende das próprias características das regras extraídas e, portanto, do conjunto de dados utilizado. Como resultado foi possível notar que o DyOMS se apresenta como uma solução viável ao contexto aqui apresentado em relação a alguns baselines.

Resumo (inglês)

In several problems the use of inherently interpretable algorithms is interesting, as it facilitates the understanding of the obtained knowledge and the predictions made. Among these algorithms are the associative classifiers. They merge association and classification tasks and are, therefore, induced in steps, namely: [a] extraction of a set of rules, [b] ranking of the rules via objective measures and [c] pruning of the rules. Although associative classification, like other techniques, presents good results, when applied to imbalanced problems the performance does not remain the same. Imbalance occurs when the number of instances of a given class, named the majority class, greatly exceeds the number of instances of the other class, named the minority class. Therefore, solutions are being developed to correctly differentiate instances of both classes. Thus, this work explores the use of associative classifiers when applied to imbalanced data via internal approaches, i.e., at the algorithm level. To this end, three objectives are proposed. The first refers to the execution of a systematic review of the literature in order to identify the internal approaches that have been adopted and/or proposed in order to support this work, as well as to identify gaps and opportunities in the area. Based on the gaps identified, the second objective explores the impact of the different strategies raised in the review to carry out rule extraction (step [a]) with the aim of identifying the most appropriate one to be used in the context presented here. As a result, it is recommended to use the Apriori-C strategy, already adopted by CBA2, an algorithm baseline in this context. Finally, the third objective is aimed at proposing a dynamic selection method of objective measures, named DyOMS, in order to rank the rules in the best possible way (step [b]). The motivation occurs because the works identified in the review use few of the objective measures existing in the literature in a static way, i.e., pre-established, even knowing that there is no measure that is suitable for all explorations, since its performance depends on the characteristics of the rules extracted and, therefore, on the dataset used. As a result, it was possible to note that DyOMS presents itself as a viable solution to the context presented here in relation to some baselines.

Descrição

Idioma

Português

Como citar

Itens relacionados

Financiadores

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação