Abordagem paralela para mineração de regras de associação negativas

Carregando...
Imagem de Miniatura

Data

2021-03-15

Autores

Colombo, Alexandre

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Mineração de padrões frequentes e regras de associação são um dos principais campos de pesquisa em Mineração de Dados, que apresenta o objetivo de determinar relações consistentes entre elementos. Algoritmos existentes neste campo de estudo se baseiam principalmente na informação de ocorrência dos elementos. Entretanto, considerar a ausência de elementos para a geração de regras pode resultar em associações de grande interesse para algumas aplicações, que poderá fornecer conhecimento até então desconhecido para o cientista de dados ou analista. Este tipo de associação é denominada regra de associação negativa, e a sua principal característica é a explosão da quantidade de regras geradas, que demanda uma capacidade computacional adequada para seu processamento. Neste projeto de mestrado foram exploradas diversas abordagens, e proposto um método que apresenta como principais objetivos acelerar o processo de geração de regras, e permitir que conjuntos de dados maiores possam ser minerados. Considerando a etapa de identificação de conjuntos frequentes, este método dispõe de quatro abordagens que exploram plataformas paralelas de computação. Estas apresentam destaque em situações específicas, de forma que a depender do conjuntos de dados a ser analisado, será recomendada o uso de uma destas. Na etapa de geração de regras do método proposto também são exploradas plataformas paralelas. Através dos resultados obtidos foi possível verificar que o método alcança os objetivos propostos. Além disso, o método desenvolvido permite minerar conjuntos de dados grandes que são considerados restritivos para implementações existentes. Por fim, foi constatado que o método desenvolvido é escalável, permitindo melhorar seu desempenho com o incremento de recursos computacionais.
Frequent pattern mining and association rules are one of the main fields of research in Data Mining, which aims to identify consistent relationships among elements. Existing algorithms in this field of study are based mainly on the occurrence information of the elements. However, considering the absence of elements for rules generation may result in interesting associations for some applications, which may provide previously unknown knowledge to data scientists or analysts. This type of association is called negative association rule, and its main characteristic is the explosion of the number of generated rules which demands adequate computational capacity for its processing. In this work, several approaches were explored, and a method was proposed. Such method presents as main objectives to accelerate the rule generation process and to allow the mining of larger datasets. Considering the stage of identifying frequent sets, the proposed method implements four approaches that explore parallel computing platforms. Such approaches presents better performance in specific situations, so that depending on the datasets to be analyzed, the use of one of these will be recommended. The rule generation stage of the proposed method also explores parallel platforms. Through the obtained results it was possible to verify that the method reaches the proposed objectives. In addition, the developed method enables mining large datasets that are considered restrictive for existing implementations. Finally, the proposed method is scalable, which allows to improve its performance through increasing computational resources.

Descrição

Palavras-chave

Ciência da computação, Mineração de dados (Computação), Algorítmos paralelos, Data mining, Frequent patterns, Negative association rules, Parallel algorithm

Como citar