Estratégia para extração, transformação e armazenamento em Data Warehouse ativo baseada em políticas configuráveis de propagação de dados

Carregando...
Imagem de Miniatura

Data

2013-02-21

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Em arquiteturas de Data Warehouse os dados são integrados periodicamente por meio da execução de processos de Extração, Transformação e Armazenamento – ETA. A atualização desses dados de forma periódica provoca um problema referente à desatualização das informações, uma vez que as ferramentas ETAs são executadas geralmente uma vez ao dia. A crescente necessidade do mundo corporativo por análises sobre dados cada vez mais recentes evidencia a necessidade de arquiteturas DW que possuam um maior grau de atualização. Nesse contexto, surgiram os DW ativos cujo intervalo de tempo entre as execuções do processo ETAs diminuem significativamente. Para suportar o aumento da frequência das atualizações, surge a necessidade de criação de critérios para priorização dos dados a serem transferidos, uma vez que a transferência de todo e qualquer dado inserido nas fontes pode sobrecarregar os sistemas envolvidos. O trabalho proposto consiste na construção de uma estratégia denominada ETA-PoCon, que tem como objetivo a execução do processo ETA em DW ativos. A estratégia distingue-se das existentes, pois possui políticas configuráveis de propagação de informações com base em parâmetros como intervalo de tempo em que a informação deve ser transferida, volume que deve ser propagado e relevância dos dados em relação às informações contidas no repositório. É demonstrado por meio dos experimentos executados que a aplicação da estratégia proporciona uma redução considerável no número de transferência de dados ao DW, uma vez que em todos os resultados a redução no total de atualizações foi superior a 60%
In Data Warehouse (DW) architectures data are periodically integrated by means of execution of Extraction, Transformation and Load (ETL) processes which lead to the problem of outdated information. The growing necessity in the corporate world for analysis of constantly renewed data bespeaks of the need for DW architectures with higher level of freshness. In that context, active DWs appeared having a significant reduction of the interval of time between the executions of ETL processes. To support the increased frequency of the refreshment it’s necessary to create criteria to prioritise the data to be transferred, since a transfer of all and any data from the sources would overload the systems. This work consists of the construction of a strategy called ETL-PoCon to execute ETL processes in active DWs. The original contribution of this work is to provide a strategy that considerably reduces the quantity of data transfers to active DWs, besides maintaining a satisfactory level of data freshness. Said reduction is obtained by means of configurable policies of data propagation based on parameters such as: the time in which the data must be transferred, the volume to be propagated and the relevance of the data regarding to the information stored in the DW. Experiments have shown that the ETL-PoCon strategy significantly contributes towards a reduction of the overload on the systems involved in the active DW environment, since all results presented a reduction higher than 60% in the amount of DW refreshments

Descrição

Palavras-chave

Banco de dados, Armazenamento de dados, Sistemas de suporte de decisão, Database

Como citar

SCARPELINI NETO, Paulo. Estratégia para extração, transformação e armazenamento em Data Warehouse ativo baseada em políticas configuráveis de propagação de dados. 2013. 65 f. Dissertação (mestrado) - Universidade Estadual Paulista Julio de Mesquita Filho, Instituto de Biociências, Letras e Ciências Exatas, 2013.