Repository logo
 
Publication

Escalonamento de Processos ETL em Ambientes Grid

datacite.subject.fosInformáticapt_PT
dc.contributor.advisorBelo, Orlando Manuel de Oliveira
dc.contributor.advisorSantos, Vasco Nuno Caio dos
dc.contributor.authorSilva, Rui Manuel Sousa da
dc.date.accessioned2018-03-13T16:45:27Z
dc.date.available2018-03-13T16:45:27Z
dc.date.issued2012
dc.date.submitted2012
dc.description.abstractCada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis.pt_PT
dc.description.abstractOrganizations need to prepare themselves to a changing world, and gathering and storing information from the various business areas will enhance decision making processes that affect the organization's performance in its competitive environment. To do this, organizations use Data Warehousing Systems (DWS) as data repository, where they store and integrate data using an Extraction, Transformation and Loading (ETL) process. The ETL process is known for its great complexity, mainly because it has to access a set of source systems, often heterogeneous, in order to extract data, perform cleaning tasks and process the data according to business rules, which requires great computational power. With the growth of a DWS, its ETL component has increasingly more data to process. However, it is desired that the data processing time remains within its window of opportunity regardless of the volume of data to be processed. Using task parallelization, it is possible to reduce the data processing time, since some independent tasks can be performed by different machines at the same time. The main concept of Grid environments is to reuse and harness resources, making it possible to benefit from the distributed processing power to reduce the impact of data growth. Thus, it is possible to use a Grid environment to perform the scheduling of an ETL process, reducing the impact of the data growth, since Grid environments allow the use of available distributed resources.pt_PT
dc.identifier.tid201947986pt_Pt
dc.identifier.urihttp://hdl.handle.net/10400.22/11108
dc.language.isoporpt_PT
dc.subjectData Warehousept_PT
dc.subjectETLpt_PT
dc.subjectAmbientes Gridpt_PT
dc.subjectProcessamento em Paralelopt_PT
dc.subjectEscalonamentopt_PT
dc.titleEscalonamento de Processos ETL em Ambientes Gridpt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMestrado em Engenharia Informáticapt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
DM_RuiSilva_MEI_2012.pdf
Size:
1.85 MB
Format:
Adobe Portable Document Format
Description:
DM_RuiSilva_MEI_2012
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: