ETL proces en tooling

Het ETL proces lijkt heel simpel. Zoals met elke applicatie is er een mogelijkheid dat het ETL proces faalt. Dit kan komen door missende extracties van een van de systemen, missende waardes in een van de referentietabellen of simpelweg door het wegvallen van een connectie of elektriciteitsstoring. Daarom is het noodzakelijk dat het ontwerp van het ETL proces rekening houdt met een faal-herstelproces.

ETL proces en tooling

Staging omgeving

Het zou mogelijk moeten zijn om ten minste een van de ETL fasen onafhankelijk van elkaar te kunnen herstarten. Als de transformatie stap bijvoorbeeld faalt, dan zou het niet nodig moeten zijn om de Extractie stap te herstarten. Dit kan verzekerd worden door een goede staging omgeving te implementeren. Staging betekent dat de data simpelweg gedumpt wordt op een locatie (staging omgeving) zodat het dan uitgelezen kan worden voor de volgende verwerkingsfase. De staging omgeving wordt ook gebruikt gedurende het ETL proces om tussentijdse verwerkings resultaten op te slaan. De staging omgeving moet gebruikt worden door het laadproces. Deze omgeving mag niet gebruikt worden door andere gebruikers, met name eindgebruikers, aangezien deze niet is ingericht voor data presentatie en incomplete data kan bevatten.

ETL tools

Als er gebruikt gemaakt gaat worden van tools voor ETL, dan is het van belang te bedenken of er gekozen gaat worden voor een bestaande tool of dat er door het bedrijf zelf een tool gebouwd gaat worden. Wanneer er een klein aantal bronnen van data zijn die hun data op dezelfde manier opslaan, wordt er vaak de voorkeur gegeven aan het bouwen van eigen datatransformatie tool. Aangezien de data een soortgelijke structuur heeft en een algemene systeemarchitectuur, is de moeite die gedaan moet worden voor om te transformatie te implementeren erg klein. Tevens scheelt het zelf bouwen in de kosten, aangezien er geen licenties gekocht hoeven te worden en de werknemers geen nieuwe tooling hoeven te leren kennen. Hier zitten echter ook een aantal risico’s aan. Wanneer de transformaties steeds geavanceerder worden of als er behoefte is om andere systemen te integreren, dan groeit de complexiteit van een ETL systeem, maar de beheersbaarheid zal aanzienlijk dalen. Ook is het zo dat het implementeren van een eigen tool vaak lijkt op het opnieuw uitvinden van het wiel.
Er zijn ook veel ETL tools op de markt te vinden. Het grootste voordeel van het gebruik van bestaande tools is het feit dat ze geoptimaliseerd zijn voor het ETL proces, doordat deze aansluitingen verstrekken voor veel voorkomende databronnen, zoals databases, platte bestanden, mainframe systemen, xml, enz. Ze bieden middelen om data transformaties over verschillende databronnen makkelijk en consequent uit te kunnen voeren. Dit houdt onder andere in: filteren, opnieuw formatteren, sorteren, samenvoegen, aggregatie en andere bewerkingen. De tools ondersteunen ook het inplannen van transformaties, versie controle, monitoring en gezamenlijke metadata management. Sommige tools hebben ook een integratie met Business Intelligence tools.

Bekende ETL Tools

Een aantal commerciële ETL tools zijn: Ab Initio, IBM InfoSphere DataStage, Informatica Powercenter, Oracle Data Integrator, SAP Data Service, IBM Cognos Data Manager en Microsoft SQL Server Integration Services.

Een aantal open source ETL tools zijn: Talend Open Studio, Jaspersoft ETL, Jedox ETL, Pentaho ETL, GeoKettle ETL, HPCC Systems en Dataiku Data Science Studio (DSS) Community Edition.

Ook interessant?

ETL in datawarehouse

Wat is ETL in Datawarehouse?

ETL komt vanuit datawarehousing en staat voor Extract, Transform, Load. ETL dekt het proces van hoe data wordt geladen van ...
Meer Lezen
Test tools

Soorten testtools

Soorten test tools voor testuitvoering Een testtool is een hulpmiddel dat gebruikt kan worden bij het uitvoeren van testen. Omdat ...
Meer Lezen
data driven testen

Data driven testen

Data driven testen, wat is dat nu eigenlijk? Helaas is hierop geen eenduidig antwoord te geven. Er worden door verschillende ...
Meer Lezen
BI vs Big Data

Het verschil tussen Business Intelligence (BI) en Big Data

Om te kunnen vertellen wat het verschil is tussen Big Data en BI, is het noodzakelijk om eerst is te ...
Meer Lezen
Blijf op de hoogte van onze nieuwste ontwikkelingen, schrijf je hier in voor de nieuwsbrief!