Als freelance IT’er werk ik de laatste jaren samen met IntoData, een data-firma die zich in de grote Cronos Group situeert.

Daar ligt de focus op data integratie projecten, waarbij de ETL tools van Talend ingezet worden om data op een gelaagde manier van de verschillende bron systemen te integreren naar een operationeel datamodel of een datawarehouse omgeving.

E T L

Extract – Transform – Load, de 3 basis stappen die in een data integratie project steevast worden toegepast.

Uit 1 of meerdere bron-systemen, wordt data door middel van specifieke componenten ge-extract en naar het data-integration-platform verplaatst. Dit is de Data Injection of Data Ingestion stap, de ruwe bron data wordt dan geplaatst in een “staging” laag.

Vervolgens kan de data op verschillende manieren worden getransformeerd, door via referentie bestanden een “standaardisering” toe te passen op gemeente-name en postcode combinaties, telefoon nummer formattering, aanvullen van ontbrekende data indien mogelijk, toepassen van business-rules om business specifieke velden in te vullen, bv een customer-segmentation op basis van order-data, etc.

Uiteindelijk wordt alle data opnieuw opgeladen in een doel-systeem voor verder gebruik.

Reference Architecture

In het Data Integration platform, kan je dan meerdere lagen hebben, ook wel eens data-silos genoemd. Hier bevindt zich achtereenvolgens

  • staging laag (staging layer)
    • ruwe bron data wordt als een 1:1 copy bewaard
    • er is geen data transformatie toegepast
    • er wordt gewerkt met alle “source-specific” key fields

  • operationele laag (foundation layer)
    • de data uit de verschillende bron-systemen wordt geïntegreerd bewaard in een nieuw datamodel
    • 3NF data model heeft z’n eigen (surrogate) keys en bevat tevens de source-specific business keys als referentie naar de originele bron
    • data is geschoond (cleansing), ge-matched en ge-merged waar nodig, standaardisatie en quality-checks zorgen dat je enkel met “goede” data verder werkt
    • data uit meerdere bron systemen is op deze manier beschikbaar in een geïntegreerd datamodel
  • reporting laag (access layer)
    • de geïntegreerde data wordt in hapklare brokken voorbereid in 1 of meerdere data-marts
    • een data-mart wordt gemaakt op basis van specifieke reporting-requirements en is meestal een sterschema met facts & dimensies
    • data is doorgaans reeds geaggregeerd voor vlotte rapportering