Preparing the spells

De eerste stap naar kwalitatieve data integratie is een diepgaande data analyse. Als junior data wizard moet je immers te weten komen waarmee je gaat werken. “Know your data” is essentieel om een goed integratieproject op te starten. Dat kan heel eenvoudig door al gewoon even de databasetabellen of inputbestanden in te kijken. Meestal krijg je zo al snel een algemeen idee over hoe de data in elkaar zit. Vervolgens doe je een specifieke analyse op de datakwaliteit.

Wiping off the dust

Als je de data begint te bekijken merk je dikwijls al wat eigenaardigheden op, gaande van getallen die plots verschijnen in naamvelden of letters die verschijnen in numerieke velden. Hoe sneller je zo’n zaken vóór de effectieve integratie in kaart brengt, hoe beter. Bekijk het als een vuile auto. Een bruine auto wordt plots al wit wanneer je er eenvoudig mee door de carwash rijdt. Wanneer de dataset “vuil” is, is het ook heel moeilijk om een juiste analyse te doen. Dit wil je te allen tijde vermijden, want hoe mooi en perfect jou technisch ETL-proces ook is opgezet, als je de data niet opkuist zal het resultaat net zo onbruikbaar zijn als de input.

Casting the spells

Nu start je met schone data en begint het leuke werk: de data inladen in een ETL- tool -zoals Talend bijvoorbeeld- en allerlei code gaan programmeren om de data te bewerken naar de behoefte van de klant, wat ook een heel belangrijk facet is. Je wil ook geen Blauwe mini Cooper als je een grijze Mercedes hebt besteld?! Vraag dus als junior data wizard altijd duidelijk aan je klanten wat ze graag als resultaat willen zien.

Ik heb het hier nu wel over ETL- processen, maar ik hoor jullie al vragen: wat is in hemelsnaam een ETL-proces? Laat ik dat even verduidelijken voor jullie.

De E staat voor “Extract”: in deze stap ga je data uit je bronnen halen en in een bestand of databasetabel opslaan.
De T staat voor “Transform”: hier ga je de data zo bewerken dat het aan de behoeften van de klant voldoet. Daarna bewaar je de data in een nieuwe “workfile (een tijdelijk bestand met data)” of een databasetabel. Een fancy naam voor deze tabellen is “staging areas”. Altijd leuk om met termen te goochelen die business mensen niet begrijpen ;-). De uitdrukkingen op hun gezichten…zeker doen (maar je hebt het niet van mij!)
De  L staat voor “Load”: in deze stap laad je de data op in de productie- of testomgeving en bekijk je het resultaat van je integratieproces. Ik raad aan om je data nog eens grondig te bekijken vooraleer je ze oplaadt. Zo kan je nog foutjes in je proces ontdekken. Beter voorkomen dan genezen!

Becoming a better wizard

In een integratieproject is er altijd ruimte voor verbetering. Neem als junior data wizard daarom zeker de tijd om je gemaakte processen te herbekijken en mogelijke verbeterpunten aan te kaarten. Zo word je zelf een betere ontwikkelaar en lever je naarmate de tijd vordert mooiere resultaten op. Het kan ook zeker geen kwaad om je proces eens door een collega te laten controleren. Die ziet misschien wel die ene oplossing om je proces twee keer zo efficiënt te maken!

Groeten

Jens