Hero imageMobile Hero image
  • LinkedIn
  • Facebook

November 20, 2023

Hoe zorg je in drie stappen voor een succesvolle cloud migratie van jouw bestaande datawarehouse? Marcel Driesen legt het uit. Bekijk ook onze Data services.

Veel organisaties onderzoeken de mogelijkheid hun bestaande datawarehouse (DWH) omgevingen naar de cloud te brengen. Wat zijn de meest voorkomende afwegingen en hoe zorg je in drie stappen voor een succesvolle cloud migratie van jouw bestaande datawarehouse?

Afwegingen

Organisaties die overwegen om bestaande datawarehouses naar de cloud te brengen, stuiten veelal op de volgende afwegingen:

  • Lift and shift: de bestaande omgeving wordt naar de cloud gebracht met zo veel mogelijk bestaande technieken met als resultaat een technische schuld die blijft bestaan of zelfs groter wordt.
  • Herbouw of nieuwbouw: om alle voordelen van de cloud te kunnen benutten zijn nieuwe technieken en functies beschikbaar.

Welke ga je toepassen om meer business waarde te creëren maar tegelijkertijd ook te voldoen aan behalen van tijdslijnen?
Voor een succesvolle transformatie zijn in onze visie de volgende punten van belang:

  1. Optimaliseer gebruik van de cloud
  2. Gebruik bewezen technieken, kennis en ervaring
  3. Automatiseer standaard development werk

1. Optimaliseer gebruik van de cloud

Een keuze voor overstap naar cloud technologie heeft vele redenen waaronder schaalbaarheid, kosten, performance. Als we ons concentreren op performance dan wordt dit in de cloud onder andere bereikt door parallel processen. Daarnaast gebruikt een cloud database zoals Snowflake columnstore tabellen*. Om optimaal gebruik te maken van deze technieken is het belangrijk het design van het DWH en de processen daarop aan te passen. Voor het parallel laden naar een DWH is een Data Vault 2.0 model zeer geschikt. Daarmee kan elke bron onafhankelijk geladen worden terwijl het model wel de relaties modelleert van de brondata en wijzigingshistorie opbouwt. Vervolgens kiezen we voor een insert-only strategie, dus geen updates van een geldig-tot datum. Dit is nodig omdat updates in een columnstore tabel minder efficiënt zijn.

*Ondanks dat deze technieken niet exclusief in de cloud beschikbaar zijn, zal het toch voor veel organisaties een verandering zijn.

2. Gebruik bewezen technieken, kennis en ervaring

Een nieuw cloud platform biedt allerlei nieuwe technische en functionele mogelijkheden. Het valt echter niet mee om op korte termijn de voordelen uit deze mogelijkheden toe te passen door gebrek aan kennis en ervaring. Tools om de technieken te ondersteunen ontbreken of zijn nog niet volwassen. Zeker voor een groter project zoals de (her)bouw van een datawarehouse is het een valkuil teveel nieuwe dingen tegelijkertijd op te pakken. Hierdoor kan het project vertraging oplopen of zelfs mislukken. In dit licht is de keuze voor het gebruik van SQL voor ontwikkeling van het DWH op het nieuwe dataplatform verstandig. Niet alleen BI-professionals maar ook data- en business-analisten kunnen dan de functionaliteiten in SQL makkelijk begrijpen, testen en toepassen. Hierdoor kan alle bestaande waardevolle kennis en ervaring ingezet worden voor het realiseren van een succesvol nieuw data warehouse in de cloud.

3. Automatiseer standaard development werk

ETL-processen van een DWH bevatten veel standaard terugkerende logica. Denk bijvoorbeeld aan de opbouw van wijzigingshistorie voor historische opslag in het datawarehouse of in historische dimensies. Door het scheiden van de standaard logica van de bedrijfseigen business logica kan veel geautomatiseerd worden. De input voor geautomatiseerde development bestaat uit meta data van de brondata, aangevuld met de modelleringskeuzes van de business analist. De output van de tool bestaat uit SQL-scripts van tabeldefinities inclusief relaties naar andere tabellen, views, functies en SQL-statements die het ETL proces implementeren. De output kan worden aangeboden aan een CI/CD-proces.

Geautomatiseerd framework voor meer functionaliteit met een hogere kwaliteit en lagere kosten

Sogeti heeft een tool ontwikkeld die een organisatie helpt de 3 stappen naar een succesvol cloud datawarehouse te ondersteunen. Met dit framework automatiseer je de development van standaard processen en realiseer je meer in minder tijd, tegen lagere kosten en met een hogere kwaliteit. De organisatie kan zich dan concentreren op het leveren van businesswaarde middels realisatie van logica voor de complexe bedrijfsprocessen. 

De tool is gebaseerd op een Snowflake DWH. Het voorziet in een enterprise laag waar alle data historisch wordt opgeslagen volgens een Data Vault 2.0 model en een presentatie laag volgens een dimensioneel model. De business analist analyseert de brondata, modelleert het DWH, vult de benodigde meta data in en het framework doet de rest. Natuurlijk implementeert de tool de ontwerpkeuzes voor de cloud met parallelle processen en insert-only.

Metadata DWH framework voor transparantie 

Ondanks dat het framework zich concentreert op standaard functionaliteit, voorziet het ook in mogelijkheden om te gaan met de diversiteit van de aangeleverde data en wijzigingen die door de tijd optreden. Een opsomming van de kenmerken van het framework:

  • Meta data driven
  • Eenvoudige interface voor de business analist
  • SQL output
  • Onafhankelijk van andere tooling
  • Ontworpen voor parallel processing
  • Cloud native Insert-only laden van data
  • AVG / GDPR compliant by design
  • Ondersteuning van meerdere historische tijdlijnen
  • Ondersteuning van eenvoudige transformaties (Data Vault hard business rules)

De tool is gebouwd in SQL. Dit maakt de functionaliteit in de tool transparant voor elke BI-professional. Voor veel organisaties is het een geruststelling dat de voordelen van de cloud benut kunnen worden, zonder dat alle BI-medewerkers nieuwe technologieën moeten leren en ervaring daarvoor moeten opbouwen, of zonder dat men volledig afhankelijk wordt van externe kennis. 

Meer weten?

Geïnteresseerd in onze aanpak, of wil he een gesprek over onze visie op een succesvolle implementatie van een cloud DWH? Ga naar onze Data services of stel je vraag direct aan Marcel. 

Marcel Driesen

Marcel Driesen