Alle IT-kennis onder één wereldwijd dak
Werken bij de beste IT dienstverlener van Nederland?
Resultaat door passie voor IT
Start trefwoorden te typen om de site te doorzoeken. Druk enter om te verzenden.
Generative AI
Cloud
Testing
Artificial intelligence
Security
November 20, 2023
Veel organisaties onderzoeken de mogelijkheid hun bestaande datawarehouse (DWH) omgevingen naar de cloud te brengen. Wat zijn de meest voorkomende afwegingen en hoe zorg je in drie stappen voor een succesvolle cloud migratie van jouw bestaande datawarehouse?
Organisaties die overwegen om bestaande datawarehouses naar de cloud te brengen, stuiten veelal op de volgende afwegingen:
Welke ga je toepassen om meer business waarde te creëren maar tegelijkertijd ook te voldoen aan behalen van tijdslijnen?Voor een succesvolle transformatie zijn in onze visie de volgende punten van belang:
Een keuze voor overstap naar cloud technologie heeft vele redenen waaronder schaalbaarheid, kosten, performance. Als we ons concentreren op performance dan wordt dit in de cloud onder andere bereikt door parallel processen. Daarnaast gebruikt een cloud database zoals Snowflake columnstore tabellen*. Om optimaal gebruik te maken van deze technieken is het belangrijk het design van het DWH en de processen daarop aan te passen. Voor het parallel laden naar een DWH is een Data Vault 2.0 model zeer geschikt. Daarmee kan elke bron onafhankelijk geladen worden terwijl het model wel de relaties modelleert van de brondata en wijzigingshistorie opbouwt. Vervolgens kiezen we voor een insert-only strategie, dus geen updates van een geldig-tot datum. Dit is nodig omdat updates in een columnstore tabel minder efficiënt zijn.
*Ondanks dat deze technieken niet exclusief in de cloud beschikbaar zijn, zal het toch voor veel organisaties een verandering zijn.
Een nieuw cloud platform biedt allerlei nieuwe technische en functionele mogelijkheden. Het valt echter niet mee om op korte termijn de voordelen uit deze mogelijkheden toe te passen door gebrek aan kennis en ervaring. Tools om de technieken te ondersteunen ontbreken of zijn nog niet volwassen. Zeker voor een groter project zoals de (her)bouw van een datawarehouse is het een valkuil teveel nieuwe dingen tegelijkertijd op te pakken. Hierdoor kan het project vertraging oplopen of zelfs mislukken. In dit licht is de keuze voor het gebruik van SQL voor ontwikkeling van het DWH op het nieuwe dataplatform verstandig. Niet alleen BI-professionals maar ook data- en business-analisten kunnen dan de functionaliteiten in SQL makkelijk begrijpen, testen en toepassen. Hierdoor kan alle bestaande waardevolle kennis en ervaring ingezet worden voor het realiseren van een succesvol nieuw data warehouse in de cloud.
ETL-processen van een DWH bevatten veel standaard terugkerende logica. Denk bijvoorbeeld aan de opbouw van wijzigingshistorie voor historische opslag in het datawarehouse of in historische dimensies. Door het scheiden van de standaard logica van de bedrijfseigen business logica kan veel geautomatiseerd worden. De input voor geautomatiseerde development bestaat uit meta data van de brondata, aangevuld met de modelleringskeuzes van de business analist. De output van de tool bestaat uit SQL-scripts van tabeldefinities inclusief relaties naar andere tabellen, views, functies en SQL-statements die het ETL proces implementeren. De output kan worden aangeboden aan een CI/CD-proces.
Sogeti heeft een tool ontwikkeld die een organisatie helpt de 3 stappen naar een succesvol cloud datawarehouse te ondersteunen. Met dit framework automatiseer je de development van standaard processen en realiseer je meer in minder tijd, tegen lagere kosten en met een hogere kwaliteit. De organisatie kan zich dan concentreren op het leveren van businesswaarde middels realisatie van logica voor de complexe bedrijfsprocessen.
De tool is gebaseerd op een Snowflake DWH. Het voorziet in een enterprise laag waar alle data historisch wordt opgeslagen volgens een Data Vault 2.0 model en een presentatie laag volgens een dimensioneel model. De business analist analyseert de brondata, modelleert het DWH, vult de benodigde meta data in en het framework doet de rest. Natuurlijk implementeert de tool de ontwerpkeuzes voor de cloud met parallelle processen en insert-only.
Ondanks dat het framework zich concentreert op standaard functionaliteit, voorziet het ook in mogelijkheden om te gaan met de diversiteit van de aangeleverde data en wijzigingen die door de tijd optreden. Een opsomming van de kenmerken van het framework:
De tool is gebouwd in SQL. Dit maakt de functionaliteit in de tool transparant voor elke BI-professional. Voor veel organisaties is het een geruststelling dat de voordelen van de cloud benut kunnen worden, zonder dat alle BI-medewerkers nieuwe technologieën moeten leren en ervaring daarvoor moeten opbouwen, of zonder dat men volledig afhankelijk wordt van externe kennis.
Geïnteresseerd in onze aanpak, of wil he een gesprek over onze visie op een succesvolle implementatie van een cloud DWH? Ga naar onze Data services of stel je vraag direct aan Marcel.