Alle IT-kennis onder één wereldwijd dak
Werken bij de beste IT dienstverlener van Nederland?
Resultaat door passie voor IT
Start trefwoorden te typen om de site te doorzoeken. Druk enter om te verzenden.
Generative AI
Cloud
Testing
Artificial intelligence
Security
November 22, 2022
Data is onmisbaar geworden in de huidige bedrijfsvoering en het aantal toepassingen om waarde te creëren met data groeit dus nog altijd hard. Het is dan ook niet verrassend dat organisaties flink investeren in hun datavoorzieningen zoals data lakes, data warehouses, reporting tools en wellicht nog belangrijker, in hun data teams. Ondanks deze flinke commitment in het data-gedreven werken, zien we dat de data-ambities van organisaties vaak harder groeien dan de daadkracht om deze ambities te verwezenlijken.
Centrale datateams en de monolitische data-architectuur (één centraal dataplatform voor alle businessteams) zijn, naarmate de hoeveelheid data en met name de complexiteit van de data toeneemt met bijbehorende kennisvraag, de bottleneck geworden in veel organisaties. Dit is te herkennen door een lange backlog aan nieuwe dataprojecten. Dat resulteert in onder andere data scientists die lang moeten wachten op aangevraagde datasets en een centraal datateam dat onder enorme stress moet opereren omdat er (te)veel stakeholders direct iets van ze verwachten. Je kan stellen dat sommige organisaties tegen de grenzen aanlopen van de huidige inrichting en de centrale data-architectuur waardoor de groei in de toepassing van data een plateau heeft bereikt.
De gevolgen hiervan zijn groot. Zo neemt bijvoorbeeld de reactietijd toe om een kans te benutten en dat is iets dat niet past in een business. Ook de druk op de centrale data teams is een reden tot zorg. Zeker in een speelveld waarin de mix van data skills en kennis van de business schaars is. Dit vraagt om een gezamenlijke aanpak van de business domeinen en de dataplatform teams.
Als reactie op deze uitdagingen is er een nieuwe stroming ontstaan: Data Mesh. Data Mesh is een gedecentraliseerde sociotechnische aanpak, om analytische data te delen en onderhouden binnen complexe organisaties. In deze blog ontleed ik wat dit exact inhoudt; ik ga onder andere in op hoe Data Mesh zich onderscheidt van de traditionele monolitische architectuur en wellicht het belangrijkste aspect: hoe kan Data Mesh waarde leveren voor jouw organisatie!
Waar we bij de huidige implementaties van dataplatforms veelal een centrale aanpak zien (datalake, data warehouse en datalakehouse), pleit Data Mesh voor een gedecentraliseerde aanpak. Elk business domein is hiermee eigenaar en producent van zijn eigen analytische data en deelt dit met de gehele organisatie door middel van zogenaamde dataproducten. Om de teams in de business-domeinen in staat te stellen deze dataproducten te maken, introduceert Data Mesh een self-serve dataplatform. De focus van het dataplatform team ligt op het optimaal faciliteren van de business-domeinen en dus níet op het daadwerkelijk realiseren van dataproducten.
Om te zorgen dat alle dataproducten toch aan bepaalde standaarden voldoen (denk bijvoorbeeld aan de implementatie van legal requirements zoals GDPR), bestaat er ook een speciaal samengesteld team dat zogenaamde policies realiseert om de veiligheid te bewaken. Het grote verschil met de huidige werkvormen voor data, is dat dit team bestaat uit vertegenwoordigers van elk businessdomein, het data platform team en sommige subject-matter-experts (bijvoorbeeld een security specialist of iemand vanuit legal). Er is dus geen top-down benadering waar bijvoorbeeld een CIO de policies voorschrijft. De policies zijn het resultaat van een democratisch proces: gezamenlijk wordt bepaald welke policies er nodig zijn en hoe deze worden gehandhaafd.
Data Mesh is gestoeld op 4 principes, die elk hun eigen doel hebben en op een specifieke manier met elkaar interacteren. Ik zal ze één voor één behandelen om helderheid te geven in waarom deze principes belangrijk zijn en hoe dit zich verhoudt tot de traditionele, monolitische architecturen die wij gewend zijn.
Ten eerste gaat Data Mesh uit van domain ownership: analytische data valt zoals eerder geschreven onder de verantwoordelijkheid van business domeinteams. Deze teams zijn dusdanig gevormd dat ze naadloos aansluiten bij de bedrijfsprocessen. Door de dataverantwoordelijkheid hier te beleggen, zorgt Data Mesh ervoor dat de businesskennis over de data, dicht bij de oorsprong blijft. Dit zorgt ervoor dat er daadwerkelijk inzichten te halen zijn uit deze data omdat de kennis erachter is geborgd. Dit in tegenstelling tot hoe het nu gaat: een centraal datateam moet met beperkte kennis van data uit diverse domeinen werken, waardoor het heel moeilijk en tijdintensief is voor ze om de data écht goed te doorgronden en te verwerken naar generiek bruikbare data-bouwblokken. Een gevaar van het onderbrengen van analytische data in deze domeinteams is het creëren van data silo’s binnen je organisatie. Om dat te voorkomen is het tweede principe, data as a product, cruciaal.
Data Mesh introduceert product-thinking in het data domein. Elk domeinteam gaat namelijk dataproducten realiseren en deze beschikbaar stellen aan andere domeinteams. Zij kunnen deze producten op hun beurt als input gebruiken voor hun eigen dataproducten. Door de komst van dataproducten ontstaat er flexibiliteit in de domeinteams. Zij zijn namelijk niet meer afhankelijk van het centrale data team dat voor hun het analytische dataproduct realiseert. De implicatie is wel dat zijzelf de verantwoordelijkheid voor hun analytische dataproducten krijgen. Denk hierbij aan eisen zoals bruikbaarheid, vindbaarheid en deelbaarheid met hun data consumers. Daarbovenop zijn zij verantwoordelijk voor de lifecycle van het dataproduct.
Oftewel: dataproducten zijn stabiel, hebben een levensfase en zijn openbaar gesteld, omdat juist in het delen van die dataproducten de meerwaarde zit voor je organisatie.
Het feit dat domeinteams in staat worden geacht om hoogwaardige dataproducten te produceren, brengt direct een vraag met zich mee: wie binnen deze teams moet dit gaan doen? Zoals eerder gesteld zijn data experts lastig te vinden en het is dus niet realistisch om in elk domeinteam een aantal dataspecialisten te plaatsen, die deze dataproducten van de grond af kunnen opbouwen en vervolgens uit te rollen en te onderhouden. Om die uitdaging te pareren, komt het derde principe van pas: het self-serve dataplatform.
Het voornaamste doel van het self-serve data platform is om de domeinteams zelf in staat te stellen om dataproducten te produceren. Dit doet het platform door zo veel mogelijk techniek te abstraheren: domeinteams moeten bezig zijn om dataproducten te realiseren, zonder zich te bekommeren om onderliggende processen zoals het toebedelen van compute resources; netwerkbeheer; de technische deployment strategie van dataproducten of de toegankelijkheid tot deze dataproducten. Door dit self-serve dataplatform zo vorm te geven, zorgt Data Mesh ervoor dat je enerzijds een faciliterend dataplatformteam hebt dat zich volledig toespitst op het bouwen en onderhouden van het self-serve dataplatform en anderzijds dat domeinteams zich volledig kunnen focussen op het creëeren van waarde door middel van dataproducten. Uiteindelijk zorgt dit dataplatform ervoor dat mensen binnen de domeinteams in staat zijn om dataproducten te produceren, consumeren en verwerken, zonder dat zij diepe technische kennis hoeven te hebben over de onderliggende infrastructuur.
Een ander belangrijke rol voor het self-serve data platform heeft te maken met het vierde en laatste principe van Data Mesh: federated computational governance.
We weten nu dat het beschikbaar stellen van dataproducten om deze als input te kunnen gebruiken voor nieuwe dataproducten of direct te consumeren belangrijk is: daar zit de echte waarde in! Echter, om dit te kunnen doen, heb je afstemming nodig tussen de verschillende domeinen. Gebeurt dit niet, dan gaat er veel tijd en energie verloren in het begrijpen en het aan elkaar koppelen van verschillende dataproducten. Een simpel voorbeeld hiervan is een gezamenlijke tijdzone afspreken: “Timestamps zijn in CET”. Om dit soort policies te bepalen en te implementeren, gaat Data Mesh uit van een federated computational governance. Concreet komt dit neer op dat er een team samen wordt gesteld waarin elk domein is vertegenwoordigd; alsook vertegenwoordiging van het self-service data platform aanwezig is én er aanvullend subject-matter-experts aan toe worden gevoegd (denk hierbij bijvoorbeeld aan legal en security specialisten). Deze groep bepaald gezamenlijk de policies, waarna vervolgens deze policies zoveel als mogelijk worden verwerkt in het self-service data platform.
We gaan uit van everyting-as-code in de dataplatformen die wij realiseren. Daar hoort ook policies-as-code bij. Zo worden de domeinteams geholpen in het volgen en implementeren van de verschillende policies (zoals bijvoorbeeld “data-retention” afspraken die in lijn zijn met GDPR).
Wanneer je dit vergelijkt met de huidige situatie, zit het verschil er met name in dat policies vaak top-down worden bepaald (bijvoorbeeld door een CIO of CDO) en deze vervolgens geïmplementeerd moeten worden. Data Mesh kiest echter voor een democratizering van het bepalen van policies: gezamenlijk worden ze bepaald en vervolgens worden ze geïmplementeerd in het self-serve dataplatform.
Nu we helder hebben wat Data Mesh inhoudt, hoe het zich verhoudt ten op zichte van traditionele architecturen én hoe het omgaat met de uitdagingen van de dag van vandaag, ben je vast geënthousiasmeerd over Data Mesh en wil je het liefst morgen beginnen.
Wij realiseren ons dat Data Mesh niet een oplossing die voor elke organisatie op dit moment direct waarde zal toevoegen. Zo lang je als organisatie nog niet aanloopt tegen de grenzen van de huidige oplossingen, is dit waarschijnlijk nog niet het moment om een overstap te maken. Daarnaast is het goed om te beseffen dat Data Mesh niet simpelweg een technische oplossing is. Zeker, techniek speelt een prominente rol en zonder de bijbehorende organisatorische- en in sommige gevallen zelfs culturele shift, zal Data Mesh niet slagen. Vandaar dat de beslissing om Data Mesh te gaan implementeren een beslissing is met veel impact voor je organisatie en dus goed overwogen moet worden.
Al met al is Data Mesh een nieuwe en veel belovende ontwikkeling binnen het datalandschap waar veel kansen liggen om waarde te creëren als organisatie indien het op een juiste manier én op een juist moment ernaartoe wordt bewogen (werken conform Data Mesh is niet van de één op de andere dag gerealiseerd).
Mocht je geïnteresseerd zijn in Dataplatform in combinatie met Data Mesh? Bekijk dan onze Dataplatform diensten of download de whitepaper ‘In 4 stappen naar een datagedreven organisatie’. We gaan graag met je in gesprek over de verschillende principes van Data Mesh of wat het voor jouw organisatie kan betekenen.
Een bericht sturen naar: marijn.uilenbroek@sogeti.com of martijn.keizer@sogeti.com. of via LinkedIn kan natuurlijk ook: Marijn of Martijn.
BI & Analyitics Engineer