Tijdens het recente EVOLVE25-event van Cloudera in Londen ontstond een interessante discussie over de relatie tussen twee cruciale instrumenten in databeheer: de data dictionary en de business glossary. Hoewel beide tools essentieel zijn, dienen ze verschillende doelen – en juist in hun samenwerking schuilt de kracht voor moderne bedrijven.
Een data dictionary is als de blauwdruk van een gebouw: het beschrijft precies hoe data is opgebouwd. Denk aan tabellen, kolommen, datatypes, veldlengtes en relaties tussen gegevens. Voor developers, data-analisten en databasebeheerders is dit een onmisbare gids. Het helpt hen om de technische details van data te begrijpen en te beheren. Stel je voor: een lijst van alle kolommen in een database, inclusief hun datatypes en beschrijvingen. Zonder deze informatie zou het werken met complexe datasets al snel een zoektocht naar een speld in een hooiberg worden.
Aan de andere kant staat de business glossary, die als een woordenboek fungeert voor de organisatie. Hierin worden zakelijke termen, definities, synoniemen en de context waarin deze termen worden gebruikt vastgelegd. Het doel is het creëren van een gemeenschappelijke taal, zodat iedereen – van marketing tot financiële afdelingen – precies weet wat er bedoeld wordt met termen als ‘klant’, ‘order’ of ‘risicoscore’. Een duidelijk voorbeeld: een definitie van ‘klant’ die niet alleen de term verklaart, maar ook beschrijft welke gegevens onder deze categorie vallen.
Samenhang belangrijk
Hoewel de data dictionary en business glossary verschillende rollen vervullen, is hun samenhang onmiskenbaar. Een business glossary kan verwijzen naar technische termen uit de data dictionary, en andersom. In de praktijk worden ze vaak samen gebruikt om zowel de technische als de zakelijke kant van data te beheren.
Stel je voor: een kolom genaamd ‘cust_id’ in een database. Op zichzelf zegt deze technische term weinig. Maar als deze kolom wordt gekoppeld aan de term ‘klant’ in de business glossary, met de definitie ‘een geregistreerde afnemer van onze diensten’ krijgt de data plotseling betekenis. Deze koppeling zorgt ervoor dat zowel technici als zakelijke gebruikers dezelfde taal spreken, wat uiteraard een essentiële voorwaarde is voor effectief datamanagement.
Gelukkig hoeven organisaties deze koppeling niet handmatig te maken. Moderne tools zoals Collibra, Alation en IBM Watson Knowledge Catalog bieden functionaliteiten om de relatie tussen data dictionaries en business glossaries te beheren. Deze tools maken het mogelijk om termen uit de business glossary automatisch te koppelen aan technische data, zoals kolommen, tabellen of rapporten. Dit proces, vaak ‘tagging’ of ‘mapping’ genoemd, zorgt ervoor dat gebruikers direct zien welke data bij een zakelijke term hoort – en vice versa.
Data lineage
Bovendien bieden deze tools zogeheten ‘data lineage’ en impactanalyse. Dit betekent dat organisaties visueel kunnen zien hoe een term uit de business glossary wordt gebruikt in data pipelines, rapporten en analyses. Als een definitie wijzigt, bijvoorbeeld die van ‘actieve klant’, tonen deze tools direct welke data assets hierdoor worden beïnvloed. Dit bespaart niet alleen tijd, maar zorgt ook voor consistentie en compliance.
AI speelt hierbij een steeds grotere rol. Tools zoals IBM Watson Knowledge Catalog gebruiken kunstmatige intelligentie om automatisch termen uit de business glossary te koppelen aan relevante data assets. AI herkent patronen, identificeert synoniemen en doet suggesties voor nieuwe koppelingen. Dit vermindert handmatig werk en verbetert de nauwkeurigheid van de data.
Laten we een concreet voorbeeld bekijken: een organisatie heeft een business glossary met de term ‘klant’ en een data dictionary met een tabel ‘customers’ en kolommen zoals ‘customer_id’ en ‘customer_name’. Door de term ‘klant’ te koppelen aan de tabel ‘customers’ en de relevante kolommen, ontstaat een directe link tussen de zakelijke en technische wereld.
Gebruikers zien hierdoor direct welke data bij ‘klant’ hoort. Als de definitie van ‘klant’ wijzigt, worden de eigenaars van de tabel ‘customers’ automatisch geïnformeerd. Bovendien toont data lineage hoe ‘klant’-data wordt gebruikt in rapporten en analyses. Dit zorgt voor transparantie en maakt het eenvoudiger om wijzigingen door te voeren.
Octopai
In dit opzicht is voor Cloudera-gebruikers met name de overname in 2024 van Octopai interessant. Dit bedrijf heeft een platform voor data lineage en cataloging van data ontwikkeld. Dit gebeurt op basis van geautomatiseerde data-mapping en kennisgrafieken. Hiermee verrijkt en activeert het platform metadata, waardoor vergaande inzichten in de datalandschap ontstaan.
De relatie tussen data dictionaries en business glossaries wordt steeds belangrijker voor data governance, compliance en efficiënt datamanagement. Moderne tools faciliteren deze relatie door automatische koppelingen, data lineage, AI-ondersteuning





0 reacties