10 oktober 2025
0 Reactie(s)

10 oktober 2025

Datadictionaries en business glossaries cruciaal voor volwassen AI-toepassingen

Tijdens het recente EVOLVE25-event van Cloudera in Londen ontstond een interes­sante discussie over de relatie tussen twee cruciale instru­menten in databe­heer: de data dicti­o­nary en de business glossary. Hoewel beide tools essen­tieel zijn, dienen ze verschil­lende doelen – en juist in hun samen­wer­king schuilt de kracht voor moderne bedrijven.

Een data dicti­o­nary is als de blauw­druk van een gebouw: het beschrijft precies hoe data is opgebouwd. Denk aan tabellen, kolommen, datatypes, veldlengtes en relaties tussen gegevens. Voor devel­o­pers, data-analisten en databa­se­be­heer­ders is dit een onmis­bare gids. Het helpt hen om de techni­sche details van data te begrijpen en te beheren. Stel je voor: een lijst van alle kolommen in een database, inclu­sief hun datatypes en beschrij­vingen. Zonder deze infor­matie zou het werken met complexe datasets al snel een zoektocht naar een speld in een hooiberg worden.

Aan de andere kant staat de business glossary, die als een woorden­boek fungeert voor de organi­satie. Hierin worden zakelijke termen, defini­ties, synoniemen en de context waarin deze termen worden gebruikt vastge­legd. Het doel is het creëren van een gemeen­schap­pe­lijke taal, zodat iedereen – van marke­ting tot finan­ciële afdelingen – precies weet wat er bedoeld wordt met termen als ‘klant’, ‘order’ of ‘risico­score’. Een duide­lijk voorbeeld: een definitie van ‘klant’ die niet alleen de term verklaart, maar ook beschrijft welke gegevens onder deze categorie vallen.

Samenhang belangrijk

Hoewel de data dicti­o­nary en business glossary verschil­lende rollen vervullen, is hun samen­hang onmis­ken­baar. Een business glossary kan verwijzen naar techni­sche termen uit de data dicti­o­nary, en andersom. In de praktijk worden ze vaak samen gebruikt om zowel de techni­sche als de zakelijke kant van data te beheren.

Stel je voor: een kolom genaamd ‘cust_​id’ in een database. Op zichzelf zegt deze techni­sche term weinig. Maar als deze kolom wordt gekop­peld aan de term ‘klant’ in de business glossary, met de definitie ‘een geregi­streerde afnemer van onze diensten’ krijgt de data plotse­ling betekenis. Deze koppe­ling zorgt ervoor dat zowel technici als zakelijke gebrui­kers dezelfde taal spreken, wat uiter­aard een essen­tiële voorwaarde is voor effec­tief datamanagement.

Gelukkig hoeven organi­sa­ties deze koppe­ling niet handmatig te maken. Moderne tools zoals Collibra, Alation en IBM Watson Knowledge Catalog bieden functi­o­na­li­teiten om de relatie tussen data dicti­o­na­ries en business glossa­ries te beheren. Deze tools maken het mogelijk om termen uit de business glossary automa­tisch te koppelen aan techni­sche data, zoals kolommen, tabellen of rapporten. Dit proces, vaak ‘tagging’ of ‘mapping’ genoemd, zorgt ervoor dat gebrui­kers direct zien welke data bij een zakelijke term hoort – en vice versa.

Data lineage

Boven­dien bieden deze tools zogeheten ‘data lineage’ en impact­ana­lyse. Dit betekent dat organi­sa­ties visueel kunnen zien hoe een term uit de business glossary wordt gebruikt in data pipelines, rapporten en analyses. Als een definitie wijzigt, bijvoor­beeld die van ‘actieve klant’, tonen deze tools direct welke data assets hierdoor worden beïnvloed. Dit bespaart niet alleen tijd, maar zorgt ook voor consis­tentie en compliance.

AI speelt hierbij een steeds grotere rol. Tools zoals IBM Watson Knowledge Catalog gebruiken kunst­ma­tige intel­li­gentie om automa­tisch termen uit de business glossary te koppelen aan relevante data assets. AI herkent patronen, identi­fi­ceert synoniemen en doet sugges­ties voor nieuwe koppe­lingen. Dit vermin­dert handmatig werk en verbe­tert de nauwkeu­rig­heid van de data.

Laten we een concreet voorbeeld bekijken: een organi­satie heeft een business glossary met de term ‘klant’ en een data dicti­o­nary met een tabel ‘custo­mers’ en kolommen zoals ‘customer_​id’ en ‘customer_​name’. Door de term ‘klant’ te koppelen aan de tabel ‘custo­mers’ en de relevante kolommen, ontstaat een directe link tussen de zakelijke en techni­sche wereld.

Gebrui­kers zien hierdoor direct welke data bij ‘klant’ hoort. Als de definitie van ‘klant’ wijzigt, worden de eigenaars van de tabel ‘custo­mers’ automa­tisch geïnfor­meerd. Boven­dien toont data lineage hoe ‘klant’-data wordt gebruikt in rapporten en analyses. Dit zorgt voor trans­pa­rantie en maakt het eenvou­diger om wijzi­gingen door te voeren.

Octopai

In dit opzicht is voor Cloudera-gebrui­kers met name de overname in 2024 van Octopai interes­sant. Dit bedrijf heeft een platform voor data lineage en catalo­ging van data ontwik­keld. Dit gebeurt op basis van geauto­ma­ti­seerde data-mapping en kennis­gra­fieken. Hiermee verrijkt en activeert het platform metadata, waardoor vergaande  inzichten in de dataland­schap ontstaan.

De relatie tussen data dicti­o­na­ries en business glossa­ries wordt steeds belang­rijker voor data gover­nance, compli­ance en efficiënt datama­na­ge­ment. Moderne tools facili­teren deze relatie door automa­ti­sche koppe­lingen, data lineage, AI-ondersteuning

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

129 weergaven

Gerelateerde berichten

SAP introduceert EU AI Cloud als nieuw fundament voor Europese digitale soevereiniteit

SAP introduceert EU AI Cloud als nieuw fundament voor Europese digitale soevereiniteit

Onderzoek: ‘Een op de tien Nederlandse bedrijven biedt geen startersfuncties meer aan door AI’

Onderzoek: ‘Een op de tien Nederlandse bedrijven biedt geen startersfuncties meer aan door AI’

Dassault Systèmes en Mistral AI verdiepen hun samenwerking

Dassault Systèmes en Mistral AI verdiepen hun samenwerking

JDE Peet’s stroomlijnt wereldwijde reis- en declaratieprocessen met SAP Concur

JDE Peet’s stroomlijnt wereldwijde reis- en declaratieprocessen met SAP Concur

Geen berichten gevonden.

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This