Datadictionaries en business glossaries cruciaal voor volwassen AI-toepassingen

10 oktober 2025

Tijdens het recente EVOLVE25-event van Cloudera in Londen ontstond een inte­res­sante discussie over de relatie tussen twee cruciale instru­menten in data­be­heer: de data dicti­o­nary en de business glossary. Hoewel beide tools essen­tieel zijn, dienen ze verschil­lende doelen – en juist in hun samen­wer­king schuilt de kracht voor moderne bedrijven.

Een data dicti­o­nary is als de blauwdruk van een gebouw: het beschrijft precies hoe data is opgebouwd. Denk aan tabellen, kolommen, datatypes, veld­lengtes en relaties tussen gegevens. Voor devel­o­pers, data-analisten en data­ba­se­be­heer­ders is dit een onmisbare gids. Het helpt hen om de tech­ni­sche details van data te begrijpen en te beheren. Stel je voor: een lijst van alle kolommen in een database, inclusief hun datatypes en beschrij­vingen. Zonder deze infor­matie zou het werken met complexe datasets al snel een zoektocht naar een speld in een hooiberg worden.

Aan de andere kant staat de business glossary, die als een woor­den­boek fungeert voor de orga­ni­satie. Hierin worden zakelijke termen, defi­ni­ties, syno­niemen en de context waarin deze termen worden gebruikt vast­ge­legd. Het doel is het creëren van een gemeen­schap­pe­lijke taal, zodat iedereen – van marketing tot finan­ciële afde­lingen – precies weet wat er bedoeld wordt met termen als ‘klant’, ‘order’ of ‘risi­co­score’. Een duidelijk voorbeeld: een definitie van ‘klant’ die niet alleen de term verklaart, maar ook beschrijft welke gegevens onder deze categorie vallen.

Samenhang belangrijk

Hoewel de data dicti­o­nary en business glossary verschil­lende rollen vervullen, is hun samenhang onmis­ken­baar. Een business glossary kan verwijzen naar tech­ni­sche termen uit de data dicti­o­nary, en andersom. In de praktijk worden ze vaak samen gebruikt om zowel de tech­ni­sche als de zakelijke kant van data te beheren.

Stel je voor: een kolom genaamd ‘cust_​id’ in een database. Op zichzelf zegt deze tech­ni­sche term weinig. Maar als deze kolom wordt gekoppeld aan de term ‘klant’ in de business glossary, met de definitie ‘een gere­gi­streerde afnemer van onze diensten’ krijgt de data plot­se­ling betekenis. Deze koppeling zorgt ervoor dat zowel technici als zakelijke gebrui­kers dezelfde taal spreken, wat uiteraard een essen­tiële voor­waarde is voor effectief datamanagement.

Gelukkig hoeven orga­ni­sa­ties deze koppeling niet handmatig te maken. Moderne tools zoals Collibra, Alation en IBM Watson Knowledge Catalog bieden func­ti­o­na­li­teiten om de relatie tussen data dicti­o­na­ries en business glos­sa­ries te beheren. Deze tools maken het mogelijk om termen uit de business glossary auto­ma­tisch te koppelen aan tech­ni­sche data, zoals kolommen, tabellen of rapporten. Dit proces, vaak ‘tagging’ of ‘mapping’ genoemd, zorgt ervoor dat gebrui­kers direct zien welke data bij een zakelijke term hoort – en vice versa.

Data lineage

Bovendien bieden deze tools zogeheten ‘data lineage’ en impact­ana­lyse. Dit betekent dat orga­ni­sa­ties visueel kunnen zien hoe een term uit de business glossary wordt gebruikt in data pipelines, rapporten en analyses. Als een definitie wijzigt, bijvoor­beeld die van ‘actieve klant’, tonen deze tools direct welke data assets hierdoor worden beïnvloed. Dit bespaart niet alleen tijd, maar zorgt ook voor consis­tentie en compliance.

AI speelt hierbij een steeds grotere rol. Tools zoals IBM Watson Knowledge Catalog gebruiken kunst­ma­tige intel­li­gentie om auto­ma­tisch termen uit de business glossary te koppelen aan relevante data assets. AI herkent patronen, iden­ti­fi­ceert syno­niemen en doet sugges­ties voor nieuwe koppe­lingen. Dit vermin­dert handmatig werk en verbetert de nauw­keu­rig­heid van de data.

Laten we een concreet voorbeeld bekijken: een orga­ni­satie heeft een business glossary met de term ‘klant’ en een data dicti­o­nary met een tabel ‘customers’ en kolommen zoals ‘customer_​id’ en ‘customer_​name’. Door de term ‘klant’ te koppelen aan de tabel ‘customers’ en de relevante kolommen, ontstaat een directe link tussen de zakelijke en tech­ni­sche wereld.

Gebrui­kers zien hierdoor direct welke data bij ‘klant’ hoort. Als de definitie van ‘klant’ wijzigt, worden de eigenaars van de tabel ‘customers’ auto­ma­tisch geïn­for­meerd. Bovendien toont data lineage hoe ‘klant’-data wordt gebruikt in rapporten en analyses. Dit zorgt voor trans­pa­rantie en maakt het eenvou­diger om wijzi­gingen door te voeren.

Octopai

In dit opzicht is voor Cloudera-gebrui­kers met name de overname in 2024 van Octopai inte­res­sant. Dit bedrijf heeft een platform voor data lineage en cata­lo­ging van data ontwik­keld. Dit gebeurt op basis van geau­to­ma­ti­seerde data-mapping en kennis­gra­fieken. Hiermee verrijkt en activeert het platform metadata, waardoor vergaande  inzichten in de data­land­schap ontstaan.

De relatie tussen data dicti­o­na­ries en business glos­sa­ries wordt steeds belang­rijker voor data gover­nance, compli­ance en efficiënt data­ma­na­ge­ment. Moderne tools faci­li­teren deze relatie door auto­ma­ti­sche koppe­lingen, data lineage, AI-onder­steu­ning en colla­bo­ra­tieve workflows. Hierdoor kunnen orga­ni­sa­ties niet alleen hun data beter beheren, maar ook zorgen voor een gemeen­schap­pe­lijke taal en consis­tentie binnen alle lagen van de organisatie.

Pin It on Pinterest

Share This