Strategisch vergeten: waarom organisaties actief moeten ‘onthouden’ wat ze niet meer willen weten

7 januari 2026

Voor de meeste bedrijven is data goud. Alles wat ooit is verzameld – van oude klant­log­boeken en verou­derde modellen tot PowerPoint‑presentaties die niemand meer kan herin­neren – wordt bewaard. Opslag is goedkoop, back‑ups draaien auto­ma­tisch en men heeft het gevoel dat een vergeten bestand op een dag nog wel van pas kan komen.

Maar die constante ophoping brengt eigen risico’s met zich mee, schrijft analist Robert Scoble in een blog post. In de massa van histo­ri­sche gegevens en bestanden liggen namelijk vaak ook bevoor­oor­deelde (‘biased’) datasets die nog steeds invloed hebben op nieuwe modellen. Denk ook aan verou­derde medische of finan­ciële richt­lijnen, verlopen bevei­li­gings­sleu­tels en gede­tail­leerde dossiers over mensen die om hun anoni­mi­teit hebben gevraagd. Het probleem is niet langer alleen “hoe onthoud ik meer?”, maar “hoe bepaal ik wat we moeten vergeten?”, schrijft hij.

Stra­te­gisch vergeten betekent het bouwen van systemen die de ‘geheu­gen­bank’ van een orga­ni­satie door­lichten en voor­stellen – of zelfs uitvoeren – welke infor­matie actief onbekend moet blijven. Het gaat niet om een simpele prul­lenbak, maar om een besluit­vormer die risico, waarde en ethiek weegt over miljoenen arte­facten tegelijk.

Waarom actief vergeten geen risico, maar noodzaak is

Het idee van inten­ti­o­neel vergeten klinkt eerst wellicht eng, totdat men de schade opsomt die ontstaat wanneer alles bewaard blijft.

  • Scha­de­lijke erfe­nis­kennis – Denk aan oude hand­lei­dingen die bijvoor­beeld discri­mi­ne­rende wervings­prak­tijken of red‑lining‑regels coderen. Zelfs als ze “alleen ter refe­rentie” staan, kunnen ze onbewust de huidige besluit­vor­ming beïnvloeden.
  • Verou­derde modellen en regels – Krediet­scores die getraind zijn op econo­mi­sche omstan­dig­heden van tien jaar geleden, of triage‑modellen die een nieuwe behan­de­ling negeren, leiden tot beslis­singen die gebaseerd zijn op achter­haalde aannames.
  • Bevoor­oor­deelde of toxische datasets – Beeld­col­lec­ties met een scheve demo­grafie, chatlogs vol scheld­woorden of browse‑geschiedenissen die zonder toestem­ming zijn verzameld, blijven nieuwe modellen vervuilen.
  • Persoon­lijke gegevens zonder juri­di­sche basis – Klan­ten­data die de retentie‑deadline hebben over­schreden of verzoeken om “right to be forgotten”, vormen een duide­lijke schending van privacywetgeving.
  • Veiligheidsrisico’s – Verlopen API‑sleutels, inlog­ge­ge­vens van vertrokken mede­wer­kers en oude encryp­tie­sleu­tels kunnen leiden tot data­lekken of onge­au­to­ri­seerde toegang.

Het vast­houden aan al deze arte­facten “voor het geval dat” kan leiden tot echte schade: een bevoor­oor­deelde trai­ningsset ontdekt tijdens een rechts­zaak, een lek van oude medische dossiers of een toezicht­houder die vraagt waarom een bedrijf nog steeds infor­matie bewaart zonder legitieme reden. Stra­te­gisch vergeten ziet geheugen daarom niet alleen als een asset, maar ook als een liability. Wanneer zorg­vuldig toegepast, wordt vergeten een vorm van risicomanagement.

Hoe een AI‑systeem het vergeten beredeneren kan

Een serieus ‘forgetting‑system’ moet meer bieden dan een lijst met hand­ma­tige verwij­de­rings­re­gels. Het moet complexe vragen beant­woorden die te omvang­rijk zijn voor compliance‑teams om handmatig bij te houden. Voor elk document, elke dataset of elk model kan het systeem verschil­lende scores berekenen:

  • Nutsscore – Hoe vaak wordt het artefact in de praktijk gebruikt? Hoe centraal staat het voor huidige producten, onderzoek of operaties?
  • Risi­co­score – Welke schade kan ontstaan bij lekken of misbruik? Bevat het persoon­lijke data, gevoelige attri­buten of bedrijfsgeheimen?
  • Bias‑ en toxi­ci­teits­in­di­ca­toren – Codi­fi­ceert het demo­gra­fi­sche scheef­heid, bele­di­gende taal of oneer­lijke besluitvormingspatronen?
  • Entang­le­ment – Welke modellen zijn getraind op deze dataset? Welke beleids­re­gels of product­fea­tures hangen ervan af?
  • Juri­di­sche status – Retentie‑deadlines, toestem­mingen, wette­lijke houders of verplich­tingen tot verwijdering?

Om deze scores te produ­ceren, moet het systeem volledige zicht­baar­heid hebben op de digitale geheu­gen­bank: opslag‑buckets, model‑registries, interne wiki’s, ticket­sys­temen, version control en data‑catalogi. Vervol­gens bouwt het een kennis­gra­fiek die arte­facten met elkaar en met de systemen die ze gebruiken verbindt.

Op basis daarvan kan het systeem acties voor­stellen, bijvoorbeeld:

  • Direct verwij­deren wanneer een artefact onge­bruikt, van lage waarde en hoog risico is.
  • Cold‑archiveren – bewaren in versleu­telde opslag met strenge toegangs­rechten, omdat het misschien nog nodig is voor compli­ance, maar niet mag meespelen in dage­lijkse processen.
  • Deta­cheren van trai­nings­pijp­lijnen zodat toekom­stige modellen deze data niet meer gebruiken.
  • Model‑unlearning, waarbij speci­fieke datapoints uit reeds getrainde modellen worden verwijderd.

Cruciaal, zo schrijft Scoble, is dat de AI niet autonoom beslist; mense­lijke review blijft verplicht voor high‑impact keuzes. De AI fungeert als triage‑tool die de menselijk haalbare zoekruimte drastisch verkleint.

Praktijkvoorbeelden

Een wereld­wijde bank wil een decen­nia­lange kredietscore‑historie opschonen. In de archieven liggen datasets uit de jaren ’90 waarin ras en postcode expliciet werden meege­nomen. Hoewel deze velden later verwij­derd zijn, zijn klonen van die vroege data in interne onder­zoeks­r­epos terecht­ge­komen en voeden nog steeds nevenprojecten.

Een AI‑gestuurd forget‑system zou hier patronen bloot­leggen: meerdere afgeleide datasets die allemaal terug te voeren zijn op de oorspron­ke­lijke discri­mi­ne­rende corpus, modellen die in niche‑producten zwaar leunen op proxy‑variabelen gekoppeld aan ras, en oude trai­nings­slides die nog steeds de verou­derde regels onder­wijzen. Het systeem kan dan aanbe­velen het originele bestand naar een juridisch afge­sloten archief te verplaatsen, alle afgeleide datasets te verwij­deren en de betrokken modellen opnieuw te trainen op schone data. Daarnaast kan de kennis­bank een waar­schu­wing toevoegen dat de oude prak­tijken onac­cep­tabel zijn, zodat ze niet per ongeluk opnieuw worden ingevoerd.

Scoble noemt nog een voorbeeld. Een life sciences-bedrijf slaat gede­tail­leerde sensor­ge­ge­vens van patiënten op lang nadat de studie beëindigd is. De AI corre­leert reten­tie­be­leid, toestem­mings­for­mu­lieren en gebruiks­pa­tronen en iden­ti­fi­ceert cohorten waarvan de data uitslui­tend een aanspra­ke­lijk­heids­ri­sico vormen: tien­dui­zenden records die drie jaar niet zijn geraad­pleegd, ruwe biome­tri­sche stromen en precieze locatie‑informatie, en waarvan de oorspron­ke­lijke toestem­mingen een verwij­de­ring na afloop van de studie vereisten. Omdat deze records nooit zijn gebruikt om productie‑modellen te trainen, labelt het systeem ze als uitste­kende kandi­daten voor geau­to­ma­ti­seerde verwij­de­ring, waardoor zowel privacyrisico’s als opslag­kosten aanzien­lijk dalen.

Geen gloed­nieuw idee, maar een nood­za­ke­lijke evolutie

Het concept van ‘stra­te­gisch vergeten’ is niet nieuw. Robert Scoble zelf betoogt al jaren dat “data‑overload ons blind maakt voor de risico’s die we zelf creëren” en pleit voor proac­tieve data‑governance. Andere analisten maar ook aanbie­ders zijn zich bewust van dit probleem. Wat wel verandert is de schaal en complexi­teit waarmee moderne orga­ni­sa­ties gecon­fron­teerd worden. Kunst­ma­tige intel­li­gentie biedt nu de middelen om dit probleem syste­ma­tisch aan te pakken: door enorme hoeveel­heden metadata te analy­seren, verbanden te leggen en prio­ri­teiten te stellen die voor mensen onzicht­baar blijven.

Daarom wordt stra­te­gisch vergeten steeds belangrijker:

  • Regel­ge­ving (GDPR en soort­ge­lijke wetten) eist het recht op verge­tel­heid en minimale databehoudsplichten.
  • Repu­ta­tie­ri­sico – één enkel lek van oude, gevoelige data kan het vertrouwen van klanten ernstig schaden.
  • Kosten – onnodige opslag en beheer van verou­derde arte­facten verhogen de opera­ti­o­nele uitgaven.
  • Ethiek – het voort­be­staan van bevoor­oor­deelde of scha­de­lijke data onder­mijnt de eerlijk­heid van AI‑systemen.

Door AI‑ondersteunde ‘forgetting‑strategieën’ te inte­greren, kunnen orga­ni­sa­ties hun digitale geheugen zuiver, veilig en compliant houden – zonder de flexi­bi­li­teit te verliezen die voortkomt uit een goed beheerd kennis‑ecosysteem.

Stra­te­gisch vergeten is geen futu­ris­tisch concept, maar een praktisch instru­ment dat orga­ni­sa­ties helpt hun eigen geheugen te beheren als een verant­woor­de­lijke asset. Met behulp van AI kunnen bedrijven risico’s iden­ti­fi­ceren die verborgen liggen in oude data‑lagen, maar ook waarde‑ en nuts­scores bepalen om prio­ri­teiten te stellen. Ze kunnen gerichte acties (verwij­deren, archi­veren, deta­cheren, unlearning) auto­ma­ti­seren, terwijl mense­lijke controle behouden blijft.

Voor bedrijven en overheden is het net zo belang­rijk om te weten wat ze moeten laten verdwijnen als wat ze moeten bewaren. Het omarmen van het fenomeen ‘stra­te­gisch vergeten’ betekent een stap vooruit zetten richting veiligere, ethi­schere en effi­ci­ën­tere organisaties.

Photo by Edoardo Cuoghi on Unsplash

Pin It on Pinterest

Share This