Voor de meeste bedrijven is data goud. Alles wat ooit is verzameld – van oude klantlogboeken en verouderde modellen tot PowerPoint‑presentaties die niemand meer kan herinneren – wordt bewaard. Opslag is goedkoop, back‑ups draaien automatisch en men heeft het gevoel dat een vergeten bestand op een dag nog wel van pas kan komen.
Maar die constante ophoping brengt eigen risico’s met zich mee, schrijft analist Robert Scoble in een blog post. In de massa van historische gegevens en bestanden liggen namelijk vaak ook bevooroordeelde (‘biased’) datasets die nog steeds invloed hebben op nieuwe modellen. Denk ook aan verouderde medische of financiële richtlijnen, verlopen beveiligingssleutels en gedetailleerde dossiers over mensen die om hun anonimiteit hebben gevraagd. Het probleem is niet langer alleen “hoe onthoud ik meer?”, maar “hoe bepaal ik wat we moeten vergeten?”, schrijft hij.
Strategisch vergeten betekent het bouwen van systemen die de ‘geheugenbank’ van een organisatie doorlichten en voorstellen – of zelfs uitvoeren – welke informatie actief onbekend moet blijven. Het gaat niet om een simpele prullenbak, maar om een besluitvormer die risico, waarde en ethiek weegt over miljoenen artefacten tegelijk.
Waarom actief vergeten geen risico, maar noodzaak is
Het idee van intentioneel vergeten klinkt eerst wellicht eng, totdat men de schade opsomt die ontstaat wanneer alles bewaard blijft.
- Schadelijke erfeniskennis – Denk aan oude handleidingen die bijvoorbeeld discriminerende wervingspraktijken of red‑lining‑regels coderen. Zelfs als ze “alleen ter referentie” staan, kunnen ze onbewust de huidige besluitvorming beïnvloeden.
- Verouderde modellen en regels – Kredietscores die getraind zijn op economische omstandigheden van tien jaar geleden, of triage‑modellen die een nieuwe behandeling negeren, leiden tot beslissingen die gebaseerd zijn op achterhaalde aannames.
- Bevooroordeelde of toxische datasets – Beeldcollecties met een scheve demografie, chatlogs vol scheldwoorden of browse‑geschiedenissen die zonder toestemming zijn verzameld, blijven nieuwe modellen vervuilen.
- Persoonlijke gegevens zonder juridische basis – Klantendata die de retentie‑deadline hebben overschreden of verzoeken om “right to be forgotten”, vormen een duidelijke schending van privacywetgeving.
- Veiligheidsrisico’s – Verlopen API‑sleutels, inloggegevens van vertrokken medewerkers en oude encryptiesleutels kunnen leiden tot datalekken of ongeautoriseerde toegang.
Het vasthouden aan al deze artefacten “voor het geval dat” kan leiden tot echte schade: een bevooroordeelde trainingsset ontdekt tijdens een rechtszaak, een lek van oude medische dossiers of een toezichthouder die vraagt waarom een bedrijf nog steeds informatie bewaart zonder legitieme reden. Strategisch vergeten ziet geheugen daarom niet alleen als een asset, maar ook als een liability. Wanneer zorgvuldig toegepast, wordt vergeten een vorm van risicomanagement.
Hoe een AI‑systeem het vergeten beredeneren kan
Een serieus ‘forgetting‑system’ moet meer bieden dan een lijst met handmatige verwijderingsregels. Het moet complexe vragen beantwoorden die te omvangrijk zijn voor compliance‑teams om handmatig bij te houden. Voor elk document, elke dataset of elk model kan het systeem verschillende scores berekenen:
- Nutsscore – Hoe vaak wordt het artefact in de praktijk gebruikt? Hoe centraal staat het voor huidige producten, onderzoek of operaties?
- Risicoscore – Welke schade kan ontstaan bij lekken of misbruik? Bevat het persoonlijke data, gevoelige attributen of bedrijfsgeheimen?
- Bias‑ en toxiciteitsindicatoren – Codificeert het demografische scheefheid, beledigende taal of oneerlijke besluitvormingspatronen?
- Entanglement – Welke modellen zijn getraind op deze dataset? Welke beleidsregels of productfeatures hangen ervan af?
- Juridische status – Retentie‑deadlines, toestemmingen, wettelijke houders of verplichtingen tot verwijdering?
Om deze scores te produceren, moet het systeem volledige zichtbaarheid hebben op de digitale geheugenbank: opslag‑buckets, model‑registries, interne wiki’s, ticketsystemen, version control en data‑catalogi. Vervolgens bouwt het een kennisgrafiek die artefacten met elkaar en met de systemen die ze gebruiken verbindt.
Op basis daarvan kan het systeem acties voorstellen, bijvoorbeeld:
- Direct verwijderen wanneer een artefact ongebruikt, van lage waarde en hoog risico is.
- Cold‑archiveren – bewaren in versleutelde opslag met strenge toegangsrechten, omdat het misschien nog nodig is voor compliance, maar niet mag meespelen in dagelijkse processen.
- Detacheren van trainingspijplijnen zodat toekomstige modellen deze data niet meer gebruiken.
- Model‑unlearning, waarbij specifieke datapoints uit reeds getrainde modellen worden verwijderd.
Cruciaal, zo schrijft Scoble, is dat de AI niet autonoom beslist; menselijke review blijft verplicht voor high‑impact keuzes. De AI fungeert als triage‑tool die de menselijk haalbare zoekruimte drastisch verkleint.
Praktijkvoorbeelden
Een wereldwijde bank wil een decennialange kredietscore‑historie opschonen. In de archieven liggen datasets uit de jaren ’90 waarin ras en postcode expliciet werden meegenomen. Hoewel deze velden later verwijderd zijn, zijn klonen van die vroege data in interne onderzoeksrepos terechtgekomen en voeden nog steeds nevenprojecten.
Een AI‑gestuurd forget‑system zou hier patronen blootleggen: meerdere afgeleide datasets die allemaal terug te voeren zijn op de oorspronkelijke discriminerende corpus, modellen die in niche‑producten zwaar leunen op proxy‑variabelen gekoppeld aan ras, en oude trainingsslides die nog steeds de verouderde regels onderwijzen. Het systeem kan dan aanbevelen het originele bestand naar een juridisch afgesloten archief te verplaatsen, alle afgeleide datasets te verwijderen en de betrokken modellen opnieuw te trainen op schone data. Daarnaast kan de kennisbank een waarschuwing toevoegen dat de oude praktijken onacceptabel zijn, zodat ze niet per ongeluk opnieuw worden ingevoerd.
Scoble noemt nog een voorbeeld. Een life sciences-bedrijf slaat gedetailleerde sensorgegevens van patiënten op lang nadat de studie beëindigd is. De AI correleert retentiebeleid, toestemmingsformulieren en gebruikspatronen en identificeert cohorten waarvan de data uitsluitend een aansprakelijkheidsrisico vormen: tienduizenden records die drie jaar niet zijn geraadpleegd, ruwe biometrische stromen en precieze locatie‑informatie, en waarvan de oorspronkelijke toestemmingen een verwijdering na afloop van de studie vereisten. Omdat deze records nooit zijn gebruikt om productie‑modellen te trainen, labelt het systeem ze als uitstekende kandidaten voor geautomatiseerde verwijdering, waardoor zowel privacyrisico’s als opslagkosten aanzienlijk dalen.
Geen gloednieuw idee, maar een noodzakelijke evolutie
Het concept van ‘strategisch vergeten’ is niet nieuw. Robert Scoble zelf betoogt al jaren dat “data‑overload ons blind maakt voor de risico’s die we zelf creëren” en pleit voor proactieve data‑governance. Andere analisten maar ook aanbieders zijn zich bewust van dit probleem. Wat wel verandert is de schaal en complexiteit waarmee moderne organisaties geconfronteerd worden. Kunstmatige intelligentie biedt nu de middelen om dit probleem systematisch aan te pakken: door enorme hoeveelheden metadata te analyseren, verbanden te leggen en prioriteiten te stellen die voor mensen onzichtbaar blijven.
Daarom wordt strategisch vergeten steeds belangrijker:
- Regelgeving (GDPR en soortgelijke wetten) eist het recht op vergetelheid en minimale databehoudsplichten.
- Reputatierisico – één enkel lek van oude, gevoelige data kan het vertrouwen van klanten ernstig schaden.
- Kosten – onnodige opslag en beheer van verouderde artefacten verhogen de operationele uitgaven.
- Ethiek – het voortbestaan van bevooroordeelde of schadelijke data ondermijnt de eerlijkheid van AI‑systemen.
Door AI‑ondersteunde ‘forgetting‑strategieën’ te integreren, kunnen organisaties hun digitale geheugen zuiver, veilig en compliant houden – zonder de flexibiliteit te verliezen die voortkomt uit een goed beheerd kennis‑ecosysteem.
Strategisch vergeten is geen futuristisch concept, maar een praktisch instrument dat organisaties helpt hun eigen geheugen te beheren als een verantwoordelijke asset. Met behulp van AI kunnen bedrijven risico’s identificeren die verborgen liggen in oude data‑lagen, maar ook waarde‑ en nutsscores bepalen om prioriteiten te stellen. Ze kunnen gerichte acties (verwijderen, archiveren, detacheren, unlearning) automatiseren, terwijl menselijke controle behouden blijft.
Voor bedrijven en overheden is het net zo belangrijk om te weten wat ze moeten laten verdwijnen als wat ze moeten bewaren. Het omarmen van het fenomeen ‘strategisch vergeten’ betekent een stap vooruit zetten richting veiligere, ethischere en efficiëntere organisaties.
Photo by Edoardo Cuoghi on Unsplash

