Cloudflare’s Cloudforce One team heeft een onderzoek uitgevoerd naar zeven AI-modellen om te zien hoe hun redenering werkt en hoe cybercriminelen deze kunnen omzeilen. Uit het rapport blijkt dat aanvallers nu misbruik maken van lokmiddelen, tekstblokken die zijn ontworpen om AI-modellen emotioneel te manipuleren of te verwarren, om security-auditors ertoe te verleiden kwaadaardige code op de whitelist te zetten.
Naarmate organisaties meer vertrouwen op autonome systemen en LLM’s (Learning Learning Models), verandert de beveiligingsperimeter. Het aanvalsoppervlak is al uitgebreid tot buiten het netwerk, met een focus op de redenering van het model zelf. Wat gebeurt er als AI-modellen die cruciale onderdelen van de organisatie aansturen, worden gemanipuleerd?

Hieronder volgt een overzicht van opvallende bevindingen:
- 1%-omzeilingszone: subtiele misleiding is het meest effectief. Als securitylokmiddelen, oftewel opmerkingen die beweren dat de code onschadelijk is, minder dan 1% van een bestand uitmaken, daalt het detectiepercentage van de AI tot 53%. In dit geval sturen de lokmiddelen subtiel het redeneringsvermogen van het model aan zonder dat het te veel argwaan wekt.
- De U‑curve van misleiding: matige pogingen om AI te misleiden werken vaak, maar te veel protest (meer dan 1000 opmerkingen) activeert een herhalingsalarm waardoor het AI-model de code als frauduleus markeert.
- De contextval: de grootste bedreiging is niet taalkundig, maar structureel. Door misleidende payloads te verbergen in grote bibliotheekbundels (zoals React SDK’s), brachten aanvallers het detectiepercentage terug tot 12%, waardoor de focus van de AI effectief werd uitgeput.
- Linguïstische profilering: uit het onderzoek bleek dat de AI-modellen stereotypen hebben ontwikkeld. Sommige modellen markeerden bijvoorbeeld Russische of Chinese opmerkingen als signalen met een hoog risico, ongeacht de werkelijke functie van de code, terwijl ze talen zoals het Ests meer vertrouwden.
Het Cloudforce One-onderzoek is een technische realiteitscheck. Terwijl de berichtgeving over Mythos gaat over niveaus van modelverfijning, zoals de ontdekking van zero-day-vulnerabilities, benadrukt dit onderzoek het belang om niet over het hoofd te zien dat zelfs een grensverleggend model met redeneringen op Mythos-niveau geneutraliseerd of misleid kan worden.
