Cloudflare-onderzoek: Aanvallers gebruiken promptinjectie om AI-modellen te misleiden

5 mei 2026

Cloudflare’s Cloud­force One team heeft een onderzoek uitge­voerd naar zeven AI-modellen om te zien hoe hun rede­ne­ring werkt en hoe cyber­cri­mi­nelen deze kunnen omzeilen. Uit het rapport blijkt dat aanval­lers nu misbruik maken van lokmid­delen, tekst­blokken die zijn ontworpen om AI-modellen emoti­o­neel te mani­pu­leren of te verwarren, om security-auditors ertoe te verleiden kwaad­aar­dige code op de whitelist te zetten. 

Naarmate orga­ni­sa­ties meer vertrouwen op autonome systemen en LLM’s (Learning Learning Models), verandert de bevei­li­gings­pe­ri­meter. Het aanvals­op­per­vlak is al uitge­breid tot buiten het netwerk, met een focus op de rede­ne­ring van het model zelf. Wat gebeurt er als AI-modellen die cruciale onder­delen van de orga­ni­satie aansturen, worden gemanipuleerd?

Hieronder volgt een overzicht van opval­lende bevindingen:

  • 1%-omzeilingszone: subtiele mislei­ding is het meest effectief. Als secu­ri­ty­lok­mid­delen, oftewel opmer­kingen die beweren dat de code onscha­de­lijk is, minder dan 1% van een bestand uitmaken, daalt het detec­tie­per­cen­tage van de AI tot 53%. In dit geval sturen de lokmid­delen subtiel het rede­ne­rings­ver­mogen van het model aan zonder dat het te veel argwaan wekt.
  • De U‑curve van mislei­ding: matige pogingen om AI te misleiden werken vaak, maar te veel protest (meer dan 1000 opmer­kingen) activeert een herha­ling­s­alarm waardoor het AI-model de code als frau­du­leus markeert.
  • De contextval: de grootste bedrei­ging is niet taal­kundig, maar struc­tu­reel. Door mislei­dende payloads te verbergen in grote bibli­o­theek­bun­dels (zoals React SDK’s), brachten aanval­lers het detec­tie­per­cen­tage terug tot 12%, waardoor de focus van de AI effectief werd uitgeput.
  • Lingu­ïs­ti­sche profi­le­ring: uit het onderzoek bleek dat de AI-modellen stereo­typen hebben ontwik­keld. Sommige modellen markeerden bijvoor­beeld Russische of Chinese opmer­kingen als signalen met een hoog risico, ongeacht de werke­lijke functie van de code, terwijl ze talen zoals het Ests meer vertrouwden.

Het Cloud­force One-onderzoek is een tech­ni­sche reali­teits­check. Terwijl de bericht­ge­ving over Mythos gaat over niveaus van model­ver­fij­ning, zoals de ontdek­king van zero-day-vulne­ra­bi­li­ties, benadrukt dit onderzoek het belang om niet over het hoofd te zien dat zelfs een grens­ver­leg­gend model met rede­ne­ringen op Mythos-niveau geneu­tra­li­seerd of misleid kan worden. 

Pin It on Pinterest

Share This