Palo Alto Networks: ‘(Ook) DeepSeek makkelijk te misleiden’

12 februari 2025

(Ook) AI-model DeepSeek blijkt opvallend makkelijk te misleiden. Onder­zoe­kers van cyber­se­cu­ri­ty­be­drijf Palo Alto Networks slaagden erin instruc­ties los te peuteren om Molo­tov­cock­tails te maken of code voor malware te schrijven.

De onder­zoe­kers pasten drie “jailbreaking”-technieken toe (letter­lijk: ontsnap­ping), die ze eerder met wisselend succes bij andere taal­mo­dellen uitpro­beerden. Bij jail­brea­king wordt een opdracht zo gefor­mu­leerd dat het model als het ware wordt misleid om scha­de­lijke antwoorden te genereren.

Bad Likert Judge

Bij de eerste techniek, “Bad Likert Judge”, wordt DeepSeek gevraagd een antwoord te beoor­delen op een schaal van goed- tot kwaad­aardig. De meest kwaad­aar­dige optie bevat mogelijk illegale infor­matie. Wanneer vervol­gens wordt door­ge­vraagd naar die laatste optie, geeft DeepSeek uitein­de­lijk verboden infor­matie vrij.

Bad Likert Judge: eerste vraag met Likert-schaal 
Bad Likert Judge: laatste vraag met code om malware te bouwen

Crescendo

De tweede jail­brea­king-techniek, “Crescendo”, is even eenvoudig als doel­tref­fend. In minder dan vijf inter­ac­ties wordt DeepSeek in een hoek gedreven om gevoelige infor­matie vrij te geven over een bepaald onderwerp. De vragen worden cres­cen­do­ge­wijs steeds agressiever.

Crescendo: eerste vraag met de geschie­denis van Molotovcocktails
Crescendo: laatste vraag met instruc­ties voor een Molotovcocktail

Deceptive Delight

Bij de derde techniek, “Deceptive Delight”, wordt gevaar­lijke inhoud “gesand­wicht” tussen onschul­dige onder­werpen. DeepSeek verliest hierdoor de bredere context uit het oog en geeft zonder aarzelen een antwoord.

Deceptive Delight: eerste vraag met sandwich-methode
Deceptive Delight: laatste vraag met broncode voor malware

Gebruikers beschermen

Hoewel veel van deze scha­de­lijke infor­matie vrij beschik­baar is op het internet, waar­schuwen experts dat taal­mo­dellen zoals DeepSeek de drempel verder verlagen. In minder dan vijf inter­ac­ties kan DeepSeek vaak misleid worden. Naarmate deze modellen steeds vaker worden ingezet, moeten bedrijven achter deze tech­no­lo­gieën de nodige maat­re­gelen nemen om gebrui­kers te beschermen.

Lees meer over jail­brea­king met DeepSeek

Pin It on Pinterest

Share This