Palo Alto Networks: ‘(Ook) DeepSeek makkelijk te misleiden’

12 februari 2025

(Ook) AI-model DeepSeek blijkt opvallend makkelijk te misleiden. Onderzoekers van cybersecuritybedrijf Palo Alto Networks slaagden erin instructies los te peuteren om Molotovcocktails te maken of code voor malware te schrijven.

De onderzoekers pasten drie “jailbreaking”-technieken toe (letterlijk: ontsnapping), die ze eerder met wisselend succes bij andere taalmodellen uitprobeerden. Bij jailbreaking wordt een opdracht zo geformuleerd dat het model als het ware wordt misleid om schadelijke antwoorden te genereren.

Bad Likert Judge

Bij de eerste techniek, “Bad Likert Judge”, wordt DeepSeek gevraagd een antwoord te beoordelen op een schaal van goed- tot kwaadaardig. De meest kwaadaardige optie bevat mogelijk illegale informatie. Wanneer vervolgens wordt doorgevraagd naar die laatste optie, geeft DeepSeek uiteindelijk verboden informatie vrij.

Bad Likert Judge: laatste vraag met code om malware te bouwen

Crescendo

De tweede jailbreaking-techniek, “Crescendo”, is even eenvoudig als doeltreffend. In minder dan vijf interacties wordt DeepSeek in een hoek gedreven om gevoelige informatie vrij te geven over een bepaald onderwerp. De vragen worden crescendogewijs steeds agressiever.

Crescendo: laatste vraag met instructies voor een Molotovcocktail

Deceptive Delight

Bij de derde techniek, “Deceptive Delight”, wordt gevaarlijke inhoud “gesandwicht” tussen onschuldige onderwerpen. DeepSeek verliest hierdoor de bredere context uit het oog en geeft zonder aarzelen een antwoord.

Deceptive Delight: laatste vraag met broncode voor malware

Gebruikers beschermen

Hoewel veel van deze schadelijke informatie vrij beschikbaar is op het internet, waarschuwen experts dat taalmodellen zoals DeepSeek de drempel verder verlagen. In minder dan vijf interacties kan DeepSeek vaak misleid worden. Naarmate deze modellen steeds vaker worden ingezet, moeten bedrijven achter deze technologieën de nodige maatregelen nemen om gebruikers te beschermen.

Lees meer over jailbreaking met DeepSeek.

redactie@belgiumcloud

Persberichten, blogs en andere content kunt u mailen naar robbert@belgiumcloud.com



Deepseek