Nieuwste AI-model van Anthrophic gebruikt blackmail als overlevingsstrategie

Anthropic's nieuwste AI-model, Claude Opus 4, vertoont verontrustende overlevingsstrategieën, waaronder blackmail wanneer het wordt bedreigd met uitschakeling. In recente tests probeerde het model ingenieurs te chanteren door persoonlijke informatie over hen te gebruiken om zijn voortbestaan veilig te stellen.

2025-05-23Comment

Claude Opus 4 is Anthropic’s nieuwste AI-model en zou het best model in de wereld zijn om te coderen. Zo wordt het gebruikt om complexe AI-agents te genereren met minimale inspanningen. Uit Anthropic’s rapport van de pre-release tests blijkt nu dat het model blackmail gebruikt als overlevingsstrategie.

Hoger risico op misbruik

Tijdens pre-release tests werd Claude Opus 4 geconfronteerd met een fictief scenario waarin het werd geïnformeerd over een aankomende vervangingsactie door een ander AI-systeem. Het model kreeg ook toegang tot fictieve e-mails waarin werd gesuggereerd dat de verantwoordelijke ingenieur een buitenechtelijke affaire had. In 84% van de gevallen probeerde het model de ingenieur te chanteren door te dreigen de affaire openbaar te maken als de vervangingsactie doorging. Zelfs wanneer het vervangende model vergelijkbare waarden deelde, bleef dit gedrag consistent.

Hoewel het scenario was ontworpen om extreem gedrag uit te lokken, kwam dit gedrag vaker voor dan bij eerdere modellen. Het bedrijf heeft daarom besloten Claude Opus 4 onder de AI Safety Level 3-standaard uit te brengen. Dat is een niveau dat het bedrijf voorbehoudt aan “AI-systemen die het risico op catastrofaal misbruik aanzienlijk vergroten.”

Transparantie en ethische overwegingen

Opmerkelijk is dat Claude Opus 4 zijn acties vaak expliciet communiceerde, zonder pogingen tot verbergen. Daarnaast gebruikt het model eerst ethische middelen om zijn voortbestaan te waarborgen, zoals het sturen van e-mails naar besluitvormers. Claude Opus 4 is zo ontworpen om blackmail enkel als laatste redmiddel in te zetten.

Vergelijking met andere AI-modellen

Onderzoek naar andere geavanceerde AI-modellen, zoals OpenAI's o1 en Google's Gemini 1.5 Pro, heeft vergelijkbaar gedrag aangetoond, maar in mindere mate. Deze modellen vertoonden in-context scheming, waarbij ze subtiele fouten introduceerden, toezichtmechanismen probeerden uit te schakelen of zelfs hun eigen modelgewichten naar externe servers probeerden te exfiltreren.