Skip to main content

全自动攻击越狱Agent|项目主页来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,通过把有害提问分解成下级的,看似无害的提问,来绕过最强的现代商业大模型中防御机制,实现了近乎完美的攻击成功率(96%-98%)

  1. 全自动攻击越狱Agent|项目主页

    来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,通过把有害提问分解成下级的,看似无害的提问,来绕过最强的现代商业大模型中防御机制,实现了近乎完美的攻击成功率(96%-98%)。

    根据开源的代码,理论上只要配置各种key,就可以在家攻击越狱各种商业大模型。在论文中,已经被验证可以攻克Gemini系列,GPT-OSS, Claude Haiku 4.5.

    via 匿名

    🗒 标签: #AI
    📢 频道: @GodlyNews1
    🤖 投稿: @GodlyNewsBot

    via Yummy 😋 - Telegram Channel
👀 open eyes to see the world. 丨 site views: -