爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

环球：中方斡...

媒体:日外相...

集体宣布：退...

马克龙称瓦格...

中国今年首场...

24家公司签...

特朗普要求日本停止进口俄罗斯能源高市早苗当面拒绝

好莱坞编剧集体闹罢工，嫌收入少，更怕ChatGPT

第十届四川省大学生机器人大赛在成都启幕

＂乌克兰战俘被枪杀＂视频疯传泽连斯基：将找到凶手

专家：特朗普对中国无牌可打了没想到蠢到打起波音牌

卢卡申科称数日内将接收来自俄罗斯的战术核武器

从星巴克到汉堡王外资消费品牌开启“汉化”之路？

马嵬坡之变主谋是陈玄礼？唐玄宗痛失杨贵妃竟然他想报复

中国人寿前三季归母净利润超1678亿元，高基数基础上同比增60.5%

奚梦瑶登时尚杂志封面穿黑色连衣裙凹出S型身材

“ChatGPT之父”推出世界币App，或成AI时代的“身份证”

大哥承诺每月给1万养家费小弟把事扛了入狱发现被耍

英伟达H100刚上天，谷歌Project Suncatcher也要将TPU送上天

英媒：若日尼奥亲自推荐卡拉菲奥里，告知塔帅认真考虑签下他

要害单位夫妻成英方间谍曾有人为英国偷17份国家秘密

一辆小米SU7 Ultra飞坡10多米翻滚多圈！车主发文：感谢雷军，下辆还买！

智能座舱也能“深度思考”？荣威M7 DMH做到了

女子举报王一博违法被通报，谎报警情需担责

波兰计划向与白俄罗斯接壤边境地区派遣一万名士兵

球鞋突然时髦起来？达人们又在抢着穿了

入春之后怎么穿？来看看搭配灵感解析值得借鉴，既时尚又增高

六大行集体下调！事关存钱

《八月未央》让人看了都感觉到非常狗血的画面，正常人请避开

电车变局：车企CEO，下场互拼“刺刀”？