关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2856人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外交部:奉劝包括巴拉圭在内的极个别国家政府认清形势

环球网资讯 浏览 7376

Space X的护城河

华尔街见闻官方 浏览 1970

全国第一,太空光伏寡头,野心勃勃!

飞鲸投研 浏览 1333

朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧

林雁飞 浏览 1658

“双11”本地之战|淘宝便利店剑指美团腹地 电商巨头激战线下“最后一公里”

北京商报 浏览 2522

美再次在委内瑞拉海域扣押油轮 现场画面公布

新华社 浏览 1911

特朗普亚洲行美方称中美领导人将会面 中方尚未官宣

上观新闻 浏览 7981

个体户雇人偷排工业废液致4死 2名主犯死刑复核未通过

封面新闻 浏览 31324

委内瑞拉空军基地遭美袭击后 导弹碎片四散

极目新闻 浏览 1655

斯基拉:法比安即将与巴黎续约至2029年,交易已敲定并确认

懂球帝 浏览 1536

ByteDance最新发布:一个能从任意数量图像重建3D世界的神奇模型

科技行者 浏览 1535

“富贵闲人”许绍雄的快乐哲学

仙女事件簿 浏览 2542

印媒:印度将在印巴边境地区启动大规模三军联合演习

环球网资讯 浏览 2504

美联储降息25基点 仍预计明年降息一次

华尔街见闻官方 浏览 2033

抗衰赛道持续扩容,Swisse PLUS能否成为健合集团(01112)的增长引擎?

猛犸资本局 浏览 2430

半年亏损 5800 万仍闯港交所!复星医药分拆安特金图啥?

野马财经 浏览 2469

梅德维德夫晋级中网男单八强

体坛周报 浏览 3251

"吉林一号"发布多张台湾岛高清卫星影像 屋顶细节可见

北京日报客户端 浏览 7216

阿尔伯塔大学新突破:让AI学会自我检查错误,准确率远超人工审核

科技行者 浏览 1682

喜报!识局助力一家机器人企业落户西南某地!

识局 浏览 2564

从穿搭到生活,秋天适合“慢”下来

LinkFashion 浏览 2313
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1