关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2853人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

隆基Hi-MO X10“三防”组件荣获权威检测证书

人民网 浏览 3367

【观察】图多尔下课了,但尤文的混乱何时结束?

体坛周报 浏览 2547

爱泼斯坦死亡疑云再添关键爆料人 其身份被证实为狱警

扬子晚报 浏览 3713

特朗普亚洲行美方称中美领导人将会面 中方尚未官宣

上观新闻 浏览 7977

五点围岛 解放军的两面“盾牌”有何玄机?

看看新闻Knews 浏览 1739

陈小春在沈阳开演唱会,被东北观众感动到流泪

小娱乐悠悠 浏览 2210

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 2679

以后请叫甄子丹为超级丹

港剧叔 浏览 2893

投机永不眠!加密货币失宠 币圈玩家转战预测市场

智通财经 浏览 1381

一个手机壳卖200,这家深圳公司靠什么掏空老外钱包?

花朵财经 浏览 1479

黄金越涨越买?这届年轻人心态变得太快了

说财猫 浏览 2673

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 7096

蔚来火速回应指控

华尔街见闻官方 浏览 2788

伊朗高级官员:已做好与美以长期作战的准备

央视新闻客户端 浏览 654

仅需加92号汽油 小鹏X9增程版的谍照曝光

太平洋汽车 浏览 2807

“格子衬衫”浓度降低 7年云栖感知科技的温度丨去现场 做原创

封面新闻 浏览 2452

戚薇李承铉能消停点不?为圈钱上800个综艺,夫妻那点破事看腻了

娱乐圈笔娱君 浏览 2589

FLX1s Linux 手机发布:预装基于 Debian 的 FuriOS,550 美元

IT之家 浏览 3415

可折叠iPhone来了却可能买不到?分析师预警发布初期将严重缺货

环球网资讯 浏览 1920

跨年晚会主持人状态曝光!靳梦佳被质疑整容

萌神木木 浏览 1715

小米汽车超级工厂供应商,斯坦德机器人赴港IPO|港E声

时代周报 浏览 1654
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1