关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1025人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"乌克兰战俘被枪杀"视频疯传 泽连斯基:将找到凶手

环球网资讯 浏览 103506

专家:特朗普对中国无牌可打了 没想到蠢到打起波音牌

澎湃新闻 浏览 969

卢卡申科称数日内将接收来自俄罗斯的战术核武器

环球网资讯 浏览 16216

从星巴克到汉堡王 外资消费品牌开启“汉化”之路?

观点机构 浏览 544

马嵬坡之变主谋是陈玄礼?唐玄宗痛失杨贵妃竟然他想报复

趣看热点 浏览 26353

中国人寿前三季归母净利润超1678亿元,高基数基础上同比增60.5%

证券市场周刊 浏览 714

奚梦瑶登时尚杂志封面 穿黑色连衣裙凹出S型身材

闲聊小神龙 浏览 13074

“ChatGPT之父”推出世界币App,或成AI时代的“身份证”

澎湃新闻 浏览 18157

大哥承诺每月给1万养家费 小弟把事扛了入狱发现被耍

方圆 浏览 6051

英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天

机器之心Pro 浏览 684

英媒:若日尼奥亲自推荐卡拉菲奥里,告知塔帅认真考虑签下他

懂球帝 浏览 10703

要害单位夫妻成英方间谍 曾有人为英国偷17份国家秘密

极目新闻 浏览 67742

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 943

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 573

女子举报王一博违法被通报,谎报警情需担责

趣看热点 浏览 25582

波兰计划向与白俄罗斯接壤边境地区派遣一万名士兵

海外网 浏览 14633

球鞋突然时髦起来?达人们又在抢着穿了

虎哥说衣不二 浏览 19424

入春之后怎么穿?来看看搭配灵感解析值得借鉴,既时尚又增高

静儿时尚达人 浏览 12643

六大行集体下调!事关存钱

环球网资讯 浏览 16037

《八月未央》让人看了都感觉到非常狗血的画面,正常人请避开

趣看热点 浏览 27412

电车变局:车企CEO,下场互拼“刺刀”?

钛媒体APP 浏览 12891
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1