关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2855人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

董璇女儿和佟丽娅儿子同登湾区晚会

妙知 浏览 3161

复古拉力风 firefly萤火虫project glow改装车亮相

网易汽车 浏览 2133

卡其裤+蓝衬衫,简单高级

Yuki女人故事 浏览 3342

女子被逼嫁给大15岁男子喝农药轻生 钱被母亲拿走买房

大风新闻 浏览 12740

这家中国民企,破解了“迪拜之眼”难题,还拿下30多项“世界第一”!

国是直通车 浏览 2522

国家级射击教练因走私武器罪获刑10年:多省射击队购买

中国新闻周刊 浏览 12160

A股董事被拘!涉嫌违法放贷,早年工行履历被关注

财通社 浏览 2841

何超莲再破天花板 让窦骁和豪门圈“沉默”了?

东方不败然多多 浏览 2139

一年一度的秋装趋势,来了!

黎贝卡的异想世界 浏览 4386

媒体:韩国发生大规模作弊丑闻 争强好胜之心往邪处用

新民周刊 浏览 30051

都体:国米想租佛罗伦萨翼卫多多,愿意送出德弗赖或阿斯拉尼

懂球帝 浏览 1597

“胡润富豪”扎堆的“家族办公室”是啥?

野马财经 浏览 799

唐嫣客串新剧遭群嘲!戴假发被吐槽像女装大佬,疑和马思纯抢番位

萌神木木 浏览 1796

农妇遭错判寻衅滋事罪被羁押507天 获30万元国家赔偿

扬子晚报 浏览 3941

苏州大学突破:8B模型实现长文理解媲美GPT-4o

科技行者 浏览 2428

终于在广州最舒服的季节和你们见面啦

黎贝卡的异想世界 浏览 1931

宗馥莉将独立经营“娃小宗” 名下仍关联超200家企业

21世纪经济报道 浏览 2711

独行侠内线再多也不够?浓眉小腿拉伤至少缺阵两场

体坛周报 浏览 2524

中国留学生潜水后失踪妻子4天后报警 仅找到一根胫骨

新民晚报 浏览 21463

不再单押汉堡 塔斯汀重卖比萨的背后

北京商报 浏览 2093

以数字化锻造发展引擎!财信证券书写“五篇大文章”

券商中国 浏览 2779
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1