关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1027人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美军阿利伯克级驱逐舰"霍华德"号日裔舰长被解职

环球时报新闻 浏览 14644

卡内基梅隆大学团队揭秘:AI绘画无需人工标注也能学会"听话"

科技行者 浏览 692

上门女婿强迫睡亲姐妹俩8年 打完姐姐后再拉妹妹泄火

社会奇闻君 浏览 90505

英国当局罚款CGTN,陈卫华:英国是不是很缺钱?

趣看热点 浏览 521431

40岁童瑶与42岁蒋欣:气质对比很明显

大眼妹妹 浏览 694

巴萨官方:佩尼亚续约至2026年,违约金4亿欧

直播吧 浏览 18673

蔡英文是否会登上太平岛 台议论纷纷

环球网资讯 浏览 12793

车企“偷换”电池背后:产能不足还是另有隐情

经观汽车 浏览 829

除了T恤 夏天也很需要这4款衬衫

日系志Yumi 浏览 16713

变异新冠病毒三大特征,正在迅速取代其他新冠病毒版本

趣看热点 浏览 25961

首例AI生成图片侵权案始末:原告胜诉放弃赔偿,有律师质疑判决

澎湃新闻 浏览 12793

比亚迪香港4门店同时遭破坏,代理商:已报案,将配合港警调查

环球网资讯 浏览 16212

SU7失控起火致1死 小米官方和雷军始终未直接回应

第一财经资讯 浏览 5079

特朗普顾问建议他"勿呼吁抗议" 担心"国会山骚乱"重演

环球网资讯 浏览 116236

拍完被雪藏6年,三次撤档,许君聪新片被打懵了

靠谱电影君 浏览 12457

《一路繁花2》出圈理由

娱乐圈笔娱君 浏览 852

不同身材如何挑选无袖衫?

LinkFashion 浏览 15799

去海外淘金,哪些公司赢麻了?

定焦One 浏览 14626

周星驰短剧《金猪玉叶》正式上线:一小时播放量100万,徐志胜成MVP

娱乐白名单 浏览 11009

全运科技盛宴11月7日天河启幕

环球网资讯 浏览 666

国庆"被弃高速"的小狗主人找来了 主人:不是故意丢弃

红星新闻 浏览 15821
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1