关闭广告

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者1614人阅读


这项由台湾大学和中研院信息技术创新研究中心联合开展的突破性研究发表于2025年12月,研究团队针对当前AI画图模型的安全漏洞提出了创新解决方案。感兴趣的读者可以通过论文编号arXiv:2512.22877v1查询完整研究内容。

现在的AI画图工具就像一位技艺精湛但记忆混乱的画家。你可以通过特殊训练让它"忘记"如何画某些敏感内容,比如武器或版权角色。然而,这种"失忆"其实很脆弱。当有人换个方式提要求时,这位AI画家往往会突然"想起来",重新画出那些本该被禁止的内容。

研究团队发现了一个惊人的现象:虽然现有的"概念擦除"技术在面对直接文字指令时表现良好,但当用户使用更巧妙的方法时,这些防护就形同虚设。具体来说,用户可以通过两种方式绕过防护:一是使用从图片中学习得到的特殊"密码",二是直接把想要复制的图片转换成AI能理解的"草图",然后让AI重新画一遍。

为了彻底解决这个问题,研究团队开发了一套全新的评估体系,叫做M-ErasureBench,同时还推出了一个叫做IRECE的防御插件。这个插件的工作原理就像一个精明的审查员,能在AI作画过程中实时监控,一旦发现画面中出现违禁

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 1945

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 2335

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

澎湃新闻 浏览 5881

琼瑶女神摘下假牙,撕碎的是流量滤镜

大龄女一晓彤 浏览 2788

3件开心小事|| 这条视频竟然有一千万人看了

黎贝卡的异想世界 浏览 1857

京东造车!刘强东有新玩法?

百姓评车 浏览 2683

大迫敬介:巴西的球员个人能力出色,高位逼抢可能会效果不佳

懂球帝 浏览 2731

从万人偶像到幕后导演:赖冠霖的叛逆转身,撕开了内娱多少虚假?

黄色的泥土 浏览 1573

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 18609

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 2647

今晚空降!傅东育又一力作来袭

娱乐圈笔娱君 浏览 1393

推3款车型 吉利银河V900将于1月20日上市

车质网 浏览 1542

"震荡"之后中美传来好消息 李成钢的表态意味深长

中国新闻周刊 浏览 7941

外媒:中法元首会谈议题十分广泛 似乎找到更多共识

环球网资讯 浏览 35213

女子患小脑萎缩症加重 前男友复合帮她完成100个心愿

极目新闻 浏览 14427

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端 浏览 14718

安踏投资加速,主品牌却有些掉队了

36氪财经 浏览 1517

一家三口被撞身亡案将宣判 家属悔恨当天喊他们来吃饭

极目新闻 浏览 12246

"四大天王"被网友笑称"四大岳父" 最年轻的黎明已59岁

极目新闻 浏览 6852

尹同跃宣告奇瑞AI进入2.0时代,要快速追赶特斯拉FSD

贝壳财经 浏览 1515

跨时代的武侠视觉巨制,今晚迎来告别放映!

幕味儿 浏览 1961
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1