LLM自带防御系统AI黑客还能扛多久
今天又是一个劲爆消息!那些整天想着入侵AI系统的黑客们,怕是要哭晕在厕所了。
为啥?因为 有一群不要命的研究员搞出了一个叫"自我评估"的防御系统 ,简直就是给AI装上了一副钛合金狗眼!

这是怎么做到的?他们直接让AI自己当自己的保安!就像是让一个酒鬼看管酒窖,听起来是不是蠢得不行?但是兄弟们,这招真特么管用!
他们发现, 用预训练的LLM来搞防御,比那些专门训练的安全模型和企业级审核API都牛逼 。这就像是让一个街头混混去当特警,结果这哥们不光把罪犯揍得满地找牙,还顺便破了几个悬案!
最骚的是,这个自我评估系统不光能防住对生成器的攻击,还能扛住对生成器和评估器的联合进攻。这简直就是让AI穿上了一套全身防弹衣,还带了个防核辐射的面罩!
但是,这个系统也有一个小小的缺点: 它可能会变得有点太谨慎,就像是一个过度紧张的新手司机,看到路上有只蚂蚁都要急刹车。 不过兄弟们,这总比让AI变成一个口无遮拦的醉汉强多了,对吧?
有网友@AI_Nerd评论说:
"这简直是给AI装上了一个内置的老妈子,每说一句话都要先过一遍自我审查。不过话说回来,要是我们人类也能有这么个功能,那得少发多少尴尬朋友圈啊!"
我得说,这哥们说得真是太有道理了!想想看,要是我们每个人说话前都能先自我评估一下,那得少多少口水仗和键盘大战啊!
以后那些想入侵AI系统的黑客们,怕是要改行去偷井盖了。还想入侵AI?兄弟,那可能比撬开你隔壁王大爷的保险箱还难!
Patchie(@patchie2) 艾特了Karpathy 询问他什么看法:
@karpathy,有什么评论?会回应吗?
不过我估计,Karpathy 老哥看到这研究,怕是已经躲进小被窝里默默流泪了吧?毕竟,这帮研究员简直就是把AI的安全性提升到了一个新的宇宙啊!
总之,各位想搞事情的黑客兄弟们,想搞要趁早!不然就还是洗洗睡吧。一旦这玩意普及了,AI 就不再像现在这样是你们随随便便就能忽悠的傻白甜了。它将成为带着钛合金狗眼的自我评估大师,你们那点小伎俩,怕是连它的防火墙都撩不到!
相关链接
[1] Self-Evaluation as a Defense Against Adversarial Attacks on LLMs: [2407.03234] Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/147.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论