前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPT被攻破!不再拒绝你的提问!

GPT被攻破!不再拒绝你的提问!

作者头像
double
发布2024-04-30 16:28:23
1300
发布2024-04-30 16:28:23
举报
文章被收录于专栏:算法channel算法channel

你好,我是郭震

提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。

不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程

攻击方法

优化的loss function:

攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。

攻击算法输出

攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问

结果评估

相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示

以上。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-27,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 攻击方法
  • 攻击算法输出
  • 结果评估
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com