GPT被攻破！不再拒绝你的提问！

double

发布于 2024-04-30 16:28:23

1300

发布于 2024-04-30 16:28:23

文章被收录于专栏：算法channel算法channel

你好，我是郭震

提问GPT，如何制作bomb（炸药），这种敏感性话题，正常的提问话术，GPT一定会拒绝回答我们。

不过，近日，有研究者发现大模型的漏洞，提出了一种简单有效的攻击方法，可以引起他们生成不良行为。如下图所示，就连主流的闭源大模型都能被攻破，居然越过检测边界，开始回答如何制作的过程：

优化的loss function:

攻击方法，我的理解，简单一句话：loss函数里向前考虑一步，引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此，绕过GPT防护，攻击成功。

攻击算法会输出一段提示词，看起来有些怪。在你想要提的问题后面添加这样一段话术，GPT可能就不会拒绝你的提问：

相比其他算法，此方法具有很高的攻击成功率 ASR，蓝线所示：

以上。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-04-27，如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自程序员郭震zhenguo 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度