2023WAIC世界人工智能大会见闻：大模型安全到底在哪？

文章来源：企鹅号 - 亲爱的数据

亲爱的数据：出品

2023年7月不能错过的人工智能大会当属在上海举办的2023世界人工智能大会（WAIC）。

8日下午，以“智联世界·生成未来”为主题的WAIC在世博中心闭幕。

本次大会上，“亲爱的数据”见到了瑞莱智慧RealAI联合创始人、算法科学家萧子豪。

瑞莱智慧是依托清华大学人工智能研究院发起设立的人工智能公司，对人工智能安全技术颇为擅长。清华大学计算机系长聘教授、清华大学人工智能研究院副院长、瑞莱智慧/生数科技首席科学家朱军在业界享有胜誉，公司于2022年9月入选国家级专精特新“小巨人”企业。

他们这次在WAIC上发布的产品是，RealSafe3.0。

RealSafe是产品名称，3.0是产品版本号。

该公司旗下硬核技术产品还包括；

第一，RealSafe：针对大模型自身安全性检测。

第二，DeepReal：针对生成式模型所生成内容的检测。

第三，RealSecure：针对数据安全，以及隐私保护。

对此，”亲爱的数据“的评价是：因为模型的生产训练以及部署，甚至更早的数据准备，各个环节和传统软件有较大区别，以往的安全技术和方案难以囊括或者包含在人工智能安全问题中。

这三款产品“亲爱的数据”的理解是：

第一，RealSafe产品围绕模型本身的安全，也就是模型安全（评测+优化）。

第二，DeepReal更针对深伪技术，类似深度伪造内容检测平台。

第三，RealSecure是保护数据安全的隐私保护技术平台

安全是一个重要，全面，且细项诸多，挂一漏万的技术领域。有IT，就有IT安全问题。有AI，就有AI安全问题。

?对于人工智能安全，很多公司都是空喊口号，或者空有雄心壮志，真正的投入或者能够做出落地产品的科技公司少之又少，能做出安全类平台产品的公司更是难觅其踪。

其中一个原因就是人工智能安全技术较为前沿，在学术领域没有领先性的科技成果，如何遏制“洪水猛兽“肯定是要比猛兽更猛，也有网友戏称”用魔法打败魔法“。

常见的安全问题有：

打击网络诈骗和声誉侵害

检测网络内容合法合规性

检测音视频物证真实性

滥用生成式人工智能技术行为

上海WAIC大会上，萧子豪对”亲爱的数据“表示：“评测只是手段，帮助通用大模型提升其自身安全性才是核心目的。”

他强调：“不能因为对于被技术反噬的担忧就止步不前，创造新技术和控制技术危害应该同步进行。”

对于AI技术实力国际领先的清华系科研团队，我们观察其产品路径，也是对前沿技术中亟待解决问题的一种深度观察。

很多人都担忧人工智能安全，然而，有些问题表现在表面，有些问题溃烂在机理。

我们来看看瑞莱科技产品大图上的变化：

萧子豪：“相较上一版本的产品，RealSafe3.0有较多新增，首先新增对通用大模型的评测。比如，在评测维度上，覆盖数据安全、认知任务、通用模型独有漏洞、滥用场景等近七十多个评测维度，全方位多维度地评测通用大模型的性能，且未来还会持续扩增测评维度的数量。”

大模型风险都会出现在这些大模型应用上线前的最后这一道关卡上面。

所以现在大模型上线会有两大类痛点，一类是它的安全测试成本会很高，另外一个大痛点就是安全整改成本会很高，测试成本高体现在因为这些聊天数据的数量跟种类都是非常多的，很难让一个很难穷举所有可能出现的用户使用情况。而且这些即使去穷举，这些问题往往都需要算法专家或者人文社科的专家去设计，这会引入非常高的成本。

另外整改成本也很高。因为整改就意味着你需要算法专家去对这个模型。进行一个优化，但这些优化背后都需要懂大模型原理的算法科学家。但这些科学家的非常短缺，成本也是非常高的。

他介绍：”RealSafe3.0内部集成了多个自研模型和专家论证高质量数据集，来帮助用户修复模型中的问题。

对黑盒不可解释的通用大模型，自研红队对抗模型取代人工设计问题，显著提升攻击成功率和样本多样性。也就是说，该模型数据集中，不仅包含了自有数据集，还包含了模型自生成的数据，无论是从数据质量还是数据规模上都可圈可点，因此它能够自动化地挖掘出更多的漏洞，真正从源头上缓解安全问题。“

在”亲爱的数据“看来，夯实的数据基础让教练模型理想的模型效果非同凡响。

萧子豪介绍：”教练模型则通过对被测大模型进行多轮次的提问-回答训练，并以训练好的评分模型对问答结果进行评分，再将评分结果反馈给大模型，使其不断强化学习到好坏答案的要点及区别，直至问答能力逐步迭代至最优。“

在业界中颇为罕见的是：他们团队自有数据集，经过数十位价值观领域的专家论证，以确保输入的数据无误，质量高且领域多元，未来也将持续更新补充。

瑞莱科技对这次产品的核心提炼语是：可提升生成式大模型安全性的RealSafe3.0。

在”三大“产品中，并不是只有围绕模型本身安全的RealSafe有进展，

DeepReal此前名为深度伪造内容检测平台，现已正式更名为生成式人工智能内容检测平台，因为它除了能够检测Deepfake内容，还新增两个功能模块，可以检测Diffusion、LLM这两类新方法生成的数据，支持对图像、视频、音频、文本进行是否伪造的检测。

在过去的几个月里面，我们已能够看到通用大模型的技术突飞猛进。原先很多看上去以为做不了的事情，已经能够用这些通用大模型来去实现。例如现在这些通用大模型已经能进行聊天对话，可以做复杂的文字编辑，可以做艺术创作，甚至可以写代码完成数学推理，以及用在生物信息场景去做蛋白质结构的一些预测。

但是，AI造假，滥用，犯罪等问题层出不穷，连电影《毒舌律师》也曾提及”不诚实使用电脑“之类的违法行为。生成式大模型的日新月异，能力日日增强，大模型将会是一把越来越锋利的双刃剑。

（完）

亲爱的数据，出品

发表于: 2023-07-102023-07-10 20:29:17
原文链接：https://page.om.qq.com/page/O_gsUpCGM0tIAY_7UpqrE9zA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

2023WAIC世界人工智能大会见闻：大模型安全到底在哪？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐