首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GPT-4细节泄露了-GPT-4's details are leaked

今天,Twitter上一位名为Yam Peleg的用户发布了一篇文章,详细介绍了GPT4的细节,但是不久后他就删除了这条帖子:

在他未删除的帖子中,他介绍到:???????

GPT-4 的参数数量非常庞大,大约有 1.8 万亿个参数,分布在 120 个层中。这使得 GPT-4 的规模是 GPT-3 的十倍以上。这一信息使我们对 GPT-4 的能力有了新的认识,它可能具有更强大的学习和理解能力。

在模型的设计中,OpenAI 使用了一种名为 Mixture of Experts (MoE) 的模型来控制成本。这种模型使用了 16 个专家,在模型中每个专家有大约 1110 亿个参数。在每次前向传递中,这些专家中的两个被路由到模型中。

GPT-4 在训练时使用的数据集约为 13 万亿个令牌。这些令牌并非都是唯一的,它们还计算了作为更多令牌的时代。根据数据类型,文本数据的时代数为 2,代码数据的时代数为 4。

关于 GPT-4 的训练成本,据估计,在大约 25,000 个 A100s 上,GPT-4 的训练 FLOPS 为大约 215e25,训练时间为 90 到 100 天,利用率为 32% 到 36%。如果他们在云中的成本约为每小时 1 美元/A100,那么这次运行的训练成本将约为 6300 万美元。

关于 GPT-4 的推理成本,GPT-4 的成本是 175B 参数 Davinchi 的三倍。这主要是由于 GPT-4 需要更大的集群和更低的利用率。对于 128 个 A100s 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0049 美分,对于 128 个 H100 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0021 美分。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OkNsn4haFOURbLA0YJLT4UXA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com