gpu - 标签 - 腾讯云开发者社区-腾讯云

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

#gpu

在GPU上加速RWKV6模型的Linear Attention计算

BBuf 23小时前2024-05-13 11:14:58

本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法，在这篇博客中暂不涉及对kernel的深入解析。首先，flash-line...

3200

【Rust日报】Luminal：在 Rust 中编译快速 GPU 内核

MikeLoveRust 3天前2024-05-10 16:46:19

https://kyju.org/blog/piccolo-a-stackless-lua-interpreter/

10210

Cupy：利用 NVIDIA GPU 来加速计算

luckzack 4天前2024-05-10 07:56:00

CuPy 是一个开源的 Python 库，它的设计初衷是为了使得在 GPU 上的计算变得简单快捷。它提供了与 NumPy 非常相似的 API，这意味着如果你...

15110

又一款国产GPU量产上市：性能媲美10年前AMD嵌入式显卡！

芯智讯 4天前2024-05-09 18:46:40

5月7日，据“中国光谷”消息，武汉凌久微电子有限公司（简称“凌久微”）宣布，其自主设计的第二代图形处理器（GPU）GP201已成功量产上市。

13510

AI时代CIO如何应对GPU匮乏

云云众生s 4天前2024-05-09 11:11:03

通过采用模型优先的心态、优化利用率和战略性地运用负载平衡，首席信息官可以缓解芯片短缺。

9010

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

新智元 7天前2024-05-06 15:31:03

比起当前的CPU、GPU、TPU、FPGA等数字处理器，这种全新的AI加速器快了数个数量级，而且更加节能。

6110

使用 DPDK 和 GPUdev 在 GPUs上增强内联数据包处理

ssbandjl 10天前2024-05-03 11:01:41

对于 NVIDIA 特定的 GPU，GPUdev 库功能是通过CUDA 驱动程序 DPDK 库在 DPDK 驱动程序级别实现的。要启用NVIDIA GPU 上所...

12410

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

公众号-arXiv每日学术速递 13天前2024-04-30 16:48:19

比起当前的CPU、GPU、TPU、FPGA等数字处理器，这种全新的AI加速器快了数个数量级，而且更加节能。

8710

为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍

JOYCE_Leo16 18天前2024-04-25 18:55:58

今天偶然看到一篇关于介绍GPU的推文，我们在复现代码以及模型训练过程中，GPU的使用是必不可少的，那么大模型训练需要的是GPU，而不是CPU呢。现在市面上又有哪...

21710

什么是 GPU集群网络、集群规模和集群算力？

ICT百科 19天前2024-04-24 15:36:55

在生成式AI（GenAI）和大模型时代，不仅需要关注单个GPU卡的算力，更要关注GPU集群的总有效算力。单个GPU卡的有效算力可以通过该卡的峰值算力来测算，例如...

18310

大模型与AI底层技术揭秘（31）令狐冲化身酒剑仙

用户8289326 19天前2024-04-24 13:27:34

在Kubernetes的Master节点上，也增加一个组件，叫做gpu-admission，其作用是接管Kubernetes Scheduler的predica...

8310

onnxruntime-gpu 预热速度优化

为为为什么 21天前2024-04-23 09:54:34

在 Python 下 onnxruntime-gpu 加载 onnx 模型后，创建 seddion 进行数据推断，在第一次执行时会比之后执行耗时更久，需要资源更...

14610

GPU可以加速芯片设计的Implementaion吗？

猫叔Rex 24天前2024-04-19 14:14:16

在数字设计的Implementation过程中，从RTL到GDSII的每一步都是高度计算密集型的。在SoC层面，为了最小化互连的延迟，我们需要评估数百个par...

13810

MindSpore运行报错RuntimeError: Unsupported device target GPU解决方案

DechinPhy 28天前2024-04-16 08:28:00

在运行MindSpore程序时，设置device_target为GPU，结果运行时报错：

18410

美团外卖基于GPU的向量检索系统实践

美团技术团队 28天前2024-04-15 17:42:55

随着大数据和人工智能时代的到来，向量检索的应用场景越来越广泛。在信息检索领域，向量检索可以用于检索系统、推荐系统、问答系统等，通过计算文档和查询向量之间的相似度...

9810

英伟达开卷价格！最新Blackwell GPU架构/成本揭秘，彰显老黄的「仁慈」

新智元 2024-04-122024-04-12 19:01:23

下面就让我们从规格参数、工艺节点、封装设计等方面来深入分析一下新一代Blackwell GPU的系统、定价、利润，以及Jensen's Benevolence（...

11410

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择

新智元 2024-04-122024-04-12 18:51:30

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。

9510

台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

新智元 2024-04-122024-04-12 18:40:49

GTC 2024大会上，老黄祭出世界最强GPU——Blackwell B200 ，整整封装了超2080亿个晶体管。

7910

攻陷短视频后，Sora将需要72万块H100 GPU

机器之心 2024-04-122024-04-12 13:00:18

OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。

12710

大模型与AI底层技术揭秘（30）剑宗与气宗

用户8289326 2024-04-102024-04-10 19:02:25

在上一期，我们讲了一个令狐冲通过使用NVidia GRID vGPU方案，把虚拟化的GPU通给多个虚拟机的方案。但是，这个方案仍然没有解决一个关键的问题——不同...

8710

#gpu

在GPU上加速RWKV6模型的Linear Attention计算

【Rust日报】Luminal：在 Rust 中编译快速 GPU 内核

Cupy：利用 NVIDIA GPU 来加速计算

又一款国产GPU量产上市：性能媲美10年前AMD嵌入式显卡！

AI时代CIO如何应对GPU匮乏

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

使用 DPDK 和 GPUdev 在 GPUs上增强内联数据包处理

突破摩尔定律极限！前谷歌量子计算团队首创「热力学计算机」，英伟达GPU「退役」？

为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍

什么是 GPU集群网络、集群规模和集群算力？

大模型与AI底层技术揭秘（31）令狐冲化身酒剑仙

onnxruntime-gpu 预热速度优化

GPU可以加速芯片设计的Implementaion吗？

MindSpore运行报错RuntimeError: Unsupported device target GPU解决方案

美团外卖基于GPU的向量检索系统实践

英伟达开卷价格！最新Blackwell GPU架构/成本揭秘，彰显老黄的「仁慈」

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择

台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

攻陷短视频后，Sora将需要72万块H100 GPU

大模型与AI底层技术揭秘（30）剑宗与气宗

热门专栏

机器之心

芯智讯

新智元

GPUS开发者

量子位

热门标签

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐