GiantPandaCV-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

GiantPandaCV

专栏作者

705

文章

877473

阅读量

96

订阅数

AffineQuant: 大语言模型的仿射变换量化

效率性能优化量化模型

本文研究了大型语言模型（LLMs）在移动和边缘设备上的推理加速问题，这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能，它们吸引了越来越多的关注。然而，这些模型通常需要庞大的计算资源，尤其是在训练和推理阶段。特别是在资源受限的移动和边缘设备上，模型的高效推理显得尤为重要。为此，研究者们寻求通过压缩技术，如量化，来减少模型的存储需求和计算负担。量化是一种有效的方法，通过将权重和激活映射到低比特表示来实现。

2024-05-13

1370

单节点8xA800跑起来HuggingFace DeepSeek V2踩坑

开源 max model 模型优化

尝试跑起来HuggingFace上release的DeepSeek V2，踩了几个坑，这里给出解决的方法。HuggingFace提供的开源DeepSeek V2 repo链接为：https://huggingface.co/deepseek-ai/DeepSeek-V2

2024-05-13

740

在GPU上加速RWKV6模型的Linear Attention计算

state 模型线程优化 gpu

本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法，在这篇博客中暂不涉及对kernel的深入解析。首先，flash-linear-attention（https://github.com/sustcsonglin/flash-linear-attention ）这个仓库旨在对各种线性Attention架构进行工程加速，例如RetNet，GLA，Manba，RWKV6（2024年4月引入）。它使用Triton来编写代码，并针对不同的线性Transformer架构使用不同的优化方式。例如对于RWKV 6就采用在时间维度进行kernel fuse的方式来加速。其次，RWKV-CUDA是RWKV系列模型迭代中针对Linear Attention模块的改进开发的自定义高性能cuda kernel（https://github.com/BlinkDL/RWKV-CUDA）。flash-rwkv（https://github.com/BBuf/flash-rwkv）仓库在RWKV-CUDA的最优性能算子的基础上进行了封装，提供了rwkv5_cuda_linear_attention和rwkv6_cuda_linear_attention两个接口方便在HuggingFace模型实现中直接加速推理的prefill阶段速度。

2024-05-13

1220

性能提升，星辰AI大模型TeleChat-12B评测

模型数据性能开源测试

2月份的时候评测过TeleChat-7B大模型，见星辰AI大模型TeleChat-7B评测。最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级，并开源了一个更大的模型TeleChat-12B，受邀对这个大模型进行新的评测。本文主要关注TeleChat-7B在做一些文学创作和代码生成方面相比于TeleChat-7B的提升。TeleChat-7B不仅在模型结构上有所微调，而且相比于TeleChat-7B的1.5T Tokens，TeleChat-12B使用了3T Tokens进行预训练，取得了更好的性能结果。下面红框部分是TeleChat-12B相比于TeleChat-7B在通用能力，推理和代码能力，语言理解能力等维度的数据集上的性能提升：

2024-05-13

1240

梳理RWKV 4，5(Eagle)，6(Finch)架构的区别以及个人理解和建议

state time 架构模型数据

之前我解析过RWKV-4的结构和代码实现（https://zhuanlan.zhihu.com/p/653327189），这里再把它和RWKV5，RWKV6放在一起进行对比解析一下。

2024-04-26

2740

如何用Infini-attention实现超长上下文Transformer

内存效率压缩存储模型

图 1：Infini-attention 添加了一个线性注意力的压缩记忆单元，用于处理无限长的上下文。{KV}s?1 和 {KV}s 分别是当前和之前输入段的注意力键和值，Qs 是注意力查询。PE 表示位置嵌入。

2024-04-26

1990

CVPR2024-扩散模型可解释性新探索，图像生成一致性创新高！AI视频生成新机遇？

视频统计开源量化模型

在本研究中，作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP（对比语言-图像预训练）分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图像生成扩散模型——Stable Diffusion XL（SDXL）和PixArt-α，作者发现它们在语义一致性分数上存在显著的统计差异。所选模型的语义一致性分数与综合人工标注结果的一致性高达94%。此外，本文还研究了SDXL及其经过LoRA（低秩适应）微调的版本之间的一致性，结果显示微调后的模型在语义一致性上有显著提高。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具，这有助于评估特定任务的模型架构，并为选择合适的模型提供了参考依据。

2024-04-26

2360

系统调优助手，PyTorch Profiler TensorBoard 插件教程

pytorch profiler 插件教程系统

使用PyTorch Profiler进行性能分析已经一段时间了，毕竟是PyTorch提供的原生profile工具，个人感觉做系统性能分析时感觉比Nsys更方便一些，并且画的图也比较直观。这里翻译一下PyTorch Profiler TensorBoard Plugin的教程并分享一些使用经验，我使用的时候也是按照这个教程来来的，有一点不一样的是可以在vscode里面直接安装TensorBoard插件，然后Command+Shift+P打开vscode的命令行窗口输入TensorBoard启用TensorBoard插件并把PyTorch Profiler输出的日志文件所在的文件夹路径传给它就可以直接在vscode里面查看可视化Profile结果了。

2024-04-18

1710

nndeploy - 一款开源的模型端到端部署框架

框架模型内存开源部署

项目地址：https://github.com/DeployAI/nndeploy 欢迎star和PR

2024-04-12

1190

ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构

压缩架构论文模型效率

这篇论文探讨了一个当前在图像合成领域中的核心问题：如何在保持生成图像质量的同时，减少计算资源的消耗。目前的先进扩散模型，如Stable Diffusion和DALL·E 2，虽然能够生成接近真实的高质量图像，但它们对计算资源的需求非常高，这在一定程度上限制了它们的应用范围和可达性。例如，Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。

2024-04-12

1470

《PytorchConference2023翻译系列》25 数据加载技术的演进

数据存储系统翻译模型数据

我叫劳伦斯·拉斯内尔，是Meta公司的工程经理，我负责PyTorch团队的一部分。在过去的两年半里，我一直专注于PyTorch库，例如Torch vision,audio,multimodel。我们在生成式人工智能、大规模内容理解模型和大规模推荐系统等方面做了大量的工作。今天我将讲述PyTorch中dataloading的发展现状。

2024-04-12

1140

新进展！Larimar-让大型语言模型像人一样记忆与遗忘

事件数据存储编码模型

更新大型语言模型（LLM）中的知识是当前研究的一个重要挑战。本文介绍了Larimar——一种受大脑启发的新架构，它通过分布式情节记忆来增强LLM。Larimar的记忆系统能够在不需要重新训练或微调的情况下，动态地进行一次性知识更新。在多个事实编辑基准测试中，Larimar展示了与最有竞争力的基线相当的精度，即使在连续编辑的挑战性环境中也是如此。它在速度上也超过了基线，根据不同的LLM，可以实现4到10倍的加速。此外，由于其架构的简单性、LLM不可知论和通用性，Larimar也展示出了灵活性。我们还提供了基于Larimar的一次性记忆更新机制，包括选择性事实遗忘和输入上下文长度的泛化机制，并证明了它们的有效性。

2024-03-27

1540

AI Infra论文阅读之《在LLM训练中减少激活值内存》

论文模型内存 LLM 存储

写了一个Megatron-LM的3D Parallel进程组可视化的Playground，界面长下面这样：

2024-03-26

1710

ICLR2024 oral：小尺度Transformer如何Scale Up

性能优化 scale 论文模型

这篇论文探讨了在放大Transformer模型时遇到的一系列训练不稳定性问题，并提出了研究和预测这些不稳定性的方法。作者指出，尽管将Transformer模型扩展到更大的规模已经在从聊天模型到图像生成等多个领域取得了显著进展，但并非每一次训练尝试都会成功。在训练大型Transformer模型时，研究人员报告了一些不稳定性，这些不稳定性会减缓或破坏学习过程。

2024-03-26

1400

ICLR 2024 最新研究 DYST 技术让视频表征更精准、更智能

变量对象模型视频数据

首先来看引言部分，概述了在视觉表示学习领域的主流研究集中于捕捉个别图像的语义和2D结构的现状，并指出本研究的重点是同时捕捉场景的3D结构和动态，这对于规划、空间和物理推理以及与现实世界的有效互动至关重要。文章强调了最近在3D视觉场景的生成模型方面取得的进展，特别是从使用体素网格、点云或纹理网格等显式表示转向通过直接优化新视图合成（NVS）来学习隐式表示的转变。如神经辐射场（Neural Radiance Fields）虽然最初限于单一场景并需要大量输入图像、控制的照明、精确的相机姿态和长时间的处理，但随后已被扩展以处理照明变化、跨场景泛化、少量图像工作、缺失相机和动态场景。

2024-03-20

3280

3D内容创作新篇章：DREAMGAUSSIAN技术解读，已开源

算法优化渲染开源模型

本文从自动三维数字内容创建的研究背景入手，探讨了这一领域在数字游戏、广告、电影以及元宇宙等多个领域的应用前景。特别强调了图像到3D和文本到3D这两种核心技术如何通过减少专业艺术家的手动劳动需求，以及赋予非专业用户参与3D资产创建的能力，带来显著优势。文章借鉴了2D内容生成领域的最新突破，讨论了3D内容创建领域的快速发展，将现有的研究分为两大类：仅推理的3D原生方法和基于优化的2D提升方法。

2024-03-07

2820

【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记三 FusedAttention

cuda openai 笔记入门性能

继续Triton的学习，这次来到 https://triton-lang.org/main/getting-started/tutorials/06-fused-attention.html 教程。也就是如何使用Triton来实现FlashAttention V2。对于FlashAttention和FlashAttention V2网上已经有非常多的介绍了，大家如果感兴趣的话我推荐FlashAttention V1看《图解大模型计算加速系列：FlashAttention V1，从硬件到计算逻辑》https://zhuanlan.zhihu.com/p/669926191 这篇文章的讲解以及 FlashAttention V2 看《图解大模型计算加速系列：Flash Attention V2，从原理到并行计算》 https://mp.weixin.qq.com/s/5K6yNj23NmNLcAQofHcT4Q ，原理和公式推导都非常清晰，不过想一口气读完还是要花一些精力的。同时你也可以在 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 找到更多相关资料（此外Meagtron-LM，DeepSpeed等训练Infra框架的迅速跟进也说明了FlashAttention这个系列工作影响之大），例如：

2024-02-29

4630

自动驾驶建图--道路边缘生成方案探讨

自动驾驶脚本模型数据优化

对于自动驾驶来说，建图是必不可少的，目前主流厂商技术都在从HD到"无图"进行过渡筹备中，不过想要最终实现真正的"无图"还是有很长的一段路要走。对于建图来说，包含了很多的道路元素，车道线，停止线，斑马线，导流属性，道路边缘以及中心线(包含引导线)等。这里，中心线的预测通常是根据轨迹，通过数学公式进行拟合，目前学术上逐渐采用模型进行预测，但是对于下游(PNC)来说，还是存在不够平滑，曲率不够精准等问题，不过这个不在本次方案讨论范围内，先忽略，以后有空可以写一写。道路边界对于PNC来说也是至关重要，约束车辆行驶范围，避免物理碰撞发生。通常道路边界的生成有几种方法，一种是当做车道线的一部分，跟着模型一起输出，但是没有车道线的特征明显，容易漏检，而且道路边界是异形的，基于分割的方案会比基于Anchor的方案效果稳定一些。另一种是HD的方法，根据处理后的车道线，按照距离和规则等虚拟出道路边界线。本文给出一种新的解决方案，略微繁琐，但是优点是可以延用已有的公开数据集进行处理生成，快速落地验证，缺点是本方案不具备时效性，是离线的方法。

2024-02-29

1780

最新SOTA！利用扩散模型精准识别UDC环境下的面部表情

数据算法网络编码模型

论文标题：LRDif: Diffusion Models for Under-Display Camera Emotion Recognition

2024-02-29

2450

《PytorchConference2023翻译系列》22. PT2 Export - 用于PyTorch的全图捕获机制

pytorch export 编译翻译模型

PT2 Export - A Sound Full Graph Capture Mechanism for PyTorch

2024-02-29

890

点击加载更多

社区活动

RAG七天入门训练营

鹅厂大牛手把手带你上手实战

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态