一文读懂大模型剪枝：轻量级AI如何领跑未来科技

文章来源：企鹅号 - 薪科技评说

大模型剪枝概述

近年来，Transformer和MOE架构的崛起，推动了深度学习模型参数规模的飙升，轻松突破上万亿。面对模型日益庞大的挑战，大模型压缩技术应运而生。该技术旨在降低模型部署成本，提升推理性能。主要压缩方法包括剪枝、量化、知识蒸馏等，为深度学习应用带来更广阔的前景。

模型剪枝（Pruning）

知识蒸馏（Knowledge Distillation）

模型量化（Quantization）

低秩分解（Low-Rank Factorization）

本文将针对当前大模型剪枝相关的一些工作进行讲述。

剪枝简介

模型剪枝是优化神经网络的关键技术，旨在精简模型并提升运算速度。该技术通过精准识别并剔除对性能贡献较小的参数或连接，有效减少模型参数数量和计算量，让神经网络更加高效、轻盈，为深度学习应用注入新活力。

模型剪枝主要涵盖两种类型：结构化剪枝与非结构化剪枝。结构化剪枝更注重整体结构的优化，而非结构化剪枝则关注个体元素的精简。两者相辅相成，共同助力模型的高效压缩与性能提升。

结构化剪枝与非结构化剪枝的核心差异在于剪枝的目标及所得网络结构。结构化剪枝遵循特定规则，删除连接或层结构，保持网络整体架构；而非结构化剪枝则针对各个参数进行剪枝，形成不规则的稀疏结构。两者各有特点，适用于不同场景。

模型剪枝的一般步骤包括：

训练初始模型：首先，需要训练一个初始的大模型，通常是为了达到足够的性能水平。

精准评估参数重要性，利用权重的绝对值、梯度信息等先进方法，深入剖析模型各参数作用，为优化决策提供有力支撑。

剪枝：根据评估结果，剪枝掉不重要的参数或连接，可以是结构化的或非结构化的。

修正和微调：进行剪枝后，需要进行一定的修正和微调，以确保模型的性能不会显著下降。

模型剪枝益处颇丰，能显著降低存储需求，提升推理速度，减少边缘设备资源消耗。然而，剪枝过程可能引发性能微损，故需在剪枝前后精准评估、精细调整，确保性能与效率双重优化。专业剪枝，让模型更轻量、更高效！

深入探讨LLMs与剪枝技术融合策略，旨在攻克LLMs庞大体积与高昂计算成本难题，实现高效资源利用与性能优化。

非结构化剪枝方法

非结构化剪枝简化LLM，通过删除低于阈值的特定参数实现，专注于单个权重或神经元。然而，它忽视LLM整体结构，造成不规则稀疏模型。这种不规则性需专业压缩技术以有效存储和计算剪枝后模型，因此，虽然剪枝简化了LLM，但其不规则性却增加了后续处理的复杂性。

非结构化修剪通常涉及对 LLM 进行大量重新训练以重新获得准确性，这对于LLMs来说尤其昂贵。

该领域的一种创新方法是 SparseGPT（论文：SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot）。它引入了一种不需要重新训练的一次性剪枝策略。该方法将剪枝视为广泛的稀疏回归问题，并使用近似稀疏回归求解器对其进行求解。SparseGPT 实现了显著的非结构化稀疏性，在 OPT-175B 和 BLOOM-176B 等大模型上甚至高达 60%，而困惑度的增加很小。

Syed等人[Syed et al., 2023]开创性地提出一种迭代剪枝技术，该技术能在剪枝过程中以最小训练步骤微调模型，从而显著提升模型效率，为深度学习领域带来革命性的进步。

LoRAPrune是一项前沿优化技术，巧妙融合了参数高效调整（PEFT）与剪枝策略，旨在强化下游任务性能。该技术独辟蹊径，采用一种创新的参数重要性评估标准，结合了低秩自适应（LoRA）的数值与梯度信息。通过精准识别并剪除冗余参数，LoRAPrune不仅提升了模型效率，更在保持甚至增强性能的同时，显著降低了计算与存储成本。这一创新成果，无疑为深度学习领域注入了新的活力，引领着参数优化技术的发展方向。

Wanda在最新论文中提出了针对SparseGPT资源密集型权重更新问题的创新剪枝指标。该指标基于权重大小与对应输入激活范数的乘积，结合小型校准数据集进行精准评估。通过局部比较线性层输出内的权重，Wanda能够精准识别并移除LLMs中的低优先级权重。这一方法不仅简化了剪枝过程，还提高了剪枝效率，为大型语言模型的优化提供了有效的新途径。

通过观察到 LLM 推理性能和内存使用量很大程度上受到下图四种类型的 Skinny MatMul 的限制。因此，Flash-LLM 旨在基于称为“稀疏加载和密集计算”(LSCD) 的关键方法来优化四个 MatMul。Flash-LLM 作为另一个用于非结构化模型剪枝的大语言模型推理加速方法。主要包含基于Tensor-Core加速的非结构化稀疏矩阵乘法计算的高效GPU代码，可以有效加速LLM中常见矩阵计算的性能。使用Flash-LLM，修剪后的LLM模型可以以更少的内存消耗部署到GPU上，并且可以更高效地执行。

结构化剪枝方法

结构化剪枝，通过精准剔除神经元、通道或层等结构组件，有效简化LLM。此法针对整组权重，不仅大幅降低模型复杂性与内存消耗，更巧妙维持LLM整体结构的完整性。优化而不失精髓，为LLM发展注入新活力。

这个领域的一个例子是 LLM-Pruner（论文：LLM-Pruner: On the Structural Pruning of Large Language Models），它采用通用方法来压缩 LLMs，同时保护其多任务解决能力和语言生成能力。此外，LLM-Pruner 还解决了 LLMs 使用大量训练数据带来的挑战，这可能导致大量的数据传输。

为了克服这些挑战，LLM-Pruner 结合了依赖性检测算法来查明模型中相互依赖的结构。它还实现了一种有效的重要性估计方法，该方法考虑一阶信息和近似的 Hessian 信息。该策略有助于选择最佳的组用于剪枝，从而改进压缩过程。

能否利用现有预训练LLMs，创造更小、通用且竞争力强的LLM，同时减少从头训练所需的计算量？LLM-Shearing提出了一种新颖的结构化剪枝方法，包含两种技术，旨在实现这一目标。此方法不仅优化了模型大小，还提升了其通用性和竞争力，为AI领域带来革命性的突破。

动态批量加载技术，灵活应对修剪引发的跨域信息变动。本方法旨在优化缓慢域的加载速度，通过动态调整加载比例，实现更高效的数据加载。

经过对推理、阅读理解、语言建模及知识密集型任务等多维度下游任务的全面评估，我们研发的Sheared-LLaMA模型展现出卓越性能，显著超越现有大语言模型，为自然语言处理领域带来新突破。

结语

本文概述了大模型剪枝的研究进展，随着大模型参数量剧增，剪枝技术对于降低模型大小和复杂度至关重要。该领域研究正日益受到关注，为模型优化提供了有力工具。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

发表于: 2024-04-172024-04-17 11:18:52
原文链接：https://page.om.qq.com/page/Okk2vFCYEXixhyhkZt2rVf9A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

一文读懂大模型剪枝：轻量级AI如何领跑未来科技

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐