清华OpenBMB压缩新算法:80G显存塞50个7B模型

清华OpenBMB压缩新算法:80G显存塞50个7B模型

清华OpenBMB压缩新算法:80G显存塞50个7B模型

清华大学NLP实验室、OpenBMB开源社区、北京大学和上海财经大学的研究团队携手推出了一项具有突破性的压缩技术——Delta-CoMe。这项技术能够显著降低大语言模型的存储和部署成本,为多任务处理和模型部署开辟了新的可能。

技术原理

Delta-CoMe的核心原理是利用主干模型与任务专用模型之间参数增量(即Delta)的特点进行压缩。低秩分解和低比特量化技术相结合,充分利用了Delta参数的低秩特性,提出了一种全新的混合精度压缩方法。这种方法不仅能够实现接近无损的任务性能,还能显著提升推理效率。

具体方法

Delta-CoMe首先采用奇异值分解(SVD)进行低秩分解。实验表明,Delta具有低秩性,经过低秩分解后,其特征值呈现出长尾分布规律。仅有少数较大奇异值对应的奇异向量对最终结果贡献较大。

基于此,Delta-CoMe采用混合精度量化,将较大的奇异值对应的奇异向量用较高精度表示,而较小的奇异值对应的奇异向量用较低精度表示。这种方法有效地压缩了参数存储空间,同时保持了模型的性能。

实验结果

在多个开源模型和Benchmark上的实验验证了Delta-CoMe的有效性。以Llama-2模型作为主干模型,在数学、代码、对话、多模态等多个任务中进行实验,Delta-CoMe展现出平均几乎无损的性能。

此外,还在Mistral、Llama-3等其他主干模型上对Delta-CoMe进行了验证。结果表明,Delta-CoMe在不同模型和任务上的压缩效果均十分显著。

性能提升

与前人的方法相比,Delta-CoMe具有以下优势:

* 结合低秩与低比特量化,利用了Delta的低秩特性,实现大幅度的存储压缩。

* 性能几乎无损,在复杂任务上与压缩前的微调模型表现基本接近。

* 推理速度提升,为混合精度量化实现了Triton Kernel算子,比Pytorch的实现方式提升近3倍推理速度。

* 超过Delta-tuning,支持多精度Backbone,Delta-CoMe在效果上显著优于LoRA微调,并可以用在多种精度的Backbone上。

应用价值

Delta-CoMe通过结合低秩分解和低比特量化,不仅实现了大幅度的存储压缩,还在复杂任务上维持了与压缩前模型相当的性能表现。这种技术对于部署大规模模型具有以下应用价值:

* 多租户和多任务场景:主干模型和多个任务专用模型可以共存,降低了不同任务对模型的存储和计算资源需求。

* 端侧部署:压缩后的模型存储空间更小,推理速度更快,更适合在端侧设备上部署。

* 模型微调和更新:Delta-CoMe保留了模型的可微调性,在部署后仍然可以根据特定任务进行微调和更新。

未来,Delta-CoMe有望在进一步优化模型存储和推理速度方面取得突破,并推动大语言模型在更广泛的实际应用中的普及和高效运作。

原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/11/30/18804.shtml

Like (0)
睿鸿在线睿鸿在线
Previous 2024年11月30日 上午11:16
Next 2024年11月30日 上午11:27

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注