AI工作站

AngelSlim压缩工具包模型，腾讯混元AI自研开源全模态大模型

AngelSlim是腾讯混元团队自研并开源的全模态大模型压缩工具套件，通过量化、投机采样、稀疏化、知识蒸馏等技术，为大语言模型（LLM）、视觉语言模型（VLM）及语音模型提供高效、易用、一键式的压缩与推理加速方案。

工具深度集成FP8/INT8/INT4、GPTQ、AWQ等主流压缩策略，支持端到端压缩与无缝部署，产出模型可直接对接vLLM、Sglang等高性能推理框架。本次重磅升级推出首创Eagle3架构，将投机采样首次拓展至全模态场景，实测推理速度最高提升1.4–1.9倍。目前已兼容混元、DeepSeek、Qwen等主流模型生态，开发者可通过pip install angelslim一键安装。

AngelSlim压缩工具包模型，腾讯混元AI自研开源全模态大模型

AngelSlim核心功能：

1、多精度量化压缩：

支持FP8、INT8、INT4量化，集成GPTQ、AWQ等先进算法，显著降低模型显存与存储开销。

2、投机采样推理加速：

首创Eagle3训练架构，由小模型生成多步候选token，大模型并行验证，速度最高提升1.4–1.9倍。

3、全模态统一支持：

覆盖LLM、VLM、语音模型（ASR/TTS），业内首次实现投机采样全模态落地。

4、稀疏化与知识蒸馏：

提供结构化/非结构化稀疏剪枝与知识蒸馏，进一步压缩体积并保持能力。

5、一键式调用与低门槛使用：

提供极简API，屏蔽底层复杂度，大幅降低开发者使用成本。

6、无缝对接推理框架：

压缩后模型可直接接入vLLM、Sglang等生态，实现“压缩→训练→部署”全链路打通。

7、主流模型生态兼容：

全面支持Hunyuan、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni等开源模型。

AngelSlim技术原理：

1、量化压缩：

将高精度权重（FP16/FP32）映射到低精度格式（INT4/INT8/FP8），结合GPTQ/AWQ最小化精度损失。

2、投机采样（Speculative Decoding）：

小模型批量起草候选token，大模型一次性并行验证接受/修正，突破串行解码性能瓶颈。

3、Eagle3前瞻架构：

增强草稿模型多步预测能力，提升单次验证接受长度至1.8–3.5倍，进一步提升加速比。

4、知识蒸馏：

将教师模型的输出分布与隐层特征迁移至学生模型，实现小模型继承大模型效果。

5、结构化/非结构化稀疏：

剪除冗余权重与神经元，降低计算量，适配硬件加速。

6、全模态统一压缩框架：

跨文本、图像、语音设计统一压缩接口与适配层，实现技术能力复用。

AngelSlim项目地址：

1、GitHub项目地址：https://github.com/Tencent/AngelSlim

2、Hugging Face模型库：https://huggingface.co/collections/AngelSlim

AngelSlim应用场景：

1、云端大模型推理加速：降低千亿级模型显存占用，提升高并发服务吞吐量。

2、端侧轻量化部署：INT4/INT8量化使模型可在手机、IoT等设备离线运行，保护隐私。

3、多模态AI应用加速：加速图文理解、语音转录/合成，赋能智能客服、审核、实时翻译。

4、AIGC生成提效：显著降低首包延迟与生成时间，提升写作、代码、图文描述体验。

5、企业私有化降本：压缩模型后本地部署，大幅减少算力成本，构建高性价比AI中台。

标签：