Qwen-72B-Chat-Int8:智能对话的新标杆
🌟 在人工智能的星辰大海中,Qwen-72B-Chat-Int8 如一颗新星冉冉升起,为智能对话领域带来全新突破。作为阿里云通义千问大模型系列的力作,它凭借 720 亿参数和 Int8 量化技术,实现了高效部署与卓越性能的完美融合。今天,就让我们一探究竟,看看 Qwen-72B-Chat-Int8 如何引领智能对话新潮流。
一、核心优势:多维度卓越表现
- 海量数据赋能:超 3 万亿 tokens 预训练数据,涵盖中、英、多语言、代码、数学等多领域,为模型深度理解与广泛适用性奠定坚实基础。
- 性能卓越:在中英文下游任务中全面超越现有开源模型,无论是常识推理、代码生成还是数学解题,都能轻松应对。
- 词表全面:约 15 万大小的词表,对多语言友好,无需扩展即可增强特定语种能力。
- 超长上下文:支持 32k 上下文长度,轻松处理长文本,满足复杂对话需求。
- 灵活指令:通过系统指令,可实现角色扮演、语言风格迁移等多种功能,为对话增添无限可能。
二、技术细节:高效部署的关键
环境要求
- Python:3.8+
- PyTorch:2.0+
- CUDA:建议 11.4+(GPU 用户必看)
- 显存:至少 82GB(2xA100-80G 或 3xV100-32G)
依赖项安装
确保环境达标后,运行以下命令安装依赖:
bash
pip install "transformers>=4.32.0" accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
pip install auto-gptq optimum
量化技术
Int8 量化,让 Qwen-72B-Chat-Int8 在保持高性能的同时,显著提升运行效率,降低资源消耗。具体表现如下:
量化方式 | MMLU | CEval (val) | GSM8K | Humaneval |
---|---|---|---|---|
BF16 | 74.4 | 80.1 | 76.4 | 64.6 |
Int8 | 73.5 | 80.1 | 73.5 | 62.2 |
Int4 | 73.4 | 80.1 | 75.3 | 61.6 |
推理速度与显存
不同配置下的推理速度与显存使用情况,为实时交互提供有力保障:
量化方式 | 设置 | A100-80G GPU 数量 | 上下文长度 | 生成长度 | 速度 (Tokens/s) | 总 GPU 显存使用 |
---|---|---|---|---|---|---|
BF16 | HF + FlashAttn-v2 | 2 | 1 | 2048 | 8.48 | 144.69GB |
BF16 | vLLM | 2 | 1 | 2048 | 17.60 | Pre-Allocated* |
... | ... | ... | ... | ... | ... | ... |
注:vLLM 预分配 GPU 显存,无法检测最大使用量。
三、快速上手:开启对话之旅
示例代码
python
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-72B-Chat-Int8", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen-72B-Chat-Int8",
device_map="auto",
trust_remote_code=True
).eval()
response, history = model.chat(tokenizer, "你好", history=None)
print(response) # 输出:你好!很高兴为你提供帮助。
response, _ = model.chat(tokenizer, "你好呀", history=None, system="请用二次元可爱语气和我说话")
print(response) # 输出:哎呀,你好哇!是怎么找到人家的呢?是不是被人家的魅力吸引过来的呀~(≧▽≦)/~
注意事项
- 使用 vLLM 时,需安装指定分支仓库,目前暂不支持 int8 模型。
- 更多详情,请参考 GitHub 代码仓库。
四、评估效果:全方位性能验证
评测任务
涵盖中文理解(C-Eval)、英文理解(MMLU)、代码生成(HumanEval)和数学解题(GSM8K)等权威任务,以及长序列任务和工具使用能力评测。
评测结果
- 中文评测(C-Eval):zero-shot 准确率 79.5%,5-shot 准确率 82.9%。
- 英文评测(MMLU):0-shot 准确率 74.3%,5-shot 准确率 75.0%。
- 代码评测(HumanEval):zero-shot Pass@1 达到 64.6%。
- 数学评测(GSM8K):准确率达到 76.4%。
五、结语
Qwen-72B-Chat-Int8 以其卓越性能和高效部署能力,成为智能对话领域的全新标杆。无论是在日常对话、专业领域还是多语言场景中,它都能提供精准、高效、富有创意的对话体验。让我们共同期待,Qwen-72B-Chat-Int8 在未来带来更多惊喜,开启智能对话新时代!
BuluAI算力平台现已上线,再也不用为算力发愁嘞,点击官网了解吧!新用户送50元算力金,快来体验吧!