【让中国再次伟大】腾讯开源大语言模型Hunyuan-large,支持高达256K文本序列
腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B。公开测评结果显示,腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。
随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言处理、计算机视觉和科学任务等领域取得了重大进展。 然而,随着这些模型规模的扩大,在保持高性能的同时优化资源消耗已成为一个关键挑战。 为了应对这一挑战,我们探索了专家混合(MoE)模型。 目前发布的Hunyuan-Large(Hunyuan-MoE-A52B)模型是业内最大的基于变压器的开源 MoE 模型,共有 389 亿个参数和 520 亿个活动参数。 这是目前业界最大的基于变压器的开源 MoE 模型,具有 389 亿个参数和 520 亿个有源参数。
我们希望通过开源浑源-Large 模型并披露相关技术细节,激发更多研究人员的创新灵感,共同推进人工智能技术的进步和应用。 欢迎您加入我们的开源社区,共同探索和优化未来的人工智能模型!
模型介绍
技术优势
- 高质量合成数据模型: 通过加强合成数据的训练,Hunyuan-Large 可以学习更丰富的表征,处理长语境输入,并更好地泛化到未见数据。
- KV 缓存压缩: 利用分组查询关注(GQA)和跨层关注(CLA)策略,显著减少 KV 缓存的内存使用和计算开销,提高推理吞吐量。
- 专家特定学习率缩放: 为不同的专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,为整体性能做出贡献。
- 长文本处理能力: 预训练模型支持高达 256K 的文本序列,而指导模型支持高达 128K 的文本序列,大大增强了处理长文本任务的能力。
- 广泛的基准测试: 对各种语言和任务进行广泛的实验,以验证浑源大数据的实用性和安全性。
基准评估
Hunyuan-Large 预训练模型与基于 Dense 和 MoE 的竞争对手相比,在激活参数大小相似的情况下,总体性能最佳。 在MMLU、MMLU-Pro和CMMLU等综合基准测试中,浑源大数据始终保持最佳性能,证明了其在综合任务上的综合能力。 此外,在常识理解与推理、经典 NLP 任务(如 QA 和阅读理解任务,如 CommonsenseQA、PIQA 和 PIQA)等方面,浑源大数据也表现出卓越的性能、 在数学能力方面,洪源大在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并在中文 CMATH 上获得了最佳结果。
Model | LLama3.1 405B Inst. | LLama3.1 70B Inst. | Mixtral 8x22B Inst. | DeepSeekV2.5 Chat | Hunyuan-Large Inst. |
---|---|---|---|---|---|
MMLU | 87.3 | 83.6 | 77.8 | 80.4 | 89.9 |
CMMLU | - | - | 61.0 | - | 90.4 |
C-Eval | - | - | 60.0 | - | 88.6 |
BBH | - | - | 78.4 | 84.3 | 89.5 |
HellaSwag | - | - | 86.0 | 90.3 | 88.5 |
ARC-C | 96.9 | 94.8 | 90.0 | - | 94.6 |
GPQA_diamond | 51.1 | 46.7 | - | - | 42.4 |
MATH | 73.8 | 68.0 | 49.8 | 74.7 | 77.4 |
HumanEval | 89.0 | 80.5 | 75.0 | 89.0 | 90.0 |
AlignBench | 6.0 | 5.9 | 6.2 | 8.0 | 8.3 |
MT-Bench | 9.1 | 8.8 | 8.1 | 9.0 | 9.4 |
IFEval strict-prompt | 86.0 | 83.6 | 71.2 | - | 85.0 |
Arena-Hard | 69.3 | 55.7 | - | 76.2 | 81.8 |
AlpacaEval-2.0 | 39.3 | 34.3 | 30.9 | 50.5 | 51.8 |
与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct 在大多数任务类型上都取得了一致的改进,这表明我们的后训练非常有效。 深入分析模型在不同类别基准中的表现,我们发现,我们的指导模型在 MMLU 和 MATH 数据集上取得了最佳表现。 值得注意的是,在 MMLU 数据集上,我们的模型表现出了显著的进步,比 LLama3.1-405B 模型高出 2.6%。 这种提升并非微不足道,而是表明了浑源-大构在各种语言理解任务中的卓越理解和推理能力。 该模型在数学数据集上的表现进一步彰显了它的实力,它以 3.6% 的显著优势超过了 LLama3.1-405B。 值得一提的是,这一准确率的飞跃是在仅有 520 亿个激活参数的情况下实现的,凸显了我们模型的效率。
Model | LLama3.1 405B Inst. | LLama3.1 70B Inst. | Mixtral 8x22B Inst. | DeepSeekV2.5 Chat | Hunyuan-Large Inst. |
---|---|---|---|---|---|
MMLU | 87.3 | 83.6 | 77.8 | 80.4 | 89.9 |
CMMLU | - | - | 61.0 | - | 90.4 |
C-Eval | - | - | 60.0 | - | 88.6 |
BBH | - | - | 78.4 | 84.3 | 89.5 |
HellaSwag | - | - | 86.0 | 90.3 | 88.5 |
ARC-C | 96.9 | 94.8 | 90.0 | - | 94.6 |
GPQA_diamond | 51.1 | 46.7 | - | - | 42.4 |
MATH | 73.8 | 68.0 | 49.8 | 74.7 | 77.4 |
HumanEval | 89.0 | 80.5 | 75.0 | 89.0 | 90.0 |
AlignBench | 6.0 | 5.9 | 6.2 | 8.0 | 8.3 |
MT-Bench | 9.1 | 8.8 | 8.1 | 9.0 | 9.4 |
IFEval strict-prompt | 86.0 | 83.6 | 71.2 | - | 85.0 |
Arena-Hard | 69.3 | 55.7 | - | 76.2 | 81.8 |
AlpacaEval-2.0 | 39.3 | 34.3 | 30.9 | 50.5 | 51.8 |
同时,腾讯混元宣布,为填补行业真实长文评测集不足,腾讯混元即将开源企鹅卷轴评测集助力业界应用研究。自研企鹅卷轴(PenguinScrolls)基于公开金融、法律、学术论文等多种自然长文本,长度范围达1K-128K,覆盖各种深度阅读理解、长文推理任务。
腾讯混元Large大语言模型的发布和企鹅卷轴评测集的开源,将为业界提供更强大的语言模型和评测工具,推动自然语言处理和人工智能领域的发展。
官网地址:https://llm.hunyuan.tencent.com
Hunyuan-A52B-Pretrain/config.json
{
"attention_bias": false,
"attention_dropout": 0.0,
"architectures": [
"HunYuanForCausalLM"
],
"auto_map": {
"AutoConfig": "configuration_hunyuan.HunYuanConfig",
"AutoModel": "modeling_hunyuan.HunyuanModel",
"AutoModelForCausalLM": "modeling_hunyuan.HunYuanForCausalLM"
},
"bos_token_id": 1,
"capacity_factor": 1.0,
"cla_share_factor": 2,
"eos_token_id": 2,
"hidden_act": "silu",
"hidden_size": 6400,
"initializer_range": 0.02,
"intermediate_size": 18304,
"max_position_embeddings": 262144,
"model_type": "hunyuan",
"moe_drop_tokens": false,
"moe_random_routing_dropped_token": false,
"moe_topk": 1,
"num_attention_heads": 80,
"num_experts": 16,
"num_hidden_layers": 64,
"num_key_value_heads": 8,
"num_shared_expert": 1,
"pad_token_id": 0,
"pretraining_tp": 1,
"rms_norm_eps": 1e-05,
"rope_scaling": {
"alpha": 100000.0,
"factor": 1.0,
"type": "dynamic"
},
"rope_theta": 10000.0,
"tie_word_embeddings": true,
"transformers_version": "4.41.2",
"use_cache": true,
"use_cla": true,
"use_mixed_mlp_moe": true,
"use_qk_norm": true,
"vocab_size": 128512,
"torch_dtype": "bfloat16"
}
Mistral Large 也才 123B,这……沉默了大半年,原来是把算力都用在这儿了。腾讯,让中国再次伟大了!!!