当前位置：首页 > article >正文

【让中国再次伟大】腾讯开源大语言模型Hunyuan-large，支持高达256K文本序列

article 2025/4/2 15:15:31

腾讯今日发布开源MOE大语言模型Hunyuan-large，总参数量达398B，激活参数量52B。公开测评结果显示，腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先，超过Llama3.1、Mixtral等一流的开源大模型。

在这里插入图片描述
随着人工智能技术的飞速发展，大型语言模型（LLM）在自然语言处理、计算机视觉和科学任务等领域取得了重大进展。然而，随着这些模型规模的扩大，在保持高性能的同时优化资源消耗已成为一个关键挑战。为了应对这一挑战，我们探索了专家混合（MoE）模型。目前发布的Hunyuan-Large（Hunyuan-MoE-A52B）模型是业内最大的基于变压器的开源 MoE 模型，共有 389 亿个参数和 520 亿个活动参数。这是目前业界最大的基于变压器的开源 MoE 模型，具有 389 亿个参数和 520 亿个有源参数。

我们希望通过开源浑源-Large 模型并披露相关技术细节，激发更多研究人员的创新灵感，共同推进人工智能技术的进步和应用。欢迎您加入我们的开源社区，共同探索和优化未来的人工智能模型！

模型介绍

技术优势

高质量合成数据模型：通过加强合成数据的训练，Hunyuan-Large 可以学习更丰富的表征，处理长语境输入，并更好地泛化到未见数据。
KV 缓存压缩：利用分组查询关注（GQA）和跨层关注（CLA）策略，显著减少 KV 缓存的内存使用和计算开销，提高推理吞吐量。
专家特定学习率缩放：为不同的专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，为整体性能做出贡献。
长文本处理能力：预训练模型支持高达 256K 的文本序列，而指导模型支持高达 128K 的文本序列，大大增强了处理长文本任务的能力。
广泛的基准测试：对各种语言和任务进行广泛的实验，以验证浑源大数据的实用性和安全性。

基准评估

Hunyuan-Large 预训练模型与基于 Dense 和 MoE 的竞争对手相比，在激活参数大小相似的情况下，总体性能最佳。在MMLU、MMLU-Pro和CMMLU等综合基准测试中，浑源大数据始终保持最佳性能，证明了其在综合任务上的综合能力。此外，在常识理解与推理、经典 NLP 任务（如 QA 和阅读理解任务，如 CommonsenseQA、PIQA 和 PIQA）等方面，浑源大数据也表现出卓越的性能、在数学能力方面，洪源大在 GSM8K 和 MATH 数学数据集上的表现优于所有基线，并在中文 CMATH 上获得了最佳结果。

Model	LLama3.1 405B Inst.	LLama3.1 70B Inst.	Mixtral 8x22B Inst.	DeepSeekV2.5 Chat	Hunyuan-Large Inst.
MMLU	87.3	83.6	77.8	80.4	89.9
CMMLU	-	-	61.0	-	90.4
C-Eval	-	-	60.0	-	88.6
BBH	-	-	78.4	84.3	89.5
HellaSwag	-	-	86.0	90.3	88.5
ARC-C	96.9	94.8	90.0	-	94.6
GPQA_diamond	51.1	46.7	-	-	42.4
MATH	73.8	68.0	49.8	74.7	77.4
HumanEval	89.0	80.5	75.0	89.0	90.0
AlignBench	6.0	5.9	6.2	8.0	8.3
MT-Bench	9.1	8.8	8.1	9.0	9.4
IFEval strict-prompt	86.0	83.6	71.2	-	85.0
Arena-Hard	69.3	55.7	-	76.2	81.8
AlpacaEval-2.0	39.3	34.3	30.9	50.5	51.8

与具有类似激活参数的 LLM 相比，Hunyuan-Large-Instruct 在大多数任务类型上都取得了一致的改进，这表明我们的后训练非常有效。深入分析模型在不同类别基准中的表现，我们发现，我们的指导模型在 MMLU 和 MATH 数据集上取得了最佳表现。值得注意的是，在 MMLU 数据集上，我们的模型表现出了显著的进步，比 LLama3.1-405B 模型高出 2.6%。这种提升并非微不足道，而是表明了浑源-大构在各种语言理解任务中的卓越理解和推理能力。该模型在数学数据集上的表现进一步彰显了它的实力，它以 3.6% 的显著优势超过了 LLama3.1-405B。值得一提的是，这一准确率的飞跃是在仅有 520 亿个激活参数的情况下实现的，凸显了我们模型的效率。

Model	LLama3.1 405B Inst.	LLama3.1 70B Inst.	Mixtral 8x22B Inst.	DeepSeekV2.5 Chat	Hunyuan-Large Inst.
MMLU	87.3	83.6	77.8	80.4	89.9
CMMLU	-	-	61.0	-	90.4
C-Eval	-	-	60.0	-	88.6
BBH	-	-	78.4	84.3	89.5
HellaSwag	-	-	86.0	90.3	88.5
ARC-C	96.9	94.8	90.0	-	94.6
GPQA_diamond	51.1	46.7	-	-	42.4
MATH	73.8	68.0	49.8	74.7	77.4
HumanEval	89.0	80.5	75.0	89.0	90.0
AlignBench	6.0	5.9	6.2	8.0	8.3
MT-Bench	9.1	8.8	8.1	9.0	9.4
IFEval strict-prompt	86.0	83.6	71.2	-	85.0
Arena-Hard	69.3	55.7	-	76.2	81.8
AlpacaEval-2.0	39.3	34.3	30.9	50.5	51.8

同时，腾讯混元宣布，为填补行业真实长文评测集不足，腾讯混元即将开源企鹅卷轴评测集助力业界应用研究。自研企鹅卷轴（PenguinScrolls）基于公开金融、法律、学术论文等多种自然长文本，长度范围达1K-128K，覆盖各种深度阅读理解、长文推理任务。

腾讯混元Large大语言模型的发布和企鹅卷轴评测集的开源，将为业界提供更强大的语言模型和评测工具，推动自然语言处理和人工智能领域的发展。

官网地址:https://llm.hunyuan.tencent.com

在这里插入图片描述
Hunyuan-A52B-Pretrain/config.json

{
  "attention_bias": false,
  "attention_dropout": 0.0,
  "architectures": [
    "HunYuanForCausalLM"
  ],
  "auto_map": {
    "AutoConfig": "configuration_hunyuan.HunYuanConfig",
    "AutoModel": "modeling_hunyuan.HunyuanModel",
    "AutoModelForCausalLM": "modeling_hunyuan.HunYuanForCausalLM"
  },
  "bos_token_id": 1,
  "capacity_factor": 1.0,
  "cla_share_factor": 2,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 6400,
  "initializer_range": 0.02,
  "intermediate_size": 18304,
  "max_position_embeddings": 262144,
  "model_type": "hunyuan",
  "moe_drop_tokens": false,
  "moe_random_routing_dropped_token": false,
  "moe_topk": 1,
  "num_attention_heads": 80,
  "num_experts": 16,
  "num_hidden_layers": 64,
  "num_key_value_heads": 8,
  "num_shared_expert": 1,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": {
    "alpha": 100000.0,
    "factor": 1.0,
    "type": "dynamic"
  },
  "rope_theta": 10000.0,
  "tie_word_embeddings": true,
  "transformers_version": "4.41.2",
  "use_cache": true,
  "use_cla": true,
  "use_mixed_mlp_moe": true,
  "use_qk_norm": true,
  "vocab_size": 128512,
  "torch_dtype": "bfloat16"
}