当前位置: 首页 > article >正文

【让中国再次伟大】腾讯开源大语言模型Hunyuan-large,支持高达256K文本序列

腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B。公开测评结果显示,腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。

在这里插入图片描述
随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言处理、计算机视觉和科学任务等领域取得了重大进展。 然而,随着这些模型规模的扩大,在保持高性能的同时优化资源消耗已成为一个关键挑战。 为了应对这一挑战,我们探索了专家混合(MoE)模型。 目前发布的Hunyuan-Large(Hunyuan-MoE-A52B)模型是业内最大的基于变压器的开源 MoE 模型,共有 389 亿个参数和 520 亿个活动参数。 这是目前业界最大的基于变压器的开源 MoE 模型,具有 389 亿个参数和 520 亿个有源参数。

我们希望通过开源浑源-Large 模型并披露相关技术细节,激发更多研究人员的创新灵感,共同推进人工智能技术的进步和应用。 欢迎您加入我们的开源社区,共同探索和优化未来的人工智能模型!

模型介绍

技术优势

  • 高质量合成数据模型: 通过加强合成数据的训练,Hunyuan-Large 可以学习更丰富的表征,处理长语境输入,并更好地泛化到未见数据。
  • KV 缓存压缩: 利用分组查询关注(GQA)和跨层关注(CLA)策略,显著减少 KV 缓存的内存使用和计算开销,提高推理吞吐量。
  • 专家特定学习率缩放: 为不同的专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,为整体性能做出贡献。
  • 长文本处理能力: 预训练模型支持高达 256K 的文本序列,而指导模型支持高达 128K 的文本序列,大大增强了处理长文本任务的能力。
  • 广泛的基准测试: 对各种语言和任务进行广泛的实验,以验证浑源大数据的实用性和安全性。

基准评估

Hunyuan-Large 预训练模型与基于 Dense 和 MoE 的竞争对手相比,在激活参数大小相似的情况下,总体性能最佳。 在MMLU、MMLU-Pro和CMMLU等综合基准测试中,浑源大数据始终保持最佳性能,证明了其在综合任务上的综合能力。 此外,在常识理解与推理、经典 NLP 任务(如 QA 和阅读理解任务,如 CommonsenseQA、PIQA 和 PIQA)等方面,浑源大数据也表现出卓越的性能、 在数学能力方面,洪源大在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并在中文 CMATH 上获得了最佳结果。

ModelLLama3.1 405B Inst.LLama3.1 70B Inst.Mixtral 8x22B Inst.DeepSeekV2.5 ChatHunyuan-Large Inst.
MMLU87.383.677.880.489.9
CMMLU--61.0-90.4
C-Eval--60.0-88.6
BBH--78.484.389.5
HellaSwag--86.090.388.5
ARC-C96.994.890.0-94.6
GPQA_diamond51.146.7--42.4
MATH73.868.049.874.777.4
HumanEval89.080.575.089.090.0
AlignBench6.05.96.28.08.3
MT-Bench9.18.88.19.09.4
IFEval strict-prompt86.083.671.2-85.0
Arena-Hard69.355.7-76.281.8
AlpacaEval-2.039.334.330.950.551.8

与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct 在大多数任务类型上都取得了一致的改进,这表明我们的后训练非常有效。 深入分析模型在不同类别基准中的表现,我们发现,我们的指导模型在 MMLU 和 MATH 数据集上取得了最佳表现。 值得注意的是,在 MMLU 数据集上,我们的模型表现出了显著的进步,比 LLama3.1-405B 模型高出 2.6%。 这种提升并非微不足道,而是表明了浑源-大构在各种语言理解任务中的卓越理解和推理能力。 该模型在数学数据集上的表现进一步彰显了它的实力,它以 3.6% 的显著优势超过了 LLama3.1-405B。 值得一提的是,这一准确率的飞跃是在仅有 520 亿个激活参数的情况下实现的,凸显了我们模型的效率。

ModelLLama3.1 405B Inst.LLama3.1 70B Inst.Mixtral 8x22B Inst.DeepSeekV2.5 ChatHunyuan-Large Inst.
MMLU87.383.677.880.489.9
CMMLU--61.0-90.4
C-Eval--60.0-88.6
BBH--78.484.389.5
HellaSwag--86.090.388.5
ARC-C96.994.890.0-94.6
GPQA_diamond51.146.7--42.4
MATH73.868.049.874.777.4
HumanEval89.080.575.089.090.0
AlignBench6.05.96.28.08.3
MT-Bench9.18.88.19.09.4
IFEval strict-prompt86.083.671.2-85.0
Arena-Hard69.355.7-76.281.8
AlpacaEval-2.039.334.330.950.551.8

同时,腾讯混元宣布,为填补行业真实长文评测集不足,腾讯混元即将开源企鹅卷轴评测集助力业界应用研究。自研企鹅卷轴(PenguinScrolls)基于公开金融、法律、学术论文等多种自然长文本,长度范围达1K-128K,覆盖各种深度阅读理解、长文推理任务。

腾讯混元Large大语言模型的发布和企鹅卷轴评测集的开源,将为业界提供更强大的语言模型和评测工具,推动自然语言处理和人工智能领域的发展。

官网地址:https://llm.hunyuan.tencent.com

在这里插入图片描述
Hunyuan-A52B-Pretrain/config.json

{
  "attention_bias": false,
  "attention_dropout": 0.0,
  "architectures": [
    "HunYuanForCausalLM"
  ],
  "auto_map": {
    "AutoConfig": "configuration_hunyuan.HunYuanConfig",
    "AutoModel": "modeling_hunyuan.HunyuanModel",
    "AutoModelForCausalLM": "modeling_hunyuan.HunYuanForCausalLM"
  },
  "bos_token_id": 1,
  "capacity_factor": 1.0,
  "cla_share_factor": 2,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 6400,
  "initializer_range": 0.02,
  "intermediate_size": 18304,
  "max_position_embeddings": 262144,
  "model_type": "hunyuan",
  "moe_drop_tokens": false,
  "moe_random_routing_dropped_token": false,
  "moe_topk": 1,
  "num_attention_heads": 80,
  "num_experts": 16,
  "num_hidden_layers": 64,
  "num_key_value_heads": 8,
  "num_shared_expert": 1,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": {
    "alpha": 100000.0,
    "factor": 1.0,
    "type": "dynamic"
  },
  "rope_theta": 10000.0,
  "tie_word_embeddings": true,
  "transformers_version": "4.41.2",
  "use_cache": true,
  "use_cla": true,
  "use_mixed_mlp_moe": true,
  "use_qk_norm": true,
  "vocab_size": 128512,
  "torch_dtype": "bfloat16"
}

Mistral Large 也才 123B,这……沉默了大半年,原来是把算力都用在这儿了。腾讯,让中国再次伟大了!!!


http://www.kler.cn/a/380975.html

相关文章:

  • 关于我的编程语言——C/C++——第四篇(深入1)
  • 网络原理(应用层)->HTTPS解
  • Linux云计算 |【第五阶段】CLOUD-DAY6
  • 【Nginx】前端项目开启 Gzip 压缩大幅提高页面加载速度
  • 微服务系列二:跨微服务请求优化,注册中心+OpenFeign
  • 初始JavaEE篇——多线程(5):生产者-消费者模型、阻塞队列
  • 基于qt vs下的视频播放
  • [Python学习日记-61] 什么是类与对象?类与对象是什么关系呢?我们该如何定义和使用类与对象呢?
  • 使用 Python 构建代理池并测试其有效性
  • JavaEE初阶----网络原理之TCP篇(一)
  • 10款PDF转Word软件工具的使用感受及其亮点!!!
  • LeetCode:20. 有效的括号(java)
  • 计算机网络网络层笔记
  • golang 实现比特币内核:椭圆曲线有限域的代码实现
  • #渗透测试#SRC漏洞挖掘# 操作系统-windows系统bat病毒
  • 有线电视 1.27.5 | 完全免费的电视直播应用,频道丰富,画质清晰
  • 成功解决WSL2上的Ubuntu22.04执行sudo apt-get update指令报错问题
  • 基于A*算法的无人车路径规划
  • 高斯飞溅OccGaussian 人体重建
  • IP-guard与Ping32文档加密解决方案对比,选择适合自己的解决方案
  • glsl基于LTC的面光源渲染 - 矩形光通过three.js
  • Java基础-Java中的常用类(上)
  • 服务器作业3
  • H7-TOOL的LUA小程序教程第17期:扩展驱动AD7606, ADS1256,MCP3421, 8路继电器和5路DS18B20(2024-11-01)
  • RPC核心实现原理
  • 华为eNSP:配置DHCP Snooping