当前位置: 首页 > article >正文

【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

基本信息

论文全名:LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs
论文链接:https://arxiv.org/pdf/2408.07055
论文代码:https://github.com/THUDM/LongWriter
数据集链接:https://huggingface.co/datasets/THUDM/LongWriter-6k
模型链接:

  • LongWriter-glm4-9b:https://huggingface.co/THUDM/LongWriter-glm4-9b
  • Llama-3.1-8B:https://huggingface.co/THUDM/LongWriter-llama3.1-8b

总评价:比较有参考性的一篇文章,思路清晰,而且公开了数据、模型和代码

概述

研究背景

当前的大规模长上下文语言模型(LLMs)已经可以处理长达 100,000 tokens 的输入,但在 输出长度 上却存在明显的瓶颈,大多数模型难以生成超过 2,000 词的文本。许多现有 SFT(Supervised Fine-Tuning)数据集中的示例长度有限,这限制了模型的生成能力。

研究目标

本文的目标是:

  1. 分析 长上下文 LLMs 生成长度受限的原因。
  2. 提出 AgentWrite 方法,以 任务拆解 方式让 LLM 生成超长文本(20,000 词以上)。
  3. 构建 LongWriter-6k 数据集,提供 6,000 份 超长 SFT 数据(2,000 - 32,000 词)。
  4. 训练 长文本生成能力增强的 LLM,并通过 LongBench-Write 评估基准进行测评。

创新点

  1. 发现关键限制:输出长度受 SFT 数据长度约束,而非预训练阶段的上下文窗口长度。
  2. 提出 AgentWrite:基于代理(agent-based)的长文本生成流程,采用计划-写作策略。
  3. 构建 LongWriter-6k:首次大规模构建 10,000+ 词级别的 SFT 数据集,使 LLM 生成长文本成为可能。
  4. 提出 LongBench-Write 评测基准:针对超长文本生成能力,系统性评估 LLM 的长文本生成质量。

相关工作

主要理论

  • 研究表明 LLMs 的上下文窗口越长,理解能力越强(Xiong et al., 2024)。
  • 然而,尽管 LLMs 可以处理长输入,但它们的 输出能力受限于 SFT 训练数据的长度,通常无法超过 2,000 词。

关键技术

  1. Supervised Fine-Tuning(SFT):模型在微调过程中,输出长度受训练数据集的长度影响。
  2. Direct Preference Optimization(DPO):用于对 LLMs 进行对齐,使其遵循长文本生成需求。
  3. Divide-and-Conquer(任

http://www.kler.cn/a/591153.html

相关文章:

  • Hard Disk Sentinel:您的硬盘健康“全科医生”,守护数据安全的智能管家
  • 我爱学算法之——滑动窗口攻克子数组和子串难题(上)
  • [从零开始学习JAVA] Stream流
  • HTML5 Canvas 的俄罗斯方块游戏开发实践
  • 2023华东师范大学计算机复试上机真题
  • 验证码reCAPTCHA 打码平台
  • 基于Python的金融领域AI训练数据抓取实战(完整技术解析)
  • Java中的label与assert语句
  • 软考 中级软件设计师 考点知识点笔记总结 day05
  • 【Spring】第三弹:基于 XML 获取 Bean 对象
  • 兆芯大道云行 | 破解高性能云计算数据存储瓶颈
  • 3.8 Spring Boot监控:Actuator+Prometheus+Grafana可视化
  • 3.17BUUCTF练习day1
  • Java高频面试之集合-14
  • hcia复习
  • Kafka跨集群数据备份与同步:MirrorMaker运用
  • 错排(数学层面)
  • Django:内置和自定义中间件
  • k8s资源管理介绍
  • 在 Visual Studio Code 中高效使用 Pylance:配置、技巧与插件对比