当前位置：首页 > article >正文

【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

article 2025/3/19 12:32:30

基本信息

论文全名：LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs
论文链接：https://arxiv.org/pdf/2408.07055
论文代码：https://github.com/THUDM/LongWriter
数据集链接：https://huggingface.co/datasets/THUDM/LongWriter-6k
模型链接：

LongWriter-glm4-9b：https://huggingface.co/THUDM/LongWriter-glm4-9b
Llama-3.1-8B：https://huggingface.co/THUDM/LongWriter-llama3.1-8b

总评价：比较有参考性的一篇文章，思路清晰，而且公开了数据、模型和代码

概述

研究背景

当前的大规模长上下文语言模型（LLMs）已经可以处理长达 100,000 tokens 的输入，但在 输出长度 上却存在明显的瓶颈，大多数模型难以生成超过 2,000 词的文本。许多现有 SFT（Supervised Fine-Tuning）数据集中的示例长度有限，这限制了模型的生成能力。

研究目标

本文的目标是：

分析长上下文 LLMs 生成长度受限的原因。
提出 AgentWrite 方法，以 任务拆解 方式让 LLM 生成超长文本（20,000 词以上）。
构建 LongWriter-6k 数据集，提供 6,000 份 超长 SFT 数据（2,000 - 32,000 词）。
训练长文本生成能力增强的 LLM，并通过 LongBench-Write 评估基准进行测评。

创新点

发现关键限制：输出长度受 SFT 数据长度约束，而非预训练阶段的上下文窗口长度。
提出 AgentWrite：基于代理（agent-based）的长文本生成流程，采用计划-写作策略。
构建 LongWriter-6k：首次大规模构建 10,000+ 词级别的 SFT 数据集，使 LLM 生成长文本成为可能。
提出 LongBench-Write 评测基准：针对超长文本生成能力，系统性评估 LLM 的长文本生成质量。

【写作科研化】LongWriter: Unleashing 10,000+ Word Generation From Long Context LLMs

基本信息

概述

研究背景

研究目标

创新点

相关工作

主要理论

关键技术

相关文章：