当前位置: 首页 > article >正文

特殊Token区域与共享区域


一、特殊Token区域设计
1. 基础标识符
  • <|start|>:序列开始标识
  • `<|end|>``: 序列结束标识
  • <|pad|>:填充标识(用于对齐或补全长度)
  • <|unk|>:未知词标识(处理未登录词)

2. 词表扩充切换标识符
  • <|expand_vocab|>:动态扩展词表(触发外部词表加载)
  • <|switch_vocab:NAME|>:切换至指定名称的词表(如 <|switch_vocab:code|>

3. 指代标识符
单指代操作
  • <|s_{n}_s|>:引用前文第 n 个位置的片段填充当前位置(如 <|s_3_s|> 表示取前文第3位内容)。
  • <|s_{start}:{end}_s|>:引用前文 [start, end] 范围的片段(如 <|s_3:6_s|> 表示取前文3-6位内容)。
分割指代操作
  • <|split|>:触发前文分割,后接参数定义分割规则:
    • <|split|><|s_{num}_s|><|s_{index}_s|>:将前文分割为 num 段,取第 index 段(如分割为3段取第2段)。
    • 示例:<|split|><|s_3_s|><|s_1_s|> 表示将前文切分3段,取第1段填充。
指代群
  • <|s_code|><|e_code|>:包裹一组指代操作,内部用 <|re_end|> 分隔:
    <|s_code|>
      <|s_3_s|><|re_end|>
      <|s_5:8_s|>
    <|e_code|>
    
    表示依次执行两个操作:填充第3位内容,再填充5-8位内容。

4. 正则表达式支持
  • <|regex:pattern|>:在指代中嵌入正则表达式(如 <|regex:[A-Z]+|> 匹配大写字母序列)。
  • 示例:<|s_code|><|regex:\d+|><|re_end|><|s_2_s|><|e_code|> 表示先匹配数字,再填充第2位内容。

二、共享区域设计
  • 共享基础符号:通用标点(如 , . ?)、数字、常见功能词(如 if, for)。
  • 跨任务共享Token:如 <|text|>(文本域标识)、<|code|>(代码域标识),用于多模态任务。
  • 动态共享规则:通过 <|switch_vocab|> 切换词表时,保留共享区域的Token以避免重复编码。

三、语法规则与示例
  1. 单指代与范围指代

    • 输入:A B C D <|s_2_s|>
    • 输出:A B C D B(填充前文第2位内容 B
  2. 分割指代

    • 输入:X Y Z <|split|><|s_3_s|><|s_1_s|>
    • 输出:X Y Z Y(将前文 X Y Z 分3段 [X], [Y], [Z],取第1段 Y
  3. 指代群与正则

    • 输入:Data: 123 <|s_code|><|regex:\d+|><|re_end|><|e_code|>
    • 输出:Data: 123 123(正则匹配数字 123 并填充)

四、冲突处理与容错
  • 非法偏移:若 <|s_10_s|> 指向不存在的上下文,填充 <|unk|>
  • 语法错误:未闭合的 <|s_code|> 自动补全 <|e_code|>,或抛出错误标识 <|error|>

五、设计优势
  1. 灵活性:支持动态引用、分割、正则,适应复杂文本生成场景。
  2. 可扩展性:通过 <|switch_vocab|><|expand_vocab|> 支持多领域词表。
  3. 结构化解析:通过指代群和分隔符 <|re_end|> 明确操作边界,便于模型学习。

此设计需结合具体任务验证,确保模型能高效解析特殊Token的语义与操作逻辑。


http://www.kler.cn/a/526441.html

相关文章:

  • 图论——最小生成树的扩展应用
  • 【Julia】Julia预编译与外部库:从崩溃到完美集成
  • 虹科分享 | 汽车NVH小课堂之听音辨故障
  • 使用Redis生成全局唯一ID示例
  • 从替代到覆盖:暴雨信创服务器打开市场新局面
  • 使用 KNN 搜索和 CLIP 嵌入构建多模态图像检索系统
  • 分享|借鉴传统操作系统中分层内存系统的理念(虚拟上下文管理技术)提升LLMs在长上下文中的表现
  • LINUX部署微服务项目步骤
  • C++:多继承习题5
  • 文件(c语言文件流)
  • AI时序预测: iTransformer算法代码深度解析
  • UE学习日志#15 C++笔记#1 基础复习
  • 无线通信与人工智能技术与发展年度总结
  • MYSQL 商城系统设计 商品数据表的设计 商品 商品类别 商品选项卡 多表查询
  • Kafka 压缩算法详细介绍
  • 【股票数据API接口41】如何获取股票指最新分时MA数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据
  • gesp(C++六级)(7)洛谷:P10376:[GESP202403 六级] 游戏
  • 范冰冰担任第75届柏林电影节主竞赛单元评委 共鉴电影佳作
  • CF1098F Ж-function
  • F. Ira and Flamenco
  • 智慧园区系统助力企业智能化升级实现管理效率与安全性全方位提升
  • B站吴恩达机器学习笔记
  • C++11之列表初始化
  • 不够专业,想更体系化
  • 【视频+图文详解】HTML基础4-html标签的基本使用
  • 2025美赛复盘总结反思(论文手)