当前位置: 首页 > article >正文

LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

1. 算数运算NTP中数据格式使用reverse或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量

2. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

3. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

4. 混合数据训练(文本+算术)+ few shot 显著提高精度

5. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文


http://www.kler.cn/a/551624.html

相关文章:

  • 使用Linux创作第一个小程序--进度条
  • 虚幻蓝图解决抗锯齿方案
  • 基于微信小程序的宿舍报修管理系统设计与实现,SpringBoot(15500字)+Vue+毕业论文+指导搭建视频
  • 23种设计模式 - 适配器模式
  • CES Asia 2025“传播势能放大器”:科技与环保的双重盛宴
  • 9.PG数据库层权限管理(pg系列课程)第2遍
  • 【HBase】HBaseJMX 接口监控信息实现钉钉告警
  • 代理和NAT多路转接
  • 3.7大模型开发环境搭建:从单卡到分布式集群的全栈指南
  • Maven Repository 与 Artifactory 使用
  • QT6开发高性能企业视频会议-7 Linux中文输入法的支持
  • openEuler-24.03-LTS/virtual_machine_img 版本的安装
  • STM32完全学习——RT-thread标准版移植
  • Ubuntu学习备忘
  • Mybatis高级(动态SQL)
  • Stream流简单使用
  • 【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-Chapter16-DOM2 和 DOM3
  • 人工智能(AI)在癌症休眠研究及精准肿瘤学中的应用|顶刊速递·25-02-18
  • 本地DeepSeek模型GGUF文件转换为PyTorch格式
  • 动态规划算法篇:枚举的艺术