当前位置: 首页 > article >正文

LLM论文笔记 19: On Limitations of the Transformer Architecture

  • Arxiv日期:2024.2.26
  • 机构:Columbia University / Google

关键词

  • Transformer架构
  • 幻觉问题
  • 数学谜题

核心结论

1. Transformer 无法可靠地计算函数组合问题

2. Transformer 的计算能力受限于信息瓶颈

3. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限

4. CoT 需要生成指数级增长的 token。CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。

主要方法

核心目标是分析 Transformer 在计算能力上的根本性限制,特别是在 函数组合(Function Composition)、数学推理、逻辑推理 等任务上的表现。

通过 通信复杂度(Communication Complexity)计算复杂度(Computational Complexity) 的分析

参考:https://zhuanlan.zhihu.com/p/682254725

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文


http://www.kler.cn/a/576357.html

相关文章:

  • 鸿蒙HarmonyOS评论功能小demo
  • 考研题库与考研真题分别应该如何使用?
  • 搭建一套东郊到家上门按摩app需要多少钱?
  • 恶劣天候三维目标检测论文列表整理
  • eclipse查看源码
  • 自学Java-JavaSE基础加强(Java网络编程)
  • 大白话CSS 中的box-sizing属性,它有哪些值以及各自的作用
  • 【笔记】记一次easyExcel中注解ExcelProperty映射字段赋值无效问题
  • G1,最大的特点是什么,标记位图,卡表卡页,SATB又分别是什么?
  • 统一数据返回格式
  • 【NetTopologySuite类库】geojson和shp互转,和自定义对象互转
  • Kotlin字符串操作在Android开发中的应用示例
  • Java网络爬虫工程
  • 深度学习(斋藤)学习笔记(五)-反向传播2
  • 【卫星语音通信】神经网络语音编解码算法:AudioDec
  • 常见Web应用源码泄露问题
  • 揭开Android View的神秘面纱:深入探索工作原理
  • Go语言集成DeepSeek API和GoFly框架文本编辑器实现流式输出和对话(GoFly快速开发框架)
  • vue的el-form-item循环检验rules
  • AWS DynamoDB深度解析:高并发场景下的NoSQL数据库设计与优化实践