当前位置: 首页 > article >正文

论文略读: Scaling laws with vocabulary: larger model deserve larger vocabularies

  • 更大的模型应该配备更大的词表,且在给定算力的情况下,最优的词表大小是有上限的
    • 在一开始,增加词表大小可以提高tokenization的效率,即用更短的词元表示文本,从而提高模型性能。
    • 逐渐增加词表大小的时候,分词效率提高的收益会逐渐减少
      • 同时此时低频词汇变多,这些词汇逐渐开始欠拟合

参考内容:NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law


http://www.kler.cn/a/463097.html

相关文章:

  • WordPress Crypto 插件 身份认证绕过漏洞复现(CVE-2024-9989)
  • 【74HC192减法24/20/72进制】2022-5-17
  • 深入 Redis:高级特性与最佳实践
  • 自组织映射 (Self-Organizing Map, SOM) 算法详解与PyTorch实现
  • MYsql--------ubantu中安装mysql
  • Java项目实战II基于微信小程序的家庭大厨(开发文档+数据库+源码)
  • 科伦川宁生物:绿色科技引领,双翼齐飞筑梦未来
  • 深入聊聊typescript、ES6和JavaScript的关系与前瞻技术发展
  • 数据仓库中的指标体系模型介绍
  • nginx学习之路-windows系统安装nginx
  • 自学记录:学习HarmonyOS Location Kit构建智能定位服务
  • 【开源免费】基于SpringBoot+Vue.JS精准扶贫管理系统(JAVA毕业设计)
  • windows文件夹自定义右键调用powershell完成7zip加密打包
  • Mediatek Android13 ROM定制
  • springboot525基于MVC框架自习室管理和预约系统设计与实现(论文+源码)_kaic
  • Redis集成到SpingBoot 的数据结构常见操作
  • Facebook广告无法投放?查看原因与解决方案
  • ChatGPT实战100例 - (22) 影刀需求大师
  • 开源存储详解-分布式存储与ceph
  • 千里马2024年终总结-android framework实战
  • 电商数据API接口的智能化与自动化发展探索
  • C#联合体
  • 【手搓一个脚本语言】五、用C语言抽象语法树AST解析简单的表达式字符串(括号)
  • Adobe Illustrator 中裁剪图像的最快方案
  • 使用策略模式时的一个生效问题
  • 4.微服务灰度发布落地实践(消息队列增强)