当前位置: 首页 > article >正文

BERT的改进:ModernBERT

BERT还在更新!
因为上下文窗口限制,BERT只能处理512个token。
为了更长,可以抽取关键句子,或者修改位置编码

但现在,ModernBERT来了,使用了最新的技术架构,支持8192的context length。

架构

基于标准Transformer架构,添加了各项最新技术。

1.偏置项:只保留最后一个解码器线性层的偏置项。禁用layer norm中的偏置项。使得可以给线性层更大的参数量。
2.位置编码:由随机的可学习的位置编码转换为ROPE旋转位置编码。有利于扩展上下文窗口。
3.归一化:采用前置归一化,仍旧是标准的层归一化。在嵌入层后添加了一个层归一化,移除了第一个注意力层的第一个层归一化。这是为了防止重复。
4.激活函数:由RLU变为GeGLU。
5.注意力机制:每三层使用全局注意力,其余采用128个token的局部注意力。提高训练速度。
6.无填充方法:在训练和推理过程中去除填充令牌,将所有序列连接成一个序列进行处理。将小批量中的所有序列连接成一个单一序列。
7.Flash Attention。

8.层数:深且窄的语言模型在下游性能上优于较浅的对应模型,但代价是推理速度较慢。
base和large分别有22层和28层,总参数量分别为1.49亿和3.95亿。
base的隐藏层维度是768,large是1024.

9.分词器:采用BPE方法。
10.采用序列打包方法,避免高方差。

训练

1.训练任务:MLM任务,30%的掩码率。
2.优化器:StableAdamW优化器.
3.学习率调度:热身-稳定-衰减(WSD)方法。


http://www.kler.cn/a/448874.html

相关文章:

  • 玩转OCR | 探索腾讯云智能结构化识别新境界
  • 利用.NET Upgrade Assitant对项目进行升级
  • WPF+MVVM案例实战与特效(四十五)- 打造优雅交互:ListBox 的高级定制与行为触发(侧边菜单交互面板)
  • SpringCloud 入门(3)—— Nacos配置中心
  • 重拾设计模式--状态模式
  • 成方金融科技后端部分笔试题 - 解析
  • 模型 课题分离
  • ROS1安装教程
  • 5G -- 5G网络架构
  • # 起步专用 - 哔哩哔哩全模块超还原设计!(内含接口文档、数据库设计)
  • BigBlueButton视频会议 vs 华为视频会议系统的详细对比
  • vue3实现打印table订单表格
  • 14爬虫:scrapy实现翻页爬取
  • <代码随想录> 算法训练营-2024.12.20
  • RAG基础知识及综述学习
  • 22 go语言(golang) - gin框架安装及使用(三)
  • Chrome 132 版本开发者工具(DevTools)更新内容
  • 【Redis】Redis RDB和AOF持久化介绍
  • go中常用的处理json的库
  • c++的类中的私有成员变量是否可以在cpp文件中再定义一次
  • Redis篇--常见问题篇2--缓存雪崩(过期时间分散,缓存预热,多级缓存)
  • Docker基础命令实战
  • whisper实时语音转文字
  • Java中使用四叶天动态代理IP构建ip代理池,实现httpClient和Jsoup代理ip爬虫
  • 梳理你的思路(从OOP到架构设计)_设计模式Template Method模式
  • Vue(二)