当前位置: 首页 > article >正文

Dataset Distillation with Attention Labels for Fine-tuning BERT

在这里插入图片描述
文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

在这里插入图片描述
文章的做法是:在训练蒸馏数据集网络时,加入了attention损失
在这里插入图片描述
这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。


http://www.kler.cn/a/452674.html

相关文章:

  • Ubuntu网络配置(桥接模式, nat模式, host主机模式)
  • 攻防世界web第三题file_include
  • Linux:SystemV通信
  • 【Linux】centos7安装php7.4
  • UDP传输层通信协议详解
  • VMware虚拟机超详细安装Linux教程(最新版)
  • SpringAI人工智能开发框架005---SpringAI文本转语音_语音转文本_音频翻译程序接口编写_英文音频翻译_中文音频翻译_指定模型
  • Linux如何设置redis可以外网访问—执行使用指定配置文件启动redis
  • 视频的音乐怎么提取为MP3格式?
  • ChatGPT生成接口文档实践案例(一)
  • 教师资格证报考条件15篇
  • ISP之提取.DNG格式中的RAW(Bayer)数据
  • 数据结构与算法再探(二)串
  • 面试场景题系列:分布式系统中的唯一ID生成器
  • 5.学习webpack配置 babel基本配置
  • uni-app 跨端开发精美开源UI框架推荐
  • 编码转换(实例)
  • 2024最新教程Mac安装双系统
  • ensp 基于EASY IP的公司出口链路配置
  • 微服务分布式(二、注册中心Consul)
  • 【全栈开发】----用pymysql库连接MySQL,批量存入
  • 浙江肿瘤医院病理库存储及NAS共享存储(磁盘阵列)方案-Infortrend普安科技
  • SQL执行计划解读
  • 【每日学点鸿蒙知识】获取是否有网接口、获取udid报错、本地通知、Json转Map、Window10安装Hyper-v
  • 《网络对抗》—— Web安全基础实践
  • 【山西长治】《长治市市直部门政务信息化建设项目预算编制规范和预算编制标准》(长财行[2022]25号)-省市费用标准解读系列32