当前位置：首页 > article >正文

Dataset Distillation with Attention Labels for Fine-tuning BERT

article 2024/12/26 21:38:33

在这里插入图片描述
文章使用了DD更新的方式，就是先使用蒸馏数据集训练一个模型，然后计算真实数据在这个模型上的损失，更新蒸馏数据集。

在这里插入图片描述
文章的做法是：在训练蒸馏数据集网络时，加入了attention损失

这时候生成数据集不仅仅包含原始数据x和y，还包含了a，这是attention模块的输出，作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时，不仅需要x,y的预测损失，还需要加入[cls]的损失。

视频的音乐怎么提取为MP3格式？

ChatGPT生成接口文档实践案例（一）

教师资格证报考条件15篇

数据结构与算法再探（二）串

5.学习webpack配置 babel基本配置

uni-app 跨端开发精美开源UI框架推荐

编码转换(实例)

2024最新教程Mac安装双系统

ensp 基于EASY IP的公司出口链路配置

微服务分布式(二、注册中心Consul)

SQL执行计划解读

《网络对抗》—— Web安全基础实践