当前位置: 首页 > article >正文

[论文阅读]SimCSE: Simple Contrastive Learning of Sentence Embeddings

SimCSE:句子嵌入的简单对比学习

SimCSE: Simple Contrastive Learning of Sentence Embeddings

http://arxiv.org/abs/2104.08821

EMNLP 2021

文章介绍了SimCSE,这是一种简单的对比学习框架,采用了自监督来提升模型的句子表示能力

而自监督最关键的问题是构建正负例

对于无监督来说,作者使用了Droupout来构建正例,将一个样本经过encoder两次,就得到了一个正例对,负例则是同一个batch里的其它句子。

对于有监督则采用了SNLI数据集天然的结构,对立类别的是负例,另外两个类别的就是正例

对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示

 

图像上的对比学习方案:对同一个图像进行两次随机转换(例如裁剪、翻转、扭曲和旋转等)。文本上采用类似的方案:单词删除、重排序和替换等增强技术,但是由于文本的离散型,文本数据增强本质上是很困难的,简单地在中间表示上使用标准dropout优于这些离散运算符。

无监督SImCSE:

使用droupout来对文本增加噪音,从而构造一个正样本对,而负样本对则是在batch中选取的其它句子

 有监督SimCSE:

这一部分的句子对直接采用了NLI数据集的数据,因为其中有天然的正负例句子对。

详细请参考这篇文章:
无监督对比学习SIMCSE理解和中文实验操作-CSDN博客


http://www.kler.cn/a/371460.html

相关文章:

  • 剖析市面上具有代表性的四款翻译工具!
  • vue-echarts使用
  • 自动对焦爬山算法原理
  • Python轴承故障诊断 (15)基于CNN-Transformer的一维故障信号识别模型
  • Cisco Packet Tracer 8.0 路由器单臂路由配置
  • 【WRF数据准备】基于GEE下载静态地理数据-叶面积指数LAI及绿色植被率Fpar
  • Topaz Video AI for Mac 视频无损放大软件安装教程【保姆级,操作简单轻松上手】
  • 《ToDesk 云电脑、易腾云、青椒云移动端体验实测:让手机秒变超级电脑》
  • 鸿蒙NEXT应用上架与分发
  • 沧穹科技室内音频“北斗”定位技术亮相第三届北斗规模应用国际峰会
  • 面试题整理1
  • Flume采集Kafka数据到Hive
  • 【力扣 + 牛客 | SQL题 | 每日4题】牛客SQL热题210,213,212,219
  • PART 1 数据挖掘概论 — 数据挖掘方法论
  • H.264视频压缩与MP4/MKV封装格式的详尽指南
  • 【C++】入门C++
  • Leetcode 第 420 场周赛题解
  • 数学建模清风——论文写作方法教程笔记
  • 无人机之多源信息融合算法篇
  • 【ms-swift 大模型微调实战】
  • 自动化机器学习(AutoML)详解
  • 【Spring】IocDI
  • 端到端自动驾驶模型SparseDrive论文阅读笔记
  • HarmonyOS:@Watch装饰器:状态变量更改通知
  • webAssembly初探
  • Python BeautifulSoup 实战案例:抓取网页并提取数据