当前位置: 首页 > article >正文

大模型|基础_word2vec

文章目录

  • Word2Vec
    • 词袋模型CBOW Continuous Bag-of-Words
    • Continuous Skip-Gram
    • 存在的问题
      • 解决方案
    • 其他技巧

Word2Vec

在这里插入图片描述
将词转化为向量后,会发现king和queen的差别与man和woman的差别是类似的,而在几何空间上,这样的差别将会以平行的关系进行表达。
在这里插入图片描述
在这里插入图片描述
会使用滑动窗口的机制。

在这里插入图片描述
滑动窗口内会有一个target目标词(上图蓝色部分),滑动窗口其他部分就是context word上下文,可见,这个上下文大小受限于滑动窗口的大小。

词袋模型CBOW Continuous Bag-of-Words


通过上下文context预测目标词target。
在这里插入图片描述
比如通过Never和late去预测出too来,先通过one-hot编码来对Never和late进行编码,并且借编码结果分别找到对应的词向量,然后将never和late的词向量去取平均,在和词库里面的每个词的词向量去做点积(点积能够反映向量的相似性)处理,然后将各个点积的结果,然后用softmax将其转化成概率,概率最大者,即为推理出来的结果。
(不是很懂,为什么还要对已知的词进行预测,可能是为了训练模型,来提高下一次,窗口框住相同的词,能够迸出target)

Continuous Skip-Gram

在这里插入图片描述
使用目标词target来反向预测上下文context。
在这里插入图片描述
需要注意的是,上下文单词有可能是有多的,而target只有一个,用target去预测一组上下文单词是比较困难的(可能把组当成是一个元素,存储空间太大了),于是预测的目标还是将一组单词进行拆分。

在这里插入图片描述

存在的问题

在这里插入图片描述
内容过多导致反向传播和梯度下降的执行过程所耗费的时间相对大。

解决方案

使用分层softmax和负采样。
在这里插入图片描述
负采样前

在这里插入图片描述
负采样后
由此观察,dim从V降成了5

其他技巧

在这里插入图片描述

f代表频次,f(w)即w这个词出现的次数。
而按次数去区分词,可以将词分为高频词和罕见词。
罕见词相比高频词能够蕴含更多的含义。
比如说“的”,“了”等助词只能在结构上起到完善的作用。
而罕见词往往能够带来更多的意义和区分度,更具有信息价值,所以可以通过上述这个可通过t来调节的式子来提前删去高频词。
在这里插入图片描述


http://www.kler.cn/a/228892.html

相关文章:

  • JVM相关面试题
  • 消息队列实战指南:三大MQ 与 Kafka 适用场景全解析
  • 【three.js】纹理贴图
  • Spring 核心技术解析【纯干货版】- Ⅶ:Spring 切面编程模块 Spring-Instrument 模块精讲
  • Rust:指针 `*T` 和引用 `T`的区别
  • vue 学习笔记 - 创建第一个项目 idea
  • Web前端入门 - HTML JavaScript Vue
  • element-ui link 组件源码分享
  • 【C++数据结构 | 栈速通】使用栈完成十进制数转二四八进制数
  • 数据结构——B/顺序表和链表
  • Redis面试题40
  • 【动态规划】【状态压缩】【2次选择】【广度搜索】1494. 并行课程 II
  • Android配置GitLab CI/CD持续集成,Shell版本的gitlab-runner,FastLane执行,上传蒲公英
  • C# Winform NLog的使用笔记
  • 李沐深度学习-模型构造相关文档
  • 突破编程_C++_面试(基础知识(7))
  • 嵌入式系统设计师之文件系统(3.2.5)
  • 学成在线:媒体资源管理系统(MAM)
  • 数据结构与算法:图论(邻接表板子+BFS宽搜、DFS深搜+拓扑排序板子+最小生成树MST的Prim算法、Kruskal算法、Dijkstra算法)
  • 编译器的实用调试技巧
  • 一分钟了解电脑关机快捷键是什么!
  • 如何以管理员身份删除node_modules文件
  • 思科模拟器实验合集
  • elastic-job VS xxl-job
  • (22)删除指定的数
  • 【UE 材质】扇形材质