当前位置: 首页 > article >正文

Trm理论 2(Word2Vec)

神经网络模型(NNLM)和Word2Vec

NNLM模型是上次说过的模型,其目的是为了预测下一个词。
softmax(w2tanh(w1x + b1)+b2)
会得到一个副产品词向量
而Word2Vue就是专门求词向量的模型
softmax(w2*(w1*x + b1)+b2)

Word2Vec

softmax(w2*(w1*x + b1)+b2),Word2vec比NNLM少了一个激活函数tanh,其原因是word2vec目的是求词向量,并不需要预测结果的准确性,只需要反向传播能正常进行即可。
Word2Vec分为两种
CBOW和skip-gram
在这里插入图片描述
左图是CBOM,右图是skip-gram
word2vue的目的是训练得到Q矩阵,并非预测词,因此重要的是训练过程
CBOM像是一个老师训练多个学生,skip-gram是一堆老师训练一个学生

CBOM

CBOM是用一个词的上下文预测出这个词,“这是一瓶很好喝的牢大冰红茶”,分词后,输入“这是一瓶很__牢大冰红茶”

skip-gram

skip-gram是用一个词,预测出他的上下文,输入“很好喝的”,输出“这是一瓶很__牢大冰红茶”

Word2Vec的缺点

Q矩阵的形成是由训练的数据决定的,因此当你使用训练好的Q矩阵应用于下游任务时,会出错。
举个例子,训练Q矩阵时,所有的苹果意思就是水果,而应用于下游任务的时候,我想表达苹果手机,预测就会出现相差很大的问题

word2vec的下游任务改造

word2vec得到的Q矩阵是预训练的一种
首先得到下游任务的独热编码,在使用word2vec的Q矩阵得到词向量,最后进行接下来的任务。

学习视频连接如下

该文章是学习b站up主水论文的程序员的笔记,链接如下可自行学习

https://www.bilibili.com/video/BV1mZ4y1q7J2/?spm_id_from=333.788&vd_source=2910693b31a0847b17a3d12d76d0e3f1


http://www.kler.cn/a/289512.html

相关文章:

  • 小面馆叫号取餐流程 佳易王面馆米线店点餐叫号管理系统操作教程
  • 【STM32】基于SPI协议读写SD,详解!
  • 记录日志中logback和log4j2不能共存的问题
  • Mysql数据类型面试题15连问
  • Oracle RAC的thread
  • JMeter基础篇
  • 如何通过k8s来降低运营成本?
  • cuda编程[5]:矩阵乘法--使用静态共享内存优化
  • C/C++语言基础--函数基础(函数定义、调用、生命周期、递归)
  • Linux服务器CPU和IO的监控利器-iostat简介
  • 【重学 MySQL】一、数据库概述
  • 一个好用的Maven依赖冲突解决插件:Maven Helper
  • Flask wtforms组件的作用
  • 【无人机设计与控制】使用 SimMechanics 在 Simulink 中仿真四旋翼飞行器
  • 认识git和git的基本使用,本地仓库,远程仓库和克隆远程仓库
  • 【WPF中的图形(Shape)】
  • 高端控制台使用过程中如何保证用电安全
  • 分类预测|基于蜣螂优化极限梯度提升决策树的数据分类预测Matlab程序DBO-Xgboost 多特征输入单输出 含基础模型
  • vue2———组件
  • 华为云征文|部署RedisStack+可视化操作
  • Echarts可视化
  • 网络通信特刊合集(二)——CMC特刊推荐
  • 贪心算法---无重叠区间
  • 江协科技stm32————11-1SPI通信协议
  • Python爬虫-实现自动获取随机请求头User-Agent
  • C——四种排序方法