当前位置：首页 > article >正文

Trm理论 2（Word2Vec）

article 2025/2/21 3:03:13

神经网络模型（NNLM）和Word2Vec

NNLM模型是上次说过的模型，其目的是为了预测下一个词。
softmax(w2tanh(w1x + b1)+b2)
会得到一个副产品词向量
而Word2Vue就是专门求词向量的模型
softmax(w2*(w1*x + b1)+b2)

Word2Vec

softmax(w2*(w1*x + b1)+b2)，Word2vec比NNLM少了一个激活函数tanh，其原因是word2vec目的是求词向量，并不需要预测结果的准确性，只需要反向传播能正常进行即可。
Word2Vec分为两种
CBOW和skip-gram
在这里插入图片描述
左图是CBOM，右图是skip-gram
word2vue的目的是训练得到Q矩阵，并非预测词，因此重要的是训练过程
CBOM像是一个老师训练多个学生，skip-gram是一堆老师训练一个学生

CBOM

CBOM是用一个词的上下文预测出这个词，“这是一瓶很好喝的牢大冰红茶”，分词后，输入“这是一瓶很__牢大冰红茶”

skip-gram

skip-gram是用一个词，预测出他的上下文，输入“很好喝的”，输出“这是一瓶很__牢大冰红茶”

Word2Vec的缺点

Q矩阵的形成是由训练的数据决定的，因此当你使用训练好的Q矩阵应用于下游任务时，会出错。
举个例子，训练Q矩阵时，所有的苹果意思就是水果，而应用于下游任务的时候，我想表达苹果手机，预测就会出现相差很大的问题

word2vec的下游任务改造

word2vec得到的Q矩阵是预训练的一种
首先得到下游任务的独热编码，在使用word2vec的Q矩阵得到词向量，最后进行接下来的任务。

学习视频连接如下

该文章是学习b站up主水论文的程序员的笔记，链接如下可自行学习

https://www.bilibili.com/video/BV1mZ4y1q7J2/?spm_id_from=333.788&vd_source=2910693b31a0847b17a3d12d76d0e3f1

http://www.kler.cn/a/289512.html

相关文章：

如何通过k8s来降低运营成本？

cuda编程[5]：矩阵乘法--使用静态共享内存优化

C/C++语言基础--函数基础(函数定义、调用、生命周期、递归）

Linux服务器CPU和IO的监控利器-iostat简介

【重学 MySQL】一、数据库概述

一个好用的Maven依赖冲突解决插件：Maven Helper

Flask wtforms组件的作用

【无人机设计与控制】使用 SimMechanics 在 Simulink 中仿真四旋翼飞行器

认识git和git的基本使用,本地仓库，远程仓库和克隆远程仓库

【WPF中的图形（Shape）】

高端控制台使用过程中如何保证用电安全

分类预测|基于蜣螂优化极限梯度提升决策树的数据分类预测Matlab程序DBO-Xgboost 多特征输入单输出含基础模型

vue2———组件

华为云征文|部署RedisStack+可视化操作

Echarts可视化

网络通信特刊合集（二）——CMC特刊推荐

贪心算法---无重叠区间

江协科技stm32————11-1SPI通信协议

Python爬虫-实现自动获取随机请求头User-Agent

C——四种排序方法