当前位置：首页 > article >正文

深度学习基础—了解词嵌入

article 2025/2/21 2:59:47

引言

上图是使用one-hot向量表示词向量的一种方式，这种表示方式优点是方面简洁，但是缺点也很明显，就是词与词之间独立性太强，没有关联，这样使得算法对相关词的泛化能力不强。

举个例子，假如我们已经学习到了一个语言模型，当看到“I want a glass of orange ___”，下一个词会是什么？很可能是juice。即使学习算法已经学到了“I want a glass of orange juice”这样一个很可能的句子，但如果看到“I want a glass of apple ___”，因为算法不知道apple和orange的关系很接近，就像man和woman，king和queen一样。所以算法很难知道orange juice是一个常见的组合，从而不理解apple juice也是很常见的组合。其中的原因是：任何两个one-hot向量的内积都是0，因此很难区分词向量之间的差别和联系。

而词嵌入就是一种让模型理解词与词之间是存在某种关系的方式，让我们一起了解一下。

1.了解词嵌入

	Man	Woman	King	Queen	Apple	Orange
Gender	-1	1	-0.95	0.97	0.00	0.01
Royal	0.01	0.02	0.93	0.95	-0.01	0.00
Age	0.03	0.02	0.7	0.69	0.03	-0.02
......	......	......	......	......	......	......
Food	0.09	0.01	0.02	0.01	0.96	0.97

假设考察这些词与Gender（性别）之间的关系，定义男性为-1，女性为1。那么Man就是-1，Woman就是1。King是国王，一般都是男性，因此可能为-0.95，Queen为女王，都是女性，因此为0.97。而Apple和Orange是水果，没有性别之谈。

如果考虑其他的特征，比如Royal（高贵）、Age（年龄）、Food（食物）等等，假设有300个特征，我们就可以得到300行，组成表格如上。那么每一个词向量都用300维的向量（表格列）表示，这样我们就得到了一种新的表示方式——词嵌入。

词嵌入方式考虑了词与词之间的关联性，使每一个词不再独立，学习算法很容易学习到这种关联性，从而是算法泛化效果更好。

注意：尽管最终学习到的特征向量很难解释和理解，但是词嵌入确实提高了算法的泛化效果，让算法发现apple和orange会比king和orange或queen和orange更加相似。

2.如何理解词嵌入

嵌入的意思就是：假设在300维的特征空间中，每个词都被嵌入了300维空间的某个位置。

假设我们使用t-SNE算法（一种可视化算法），把这300维的数据嵌入到一个二维空间里，就发现man和woman这些词聚集在一块（上图编号1所示），king和queen聚集在一块（上图编号2所示），这些都是人也都聚集在一起（上图编号3所示）。动物都聚集在一起（上图编号4所示），水果也都聚集在一起（上图编号5所示），像1、2、3、4这些数字也聚集在一起（上图编号6所示）。如果把这些生物看成一个整体，他们也聚集在一起（上图编号7所示）。

把一个词通过词嵌入的方式嵌入到特种空间的某个位置，这样相似或者关系相近的词在空间中的距离也就越近，这比one-hot编码方式效果更好。

3.使用词嵌入

用词嵌入作为输入训练识别人名的模型，训练集假如有一个句子：“Sally Johnson is an orange farmer.”（Sally Johnson是一个种橙子的农民），训练完模型后，如果有新的输入：“Robert Lin is an apple farmer.”（Robert Lin是一个种苹果的农民），因为orange和apple关系很相近，那么算法很容易就知道Robert Lin也是一个人的名字。但是如果遇到：“Robert Lin is a durian cultivator.”（Robert Lin是一个榴莲培育家）怎么办？在训练集里可能没有durian（榴莲）或者cultivator（培育家）这两个词。

不用担心，由于学习词嵌入的算法会考察非常大的文本集，可以是1亿个单词，甚至达到100亿也都是合理的。通过考察大量的无标签文本，可以发现orange（橙子）和durian（榴莲）相近，farmer（农民）和cultivator（培育家）相近。因此尽管只有一个很小的训练集，但是可以使用迁移学习，然后把这些知识迁移到一个任务中。

使用词嵌入做迁移学习的步骤：