当前位置：首页 > article >正文

【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记）

article 2025/4/2 20:08:48

Machine Translation Data

做机器学习任务的第一步都是处理数据，我们首先需要准备机器翻译的数据。
由于我们是学习用途，因此拿一个小规模数据集即可：http://www.manythings.org/anki/
下面的数据集中：一个英语句子对应多个德语句子，如果翻译的时候能命中其中的一个则算作完全正确。

1. Preprocessing

将大写全部转化为小写
去掉标点符号

2. Tokenization & Build Dictionary

我们分别需要两个Tokenizer，一个英语Tokenizer和一个德语Tokenizer
英语的text最后经过英语Tokenizer转化为 input_tokens
德语的text经过德语Tokenizer转化为target_tokens
在Tokenization后需要建立两个字典，一个英语字典和一个德语字典
Tokenization既可以是char-level的，也可以是word-level的
本节课使用的是char-level的Tokenization
但是实际的机器翻译都是用word-level的，因为它们的数据集足够大

Question:为什么要用两个不同的Tokenizer？
答案是在char-level中，语言有不同的char，如下图所示：英语和德语的char总数并不相同，希腊语也类似：

而在word-level的情况下则更需要两个了，原因是：①词汇完全不一样。②分词方法不同。
下面是经过Tokenizaion后的字典：其中 \t 是起始符，\n是终止符。选用其他的字符也行，只要不和已有的冲突即可。

3. One-Hot Encoding

经过上面的Tokenize后，我们可以将一段text通过字典转化为一个个数
接下来我们把每一个数字用一个One-Hot向量表示如下：

Training the Seq2Seq Model

LSTM Encode用于提取输入英文文本的信息，它将这句话的最后状态信息作为输入传到LSTM Decoder
LSTM Decoder用于生成德语，这其实就是上节课讲到的文本生成器，只不过区别在于这里的文本生成器的初始向量为LSTM Encoder，接受了输入的英语文本的特征作为初始状态，Decoder通过被输入的这个状态来指导这句英语是 go away
LSTM Decoder作为一个文本翻译器，那么它需要每次接受一个输入，然后输出对下一个字符的预测。
LSTM Decoder第一个输入必须是起始符，这也是为什么需要定义一个起始符的原因
起始符后面预测的字母为m，我们对m作One-Hot Encoding，作为标签y和预测的概率p一起传入交叉熵损失函数，我们希望p尽量接近y，所以损失越小越好。这样我们就可以利用反向传播计算梯度，梯度会传到Decoder，然后顺着Decoder传到Encoder，利用梯度下降即可更新Decoder和Encoder的参数。
我们不断重复这个过程，直到这句德语被预测完

在这里插入图片描述

Seq2Seq Model in Keras

最后对Dense作反向传播的时候可以顺着这张图的链路一直传到Encoder和Decoder
在这里插入图片描述

Inference

在预测时，我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。
而Decoder则是从 \t（起始符）开始对整句德语进行预测，过程和上节课讲到的文本生成器一致，直到遇到终止符 \n。

Summary

在这里插入图片描述

How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)

Encoder对一个句子只取最后的那个状态向量，最后的状态向量包含句子的所有信息
如果句子很长的话就会导致遗忘，导致传入的英语文本信息不全导致遗漏
可以想到用双向LSTM来增加LSTM的记忆力
注意Decoder不能用双向，由于文本生成任务的原因，Decoder只能单向

2. Word-level Tokenization

本节课用的时char-level比较方便，但是会导致一个句子比较长，容易导致LSTM的遗忘
如果用word-level的话，token的长度会缩短四到五倍，比较容易避免遗忘
但是这样的话需要一个额外的Embedding层，这样就需要大量的数据来对Embedding层的参数进行训练
若训练数据不够而Embedding层的参数又过多就会导致过拟合，这样就还可能需要额外的预训练

3. Multi-Task Learning

在任务里多加一个训练从英语到英语的任务，这样在数据量不变的情况下，可训练的数据就多了一倍，这样Encoder会被训练得更好
还可以增加更多的任务，比如训练英语到其他语言的翻译，虽然增加了更多Decoder，而且德语Decoder没有改进，但是Encoder只有一个，这样可以更好的训练Encoder。翻译效果还是会提升。

4. Attention

下节课！

http://www.kler.cn/a/284123.html

相关文章：

springboot读取文件

高级java每日一道面试题-2024年8月31日-框架篇[Spring篇]-你对Spring事务传播机制了解多少?

Docker 修改镜像源

利用 Web 浏览器构建 Java Media Player

jetsonNano烧录Ubuntu20.04镜像使用ROS2

【Java设计模式】装饰器模式：动态扩展类的功能

Hadoop生态圈（一）

《高等代数》范德蒙德行列式的证明

深拷贝与浅拷贝的区别

工业软件架构4:(QT和C++实现)

视频和音频合成视频Easy_Wav2Lip

ROS - Turtle Nest 使用说明

机器学习/数据分析案例---糖尿病预测

Java基础——IO概述

Java算法之快速排序（Quick Sort）

服务器机柜与网络机柜的区别有哪些？

耦合和内聚

redis集群部署

集成电路学习：什么是DAC数模转换器

Maven ＜parent＞标签的作用及使用详解