【Python机器学习】循环神经网络(RNN)——审察模型内部情况
Keras附带了一些工具,比如model.summary(),用于审察模型内部情况。随着模型变得越来越复杂,我们需要经常使用model.summary(),否则在调整超参数时跟踪模型内部的内容的变化情况会变得非常费力。如果我们将模型的摘要以及验证的测试结果记录在超参数调优日志中,那将对以后的工作非常有帮助。
我们甚至可以实现大部分工作的自动化,将一些枯燥的记录工作交给机器来完成:
model.compile('rmsprop','binary_crossentropy',metrics=['accuracy'])
model.summary()
这个循环神经网络相对较小,但是这里还是正在学习37551个参数,这对20000个训练样本来说需要更新的权重太多了。
在SimpleRNN层中,需要50个神经元,每个神经元都将接收输入(并对每个输入样本应用一个权重)。在一个循环神经网络中,每个时刻的输入都是一个词条。在本例中,词条由词向量表示,每个向量有300个元素长(300维)。每个神经元需要300个权重:300*50=15 000。
每个神经元也有一个偏置项,它的输入值总是1,所以可训练的权重:15000+50(偏置权重)=15050。
第一层第一时刻的权重数量为15050。现在这50个神经元中的每一个都将把它的输出输入网络的下一时刻。每个神经元接受完整的输入向量和完整的输出向量。在第一个时刻,还不存在来自输出的反馈,所以它的初始值是0向量,它的长度与输出向量的长度相同。
隐藏层中的每个神经元现在都有每个词条嵌入维度的权重,即300个权重,每个神经元也有1个偏置,在前一个时刻(或第一个t=0时刻的0)中,输出结果有50个权重。这50个权重是循环神经网络中的关键反馈步骤。这给了我们300+1+50=351*50个神经元得到351*50=17550。
17550个需要训练的参数。我们展开这个网络的400次。然而,这17550个参数在每次展开时都是相同的,并且在所有的反向传播计算完毕之前,它们都是相同的。对权重的更新发生在前向传播和后续反向传播序列的末尾。虽然我们给反向传播算法增加了复杂度,但是我们也因此没有去训练一个参数超过700万(17550*400)个的网络。如果每个展开的网络都有自己的权重,那么情况就会很糟糕。
总体来说,最后一次有20001个参数需要训练,这计算起来相对简单。在Flatten()层之后,输入是一个20000维的向量加入一个偏置输入,因为在输出层只有一个神经元,所以参数的总数是:
(20000个输入元素+1个偏置单元)*1个神经元=20001个参数。
这些数字在计算时间上可能会有一点误导,因为随时间反向传播算法有很多额外的步骤。计算时间不应该称为它的主要壁垒。循环网络在记忆能力方面的特殊优势是进入包括NLP或所有其他序列数据的更大世界的起点。