tf.Keras (tf-1.15)使用记录2-基于tf.keras.layers创建层
tf.keras.layers是keras的主要网络创建方法,里面已经有成熟的网络层,也可以通过继承的方式自定义神经网络层。
在keras的model定义中,为了保证所有对数据的操作都是可追溯、可保存、可反向传播,需要保证对数据的任何操作都是基于tf.keras.layers的父类的,否则模型就可能出问题。
1、使用tf.keras.layers自带的层
注意下面这些都是类,还需要实例化之后传入x,即layer(x)
Dense (全连接层)
layer = tf.keras.layers.Dense(units, activation=None, use_bias=True)
units
: 输出空间的维度(神经元数量)activation
: 激活函数,如 ‘relu’, ‘sigmoid’, ‘tanh’ 等use_bias
: 是否使用偏置项
Dropout
layer = tf.keras.layers.Dropout(rate, noise_shape=None, seed=None)
rate
: 需要丢弃的输入比例,范围在 0 到 1 之间noise_shape
: 可选,用于指定丢弃模式的形状seed
: 可选,用于设置随机种子
BatchNormalization
layer = tf.keras.layers.BatchNormalization(axis=-1, momentum=0.99, epsilon=0.001, center=True, scale=True)
axis
: 需要规范化的轴momentum
: 移动平均的动量epsilon
: 添加到方差的小数值,以避免除以零center
: 如果为True,则减去均值scale
: 如果为True,则乘以标准差的倒数
Embedding(返回值会增加一维)
Embedding 层用于将正整数(索引值)转换为固定大小的稠密向量。这种层通常用于处理文本数据,将单词映射为向量,这些向量更适合神经网络处理。
layer = tf.keras.layers.Embedding(input_dim, output_dim, embeddings_initializer='uniform', mask_zero=False)
input_dim
: 词汇表大小(最大整数索引 + 1)output_dim
: 嵌入向量的维度embeddings_initializer
: 嵌入矩阵的初始化方法mask_zero
: 是否将 0 视为需要屏蔽的特殊值- 注意,一般embedding都是第一层,传入input_length=n_features参数用来指示有几个整数特征用来被处理。使用示例:
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split
# 创建示例数据
n_samples = 1000
n_features = 5
max_value = 100
data = np.random.randint(0, max_value, size=(n_samples, n_features))
labels = np.random.randint(0, 2, size=(n_samples,))
df = pd.DataFrame(data, columns=[f'feature_{i}' for i in range(n_features)])
df['label'] = labels
# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop('label', axis=1), df['label'], test_size=0.2, random_state=42)
# 创建模型
model = tf.keras.Sequential([
tf.keras.layers.Embedding(input_dim=max_value, output_dim=32, input_length=n_features), # 输出 (None, 5, 32) ;参数量为100 * 32 * 5
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(64, activation='relu'),
tf.keras.layers.Dense(1, activation='sigmoid')
])
# 打印模型摘要
model.summary()
LSTM
layer = tf.keras.layers.LSTM(units, activation='tanh', recurrent_activation='sigmoid', use_bias=True, return_sequences=False)
units
: 输出空间的维度activation
: 激活函数recurrent_activation
: 循环步骤中使用的激活函数use_bias
: 是否使用偏置向量return_sequences
: 是否返回完整序列或仅返回最后一个输出
GRU
layer = tf.keras.layers.GRU(units, activation='tanh', recurrent_activation='sigmoid', use_bias=True, return_sequences=False)
参数含义与 LSTM 相同
Bidirectional (双向包装器)
layer = tf.keras.layers.Bidirectional(layer, merge_mode='concat')
layer
: 要包装的 RNN 层实例merge_mode
: 定义如何组合正向和反向 RNN 的输出,可以是 ‘sum’, ‘mul’, ‘concat’, ‘ave’ 等
LayerNormalization
layer = tf.keras.layers.LayerNormalization(axis=-1, epsilon=0.001, center=True, scale=True)
axis
: 要规范化的轴epsilon
: 添加到方差的小数值,以避免除以零center
: 如果为True,则减去均值scale
: 如果为True,则乘以标准差的倒数
除了上面的神经网络层,以下是一些常用的操作层,这些操作都默认不改变第一维度的batch_size:
Reshape
layer = tf.keras.layers.Reshape(target_shape) # target_shape是一个tuple
改变输入的形状,不改变数据。
import tensorflow as tf
import numpy as np
# 创建一个模型,将 (batch, 12) 的输入重塑为 (batch, 3, 4)
model = tf.keras.Sequential([
tf.keras.layers.Input(shape=(12,)),
tf.keras.layers.Reshape((3, 4))
])
# 测试模型
input_data = np.array([[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]])
output = model.predict(input_data)
print("Input shape:", input_data.shape) # Input shape: (1, 12)
print("Output shape:", output.shape) # Output shape: (1, 3, 4)
Flatten
layer = tf.keras.layers.Flatten()
将输入展平成一维。
Permute
layer = tf.keras.layers.Permute(dims)
按指定模式重排输入的维度,本质上是进行维度的交换,最常用的场景是对张量进行后两维度的转置,比如注意力计算中的K的转置。
import tensorflow as tf
import numpy as np
# 创建一个模型,将输入的维度从 (batch, dim1, dim2, dim3) 变为 (batch, dim3, dim1, dim2)
model = tf.keras.Sequential([
tf.keras.layers.Input(shape=(10, 20, 30)),
tf.keras.layers.Permute((3, 1, 2)) # 不会处理0维度因为是batchsize;123->321
])
# 测试模型
input_data = np.random.rand(1, 10, 20, 30)
output = model(input_data)
print("Input shape:", input_data.shape) # (1, 10, 20, 30)
print("Output shape:", output.shape) # (1, 30, 10, 20)
RepeatVector
layer = tf.keras.layers.RepeatVector(n)
重复输入 n 次。在batch后面增加一维度n,把整个向量都重复n遍。
Lambda
layer = tf.keras.layers.Lambda(function)
封装任意表达式为 Keras 层;这个函数非常有意思,可以把很多数学运算直接封装成tf.keras的layers,例如:
# 将输入乘以2
layer1 = tf.keras.layers.Lambda(lambda x: x * 2)
# 自定义一个激活函数
def custom_activation(x):
return tf.nn.tanh(x) * tf.nn.sigmoid(x)
layer2 = tf.keras.layers.Lambda(custom_activation)
# 将2D输入转换为3D
layer3 = tf.keras.layers.Lambda(lambda x: tf.expand_dims(x, axis=-1))
# 复杂操作
def complex_operation(x):
# 假设x是一个2D张量
mean = tf.reduce_mean(x, axis=-1, keepdims=True)
centered = x - mean
return tf.nn.l2_normalize(centered, axis=-1)
layer4 = tf.keras.layers.Lambda(complex_operation)
# 待参数的函数
def parameterized_function(x, a):
return x * a
layer5 = tf.keras.layers.Lambda(lambda x: parameterized_function(x, a=0.5))
# 处理多个输入
layer6 = tf.keras.layers.Lambda(lambda inputs: inputs[0] * inputs[1])
Concatenate
layer = tf.keras.layers.Concatenate(axis=-1)
沿指定轴连接一系列输入。
Add
layer = tf.keras.layers.Add()
计算输入的和。
Subtract
layer = tf.keras.layers.Subtract()
计算两个输入的差。
Multiply
layer = tf.keras.layers.Multiply()
计算输入的元素级乘积。
Average
layer = tf.keras.layers.Average()
计算输入的平均值。
Maximum
layer = tf.keras.layers.Maximum()
计算输入的逐元素最大值。
Minimum
layer = tf.keras.layers.Minimum()
计算输入的逐元素最小值。
2、自定义自己的层
注意需要继承tf.keras.layers.Layer父类,以及注意传入**kwargs关键字参数。
1)自定义一个dense层
self.add_weight方法是用来初始化模型参数的。
import tensorflow as tf
class MyDenseLayer(tf.keras.layers.Layer):
def __init__(self, num_outputs, activation=None, **kwargs):
super(MyDenseLayer, self).__init__(**kwargs)
self.num_outputs = num_outputs
self.activation = tf.keras.activations.get(activation)
def build(self, input_shape):
self.w = self.add_weight("kernel",
shape=[int(input_shape[-1]),
self.num_outputs])
self.b = self.add_weight("bias",
shape=[self.num_outputs,],
initializer='zeros')
def call(self, input):
z = tf.matmul(input, self.w) + self.b
return self.activation(z) if self.activation else z
# 使用自定义层创建模型
model = tf.keras.Sequential([
MyDenseLayer(32, activation='relu', input_shape=(222,)), # 注意这个input必须指定
MyDenseLayer(64, activation='relu'),
tf.keras.layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()
2)自定义一个单调层(mixing net)和一个重复层
call函数的输入inputs就是固定的,build函数每次实例化只调用一次。
class MonoDense(tf.keras.layers.Layer):
def __init__(self, output_dim, activation='elu', is_b=True, **kwargs):
super(MonoDense, self).__init__(**kwargs)
self.activation = tf.keras.activations.get(activation)
self.output_dim = output_dim
self.is_b = is_b
print('monotonic model initial!')
def build(self, input_shape):
# 确保输入是一个包含三个元素的列表
assert isinstance(input_shape, list) and len(input_shape) >= 2
def call(self, inputs):
if self.is_b:
inputs_x, inputs_w, inputs_b =inputs[0], inputs[1], inputs[2]
input_shape = tf.shape(inputs_x)
self.input_dim = input_shape[1]
self.batch_size = input_shape[0]
# print(self.batch_size, self.input_dim, self.output_dim)
w = tf.reshape(inputs_w, [self.batch_size, self.input_dim, self.output_dim])
# print(inputs)
b = tf.reshape(inputs_b, [self.batch_size, 1, self.output_dim])
# print(inputs)
inputs_x = tf.reshape(inputs_x, [self.batch_size, 1, self.input_dim])
output = tf.matmul(inputs_x, tf.maximum(w, 0)) + b
output2 = tf.reshape(output, [self.batch_size, self.output_dim])
else:
inputs_x, inputs_w=inputs[0], inputs[1]
input_shape = tf.shape(inputs_x)
self.input_dim = input_shape[1]
self.batch_size = input_shape[0]
# print(self.batch_size, self.input_dim, self.output_dim)
w = tf.reshape(inputs_w, [self.batch_size, self.input_dim, self.output_dim])
# print(inputs)
inputs_x = tf.reshape(inputs_x, [self.batch_size, 1, self.input_dim])
output = tf.matmul(inputs_x, tf.maximum(w, 0))
output2 = tf.reshape(output, [self.batch_size, self.output_dim])
return self.activation(output2)
class RepeatToMatrixLayer(tf.keras.layers.Layer):
def __init__(self, n, max_t, **kwargs):
super(RepeatToMatrixLayer, self).__init__(**kwargs)
self.n = n
self.max_t = max_t
def call(self, inputs):
inputs2 = tf.reshape(inputs, [-1])
return (tf.tile(tf.expand_dims(inputs2, axis=-1), [1, self.n]) + 1) / (self.max_t + 1) # 做了一个归一化处理
layer1 = RepeatToMatrixLayer(16, 32, name='my_repeat_layer')
layer2 = MonoDense(64, activation='tanh', name='my_z_with_t', is_b=True) # 这里的激活函数比较重要