当前位置：首页 > article >正文

【Tensorflow】模型如何加载HDF文件数据集？

article 2025/2/26 4:37:29

如果每个样本都被保存为一个单独的 HDF5 文件，可以使用 `tf.data.Dataset.list_files` 函数来创建一个文件名数据集，然后使用 `tf.data.Dataset.interleave` 函数来并行读取多个文件。

下面的示例展示了如何从多个 HDF5 文件中读取数据并创建一个 `tf.data.Dataset` 对象：
import h5py
import tensorflow as tf

# 定义文件模式，假设三个数据集都在/dataset文件夹中
train_pattern = "/dataset/train/*.h5"
val_pattern = "/dataset/val/*.h5"
test_pattern = "/dataset/test/*.h5"

# 定义读取函数
def read_file(file):
with h5py.File(file.numpy(), "r") as f:
x = f["x"][()]
y = f["y"][()]
return x, y

def load_data(file):
x, y = tf.py_function(read_file, [file], [tf.float32, tf.float32])
return x, y

# 创建文件名数据集
train_files = tf.data.Dataset.list_files(train_pattern)
val_files = tf.data.Dataset.list_files(val_pattern)
test_files = tf.data.Dataset.list_files(test_pattern)

# 读取数据
train_dataset = train_files.interleave(
load_data,
cycle_length=tf.data.AUTOTUNE,
num_parallel_calls=tf.data.AUTOTUNE
)

val_dataset = val_files.interleave(
load_data,
cycle_length=tf.data.AUTOTUNE,
num_parallel_calls=tf.data.AUTOTUNE
)

test_dataset = test_files.interleave(
load_data,
cycle_length=tf.data.AUTOTUNE,
num_parallel_calls=tf.data.AUTOTUNE
)

# 打乱和批处理数据
train_dataset = train_dataset.shuffle(buffer_size=10000).batch(batch_size)
val_dataset = val_dataset.batch(batch_size)
test_dataset = test_dataset.batch(batch_size)

`interleave` 函数可以从多个数据集中交替地读取数据。在这个例子中，我们使用 `interleave` 函数来并行地从多个 HDF5 文件中读取数据。

`interleave` 函数的第一个参数是一个函数，它接受一个输入元素（在这个例子中是一个文件名），并返回一个新的 `Dataset` 对象。在这个例子中，我们定义了一个 `load_data` 函数，它接受一个文件名作为输入，然后使用 `h5py` 库来读取 HDF5 文件中的数据，并返回一个包含数据的 `Dataset` 对象。

`interleave` 函数的第二个参数 `cycle_length` 指定了同时打开的文件数。在这个例子中，我们将其设置为 `tf.data.AUTOTUNE`，这意味着 TensorFlow 会自动选择最佳的值。

`interleave` 函数的第三个参数 `num_parallel_calls` 指定了并行读取文件时使用的线程数。在这个例子中，我们将其设置为 `tf.data.AUTOTUNE`，这意味着 TensorFlow 会自动选择最佳的值。

shuffle 方法用于打乱数据集中的元素顺序。它接受一个参数 buffer_size，用于指定打乱顺序时使用的缓冲区大小。在这个例子中，我们将其设置为 10000，这意味着 TensorFlow 会在一个大小为 10000 的缓冲区中随机选择元素。

batch 方法用于将数据集中的元素分组成批。它接受一个参数 batch_size，用于指定每个批次中元素的数量。在这个例子中，我们使用了之前定义的变量 batch_size 来设置每个批次中元素的数量。

如何在创建模型的时候调参？

当你刚创建了模型还不确定超参数用什么好，如果您想使用贝叶斯优化来调整超参数，可以使用像 `scikit-optimize` 这样的库来实现。首先，安装 `scikit-optimize` 库， `pip install scikit-optimize` 。

下面是一个示例，展示了如何使用 `scikit-optimize` 库中的 `gp_minimize` 函数来调整学习率和批处理大小：
from skopt import gp_minimize
from skopt.space import Real, Integer
from skopt.utils import use_named_args

# 定义超参数空间
space = [
Real(1e-6, 1e-2, name='learning_rate', prior='log-uniform'),
Integer(8, 32,64,128, name='batch_size')
]

# 定义目标函数
@use_named_args(space)
def objective(learning_rate, batch_size):
# 模型
model = tf.keras.Sequential()
model.add(layers.Conv3D(32, kernel_size=(3, 3, 3), activation='relu', input_shape=(21, 21, 21, 20)))
model.add(layers.Conv3D(64, kernel_size=(3, 3, 3), activation='relu'))
model.add(layers.Conv3D(128, kernel_size=(3, 3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(1))

# 编译模型
optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
model.compile(loss='mean_squared_error', optimizer=optimizer)

# 训练模型
history = model.fit(
x_train,
y_train,
batch_size=batch_size,
epochs=epochs,
verbose=0,
validation_data=(x_test, y_test)
)

# 返回验证损失
return history.history['val_loss'][-1]

# 运行贝叶斯优化
res = gp_minimize(objective, space, n_calls=50)

# 输出最优超参数
print(f"Best parameters: {res.x}")

您可以根据您的需求进行相应的修改。

在上面的示例中，我们定义了一个目标函数 objective，它接受两个命名参数 learning_rate 和 batch_size。

然而，gp_minimize 函数期望目标函数接受一个位置参数，该参数是一个列表，包含所有超参数的值。

为解决这个问题，我们使用了 @use_named_args 装饰器。它接受一个参数 space，用于指定超参数空间。在这个例子中，我们将其设置为之前定义的超参数空间列表。

当使用 @use_named_args(space) 装饰目标函数时，它会自动将目标函数的参数从位置参数转换为命名参数。这样，就可以在目标函数中使用命名参数，而不必手动解包位置参数。