TensorFlow是深度学习领域中广泛使用的框架。其中常见的操作之一是将数据分成小批次进行训练,称为'Batching”。Tensorflow1和Tensorflow2的Batching方式略有不同。
在Tensorflow1中,通常使用tf.train.shuffle_batch()
方法从文件中读取数据进行Batching。示例代码:
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
filename = ["file1.tfrecord", "file2.tfrecord"]
dataset = tf.data.TFRecordDataset(filename)
# 对数据进行解码操作等处理
dataset = dataset.map(parse_function)
batch_size = 32
# 把数据打乱后分成指定大小的batch
dataset = dataset.shuffle(buffer_size=1000).batch(batch_size)
iterator = dataset.make_initializable_iterator()
x, y = iterator.get_next()
with tf.Session() as sess:
sess.run(iterator.initializer)
print(sess.run([x, y]))
在Tensorflow2中,可以使用tf.data.Dataset
完成数据读取和Batching的操作。示例代码:
import tensorflow as tf
import numpy as np
# 生成样例数据
x = np.random.sample((100, 2))
y = 3 * x[:, 0] + 4 * x[:, 1]
# 把数据分成batch
train_dataset = tf.data.Dataset.from_tensor_slices((x, y)).shuffle(1000).batch(32)
# 对数据进行预处理,如shuffle、map等操作
train_dataset = train_dataset.map(lambda x, y: (x, tf.reshape(y, [-1, 1])))
# 定义模型
model = tf.keras.Sequential([
tf.keras.layers.Dense(16, activation='relu', input_shape=(2,)),
tf.keras.layers.Dense(1)
])
model.compile(optimizer=tf.keras.optimizers.SGD(0.2), loss='mse')
# 训练模型
model.fit(train_dataset, epochs=5)
可以看到,Tensorflow2相对于Tensorflow1的改进,使得代码变得更加简洁易懂,而且对于更加复杂的数据预处理等操作,也提供了更加灵活的处理方式。