
作者: fchollet

import numpy as np
import tensorflow as tf
from tensorflow import keras
  1. 從先前訓練的模型中取得層。
  2. 凍結它們,以避免在未來的訓練回合中破壞它們包含的任何資訊。
  3. 在凍結層的頂部新增一些新的可訓練層。它們將學習將舊特徵轉化為新資料集的預測。
  4. 在您的資料集上訓練新層。


首先,我們將詳細介紹 Keras 可訓練 API,它是大多數遷移學習和微調工作流程的基礎。

接著,我們將示範典型的工作流程,方法是取用在 ImageNet 資料集上預訓練的模型,並在 Kaggle「貓 vs 狗」分類資料集上重新訓練它。

這改編自《Deep Learning with Python》和 2016 年的部落格文章「building powerful image classification models using very little data」。

凍結層:瞭解 trainable 屬性


  • weights 是層的所有權重變數的清單。
  • trainable_weights 是那些旨在更新(透過梯度下降)以在訓練期間最小化損失的清單。
  • non_trainable_weights 是那些不打算訓練的清單。通常它們在正向傳遞期間由模型更新。

範例:Dense 層有 2 個可訓練權重(核心和偏差)

layer = keras.layers.Dense(3)
layer.build((None, 4))  # Create the weights

print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 2
trainable_weights: 2
non_trainable_weights: 0
一般來說,所有權重都是可訓練權重。唯一具有非可訓練權重的內建層是 BatchNormalization 層。它使用非可訓練權重來追蹤其輸入在訓練期間的平均值和變異數。若要學習如何在您自己的自訂層中使用非可訓練權重,請參閱從頭開始編寫新層的指南

範例:BatchNormalization 層有 2 個可訓練權重和 2 個非可訓練權重

layer = keras.layers.BatchNormalization()
layer.build((None, 4))  # Create the weights

print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 4
trainable_weights: 2
non_trainable_weights: 2

層和模型也具有布林屬性 trainable。其值可以變更。將 layer.trainable 設定為 False 會將層的所有權重從可訓練移至非可訓練。這稱為「凍結」層:凍結層的狀態在訓練期間不會更新(無論是使用 fit() 進行訓練,還是使用任何依賴 trainable_weights 來套用梯度更新的自訂迴圈進行訓練)。

範例:將 trainable 設定為 False

layer = keras.layers.Dense(3)
layer.build((None, 4))  # Create the weights
layer.trainable = False  # Freeze the layer

print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 2
trainable_weights: 0
non_trainable_weights: 2


# Make a model with 2 layers
layer1 = keras.layers.Dense(3, activation="relu")
layer2 = keras.layers.Dense(3, activation="sigmoid")
model = keras.Sequential([keras.Input(shape=(3,)), layer1, layer2])

# Freeze the first layer
layer1.trainable = False

# Keep a copy of the weights of layer1 for later reference
initial_layer1_weights_values = layer1.get_weights()

# Train the model
model.compile(optimizer="adam", loss="mse")
model.fit(np.random.random((2, 3)), np.random.random((2, 3)))

# Check that the weights of layer1 have not changed during training
final_layer1_weights_values = layer1.get_weights()
    initial_layer1_weights_values[0], final_layer1_weights_values[0]
    initial_layer1_weights_values[1], final_layer1_weights_values[1]
1/1 [==============================] - 0s 324ms/step - loss: 0.0178

請勿將 layer.trainable 屬性與 layer.__call__() 中的引數 training 混淆(它控制層是否應以推論模式或訓練模式執行其正向傳遞)。如需更多資訊,請參閱 Keras 常見問題

遞迴設定 trainable 屬性

如果您在模型或任何具有子層的層上設定 trainable = False,則所有子層也會變成非可訓練。


inner_model = keras.Sequential(
        keras.layers.Dense(3, activation="relu"),
        keras.layers.Dense(3, activation="relu"),

model = keras.Sequential(
        keras.layers.Dense(3, activation="sigmoid"),

model.trainable = False  # Freeze the outer model

assert inner_model.trainable == False  # All layers in `model` are now frozen
assert inner_model.layers[0].trainable == False  # `trainable` is propagated recursively


這引導我們瞭解如何在 Keras 中實作典型的遷移學習工作流程

  1. 實例化基礎模型並將預訓練權重載入其中。
  2. 透過設定 trainable = False 來凍結基礎模型中的所有層。
  3. 在基礎模型中一個(或多個)層的輸出之上建立新模型。
  4. 在您的新資料集上訓練您的新模型。


  1. 實例化基礎模型並將預訓練權重載入其中。
  2. 透過它執行您的新資料集,並記錄基礎模型中一個(或多個)層的輸出。這稱為特徵擷取
  3. 將該輸出用作新且較小模型的輸入資料。



以下是第一個工作流程在 Keras 中的樣子


base_model = keras.applications.Xception(
    weights='imagenet',  # Load weights pre-trained on ImageNet.
    input_shape=(150, 150, 3),
    include_top=False)  # Do not include the ImageNet classifier at the top.


base_model.trainable = False


inputs = keras.Input(shape=(150, 150, 3))
# We make sure that the base_model is running in inference mode here,
# by passing `training=False`. This is important for fine-tuning, as you will
# learn in a few paragraphs.
x = base_model(inputs, training=False)
# Convert features of shape `base_model.output_shape[1:]` to vectors
x = keras.layers.GlobalAveragePooling2D()(x)
# A Dense classifier with a single unit (binary classification)
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)


model.fit(new_dataset, epochs=20, callbacks=..., validation_data=...)



這是一個可選的最後步驟,可以潛在地為您帶來漸進式的改進。它也可能潛在地導致快速過度擬合 — 請記住這一點。




# Unfreeze the base model
base_model.trainable = True

# It's important to recompile your model after you make any changes
# to the `trainable` attribute of any inner layer, so that your changes
# are take into account
model.compile(optimizer=keras.optimizers.Adam(1e-5),  # Very low learning rate

# Train end-to-end. Be careful to stop before you overfit!
model.fit(new_dataset, epochs=10, callbacks=..., validation_data=...)

關於 compile()trainable 的重要注意事項

在模型上呼叫 compile() 旨在「凍結」該模型的行為。這表示模型編譯時的 trainable 屬性值應在該模型的整個生命週期中保留,直到再次呼叫 compile 為止。因此,如果您變更任何 trainable 值,請務必再次在您的模型上呼叫 compile(),以使您的變更生效。

關於 BatchNormalization 層的重要注意事項

許多影像模型都包含 BatchNormalization 層。該層在所有可想像的方面都是特例。以下是一些需要記住的事項:

  • BatchNormalization 包含 2 個在訓練期間更新的非可訓練權重。這些是追蹤輸入的平均值和變異數的變數。
  • 當您設定 bn_layer.trainable = False 時,BatchNormalization 層將在推論模式下執行,並且不會更新其平均值和變異數統計資訊。一般來說,其他層並非如此,因為權重可訓練性與推論/訓練模式是兩個正交概念。但這兩者在 BatchNormalization 層的情況下是相關聯的。
  • 當您解凍包含 BatchNormalization 層的模型以進行微調時,您應該透過在呼叫基礎模型時傳遞 training=False,使 BatchNormalization 層保持在推論模式。否則,套用至非可訓練權重的更新將突然破壞模型已學到的內容。



如果您使用的是自己的低階訓練迴圈而不是 fit(),則工作流程基本上保持不變。在套用梯度更新時,您應注意僅考慮清單 model.trainable_weights

# Create base model
base_model = keras.applications.Xception(
    input_shape=(150, 150, 3),
# Freeze base model
base_model.trainable = False

# Create new model on top.
inputs = keras.Input(shape=(150, 150, 3))
x = base_model(inputs, training=False)
x = keras.layers.GlobalAveragePooling2D()(x)
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

loss_fn = keras.losses.BinaryCrossentropy(from_logits=True)
optimizer = keras.optimizers.Adam()

# Iterate over the batches of a dataset.
for inputs, targets in new_dataset:
    # Open a GradientTape.
    with tf.GradientTape() as tape:
        # Forward pass.
        predictions = model(inputs)
        # Compute the loss value for this batch.
        loss_value = loss_fn(targets, predictions)

    # Get gradients of loss wrt the *trainable* weights.
    gradients = tape.gradient(loss_value, model.trainable_weights)
    # Update the weights of the model.
    optimizer.apply_gradients(zip(gradients, model.trainable_weights))


端對端範例:在貓 vs. 狗資料集上微調影像分類模型

為了鞏固這些概念,讓我們引導您完成一個具體的端對端遷移學習和微調範例。我們將載入在 ImageNet 上預訓練的 Xception 模型,並在 Kaggle「貓 vs. 狗」分類資料集上使用它。


首先,讓我們使用 TFDS 擷取貓 vs. 狗資料集。如果您有自己的資料集,您可能會想要使用公用程式 keras.utils.image_dataset_from_directory,從磁碟上歸檔到類別特定資料夾的一組影像中產生類似的標籤資料集物件。

當使用非常小的資料集時,遷移學習最有用。為了保持我們的資料集小巧,我們將使用原始訓練資料 (25,000 張影像) 的 40% 進行訓練,10% 進行驗證,以及 10% 進行測試。

import tensorflow_datasets as tfds


train_ds, validation_ds, test_ds = tfds.load(
    # Reserve 10% for validation and 10% for test
    split=["train[:40%]", "train[40%:50%]", "train[50%:60%]"],
    as_supervised=True,  # Include labels

print("Number of training samples: %d" % tf.data.experimental.cardinality(train_ds))
    "Number of validation samples: %d" % tf.data.experimental.cardinality(validation_ds)
print("Number of test samples: %d" % tf.data.experimental.cardinality(test_ds))
Number of training samples: 9305
Number of validation samples: 2326
Number of test samples: 2326

這些是訓練資料集中的前 9 張影像 — 如您所見,它們的大小都不同。

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 10))
for i, (image, label) in enumerate(train_ds.take(9)):
    ax = plt.subplot(3, 3, i + 1)


我們也可以看到標籤 1 是「狗」,標籤 0 是「貓」。


我們的原始影像具有各種大小。此外,每個像素由介於 0 到 255 之間的 3 個整數值(RGB 層級值)組成。這不太適合饋送神經網路。我們需要做 2 件事

  • 標準化為固定的影像大小。我們選擇 150x150。
  • 將像素值正規化在 -1 和 1 之間。我們將使用 Normalization 層作為模型本身的一部分來執行此操作。

一般來說,開發以原始資料作為輸入的模型是一種好的做法,而不是開發以已預處理資料作為輸入的模型。原因是,如果您的模型預期預處理資料,則每次您匯出模型以在其他地方(在 Web 瀏覽器、行動應用程式中)使用它時,您都需要重新實作完全相同的預處理管線。這很快就會變得非常棘手。因此,我們應該在接觸模型之前執行盡可能少的預處理量。


讓我們將影像大小調整為 150x150

size = (150, 150)

train_ds = train_ds.map(lambda x, y: (tf.image.resize(x, size), y))
validation_ds = validation_ds.map(lambda x, y: (tf.image.resize(x, size), y))
test_ds = test_ds.map(lambda x, y: (tf.image.resize(x, size), y))


batch_size = 32

train_ds = train_ds.cache().batch(batch_size).prefetch(buffer_size=10)
validation_ds = validation_ds.cache().batch(batch_size).prefetch(buffer_size=10)
test_ds = test_ds.cache().batch(batch_size).prefetch(buffer_size=10)



from tensorflow import keras
from tensorflow.keras import layers

data_augmentation = keras.Sequential(


import numpy as np

for images, labels in train_ds.take(1):
    plt.figure(figsize=(10, 10))
    first_image = images[0]
    for i in range(9):
        ax = plt.subplot(3, 3, i + 1)
        augmented_image = data_augmentation(
            tf.expand_dims(first_image, 0), training=True
  • 我們新增 Rescaling 層以將輸入值(最初在 [0, 255] 範圍內)縮放至 [-1, 1] 範圍。
  • 我們在分類層之前新增 Dropout 層,以進行正規化。
  • 我們確保在呼叫基礎模型時傳遞 training=False,使其在推論模式下執行,以便即使在我們解凍基礎模型以進行微調後,batchnorm 統計資訊也不會更新。
base_model = keras.applications.Xception(
    weights="imagenet",  # Load weights pre-trained on ImageNet.
    input_shape=(150, 150, 3),
)  # Do not include the ImageNet classifier at the top.

# Freeze the base_model
base_model.trainable = False

# Create new model on top
inputs = keras.Input(shape=(150, 150, 3))
x = data_augmentation(inputs)  # Apply random data augmentation

# Pre-trained Xception weights requires that input be scaled
# from (0, 255) to a range of (-1., +1.), the rescaling layer
# outputs: `(inputs * scale) + offset`
scale_layer = keras.layers.Rescaling(scale=1 / 127.5, offset=-1)
x = scale_layer(x)

# The base model contains batchnorm layers. We want to keep them in inference mode
# when we unfreeze the base model for fine-tuning, so we make sure that the
# base_model is running in inference mode here.
x = base_model(x, training=False)
x = keras.layers.GlobalAveragePooling2D()(x)
x = keras.layers.Dropout(0.2)(x)  # Regularize with dropout
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/xception/xception_weights_tf_dim_ordering_tf_kernels_notop.h5
83683744/83683744 [==============================] - 0s 0us/step
Model: "model"
 Layer (type)                Output Shape              Param #   
 input_5 (InputLayer)        [(None, 150, 150, 3)]     0         
 sequential_3 (Sequential)   (None, 150, 150, 3)       0         
 rescaling (Rescaling)       (None, 150, 150, 3)       0         
 xception (Functional)       (None, 5, 5, 2048)        20861480  
 global_average_pooling2d (  (None, 2048)              0         
 dropout (Dropout)           (None, 2048)              0         
 dense_7 (Dense)             (None, 1)                 2049      
Total params: 20863529 (79.59 MB)
Trainable params: 2049 (8.00 KB)
Non-trainable params: 20861480 (79.58 MB)



epochs = 20
model.fit(train_ds, epochs=epochs, validation_data=validation_ds)
在 10 個週期後,微調在此處為我們帶來了不錯的改進。