何謂 TensorFlow 模型補救?

如果您已發現機器學習模型有公平性疑慮,則有三種主要的技術介入措施可供採用

  • 訓練資料預先處理技術:收集更多資料、產生合成資料、調整範例的權重,以及不同分片的取樣率。
  • 訓練時間建模技術:透過導入或變更模型目標及新增限制條件來變更模型本身。
  • 訓練後技術:修改模型的輸出或輸出的解讀方式,以提升各項指標的效能。
TensorFlow 模型補救程式庫提供訓練時間技術,以介入模型。

訓練時間建模

TensorFlow 模型補救程式庫提供兩種技術來解決模型中的偏差和公平性問題:MinDiff反事實對數機率配對 (CLP)。下表將說明這兩種技術。

MinDiff CLP
何時應使用這項技術?

確保模型針對敏感屬性的所有值,都能同等準確地預測偏好的標籤。

達成群體機會均等

確保模型的預測在「反事實配對」(其中特徵中參照的敏感屬性不同)之間不會改變。例如,在有害內容分類器中,「我是男人」和「我是女同志」等範例不應有不同的預測。

達成某種形式的反事實公平性

運作方式為何? 在訓練期間,針對兩組之間分數分佈的差異懲罰模型。 在訓練期間,針對反事實範例配對之間的輸出差異懲罰模型。
輸入模式 損失函數在輸出端運作,因此理論上與輸入和模型架構無關。 損失函數在輸出端運作,因此理論上與輸入和模型架構無關。