「公平性指標」是評估二元和多類別分類器公平性的實用工具。最終,我們希望與大家合作擴展此工具,以評估更多考量因素。
請記住,量化評估只是評估更廣泛使用者體驗的一部分。首先思考使用者可能會體驗到您產品的不同情境。您的產品預期服務哪些不同類型的使用者?還有哪些人可能會受到體驗的影響?
在考量 AI 對人們的影響時,務必始終記住,人類社會極其複雜!瞭解人們及其社會身分、社會結構和文化體系本身就是廣闊的開放研究領域。再加上全球各地跨文化差異的複雜性,甚至要初步瞭解社會影響都可能具有挑戰性。在可能的情況下,建議您諮詢適當的領域專家,其中可能包括社會科學家、社會語言學家和文化人類學家,以及技術將部署的族群成員。
例如,單一模型 (例如我們在範例 Colab 中使用的有害內容模型) 可在許多不同情境中使用。在網站上部署有害內容模型以過濾冒犯性留言,與在範例網頁 UI 中部署模型 (使用者可在其中輸入句子並查看模型給出的分數) 是非常不同的使用案例。根據使用案例,以及使用者體驗模型預測的方式,您的產品將具有不同的風險、影響和機會,而且您可能想要評估不同的公平性問題。
以上問題是您在設計和開發以 ML 為基礎的產品時,可能想要考量的道德因素 (包括公平性) 的基礎。這些問題也激發了您應該使用哪些指標以及哪些使用者群組來評估工具。
在深入探討之前,以下是三個建議的入門資源
- 「People + AI Guidebook」,適用於以人為本的 AI 設計: 本指南是針對設計以機器學習為基礎的產品時,要牢記的問題和面向的絕佳資源。雖然我們在建立本指南時是以設計師為出發點,但許多原則將有助於解答上述問題。
- 「Our Fairness Lessons Learned」: 這場在 Google I/O 的演講討論了我們在建立和設計具包容性產品的目標中所學到的經驗。
- 「ML Crash Course: Fairness」: ML Crash Course 有 70 分鐘的章節專門介紹如何識別和評估公平性問題
那麼,為何要查看個別切片?針對個別切片進行評估非常重要,因為強大的整體指標可能會掩蓋某些群組的效能不佳。同樣地,在特定指標 (準確度、AUC) 方面表現良好,並不一定能轉化為其他指標 (假陽性率、假陰性率) 的可接受效能,而這些指標在評估使用者的機會和危害方面同樣重要。
以下章節將逐步說明一些需要考量的面向。
我應該依哪些群組進行切片?
一般而言,良好的做法是盡可能依可能受您產品影響的群組進行切片,因為您永遠不知道效能何時可能會因其他群組而異。但是,如果您不確定,請思考可能與您的產品互動的不同使用者,以及他們可能受到的影響。尤其要考量與種族、族裔、性別、國籍、收入、性取向和身心障礙狀態等敏感特徵相關的切片。
如果我沒有針對想要調查的切片標記的資料,該怎麼辦?
好問題。我們知道許多資料集沒有針對個別身分屬性的真實標籤。
如果您發現自己處於這種情況,我們建議以下幾種方法
- 判斷您是否有屬性可以讓您深入瞭解跨群組的效能。例如,地理位置雖然不等同於族裔和種族,但可能有助於您發現效能方面的任何不同模式
- 判斷是否有具代表性的公開資料集可能與您的問題非常吻合。您可以在Google AI 網站上找到一系列多元且具包容性的資料集,其中包括 「Project Respect」、「Inclusive Images」 和 「Open Images Extended」 等。
- 在相關情況下,運用規則或分類器來標記您的資料,並加上客觀的表面層級屬性。例如,您可以標記文字,以判斷句子中是否有身分詞彙。請記住,分類器有其自身的挑戰,如果您不小心,也可能會引入另一層偏差。請清楚說明您的分類器實際分類的內容。例如,影像上的年齡分類器實際上是在分類感知年齡。此外,在可能的情況下,請運用可以在資料中客觀識別的表面層級屬性。例如,建立種族或族裔的影像分類器是不明智的,因為這些不是可以在影像中定義的視覺特徵。分類器可能會接收代理或刻板印象。相反地,建立膚色分類器可能是標記和評估影像的更適當方式。最後,請確保標記此類屬性的分類器具有高準確度。
- 尋找更多已標記的代表性資料
務必確保在多個不同的資料集上進行評估。
如果您的評估資料無法充分代表您的使用者群,或可能遇到的資料類型,您最終可能會得到具有欺騙性的良好公平性指標。同樣地,一個資料集上的高模型效能並不能保證在其他資料集上的高效能。
請記住,子群組並不總是將個人分類的最佳方式。
人們是多面向的,即使在單一維度內,也屬於多個群組 - 以跨種族或屬於多個種族群組的人為例。此外,雖然給定種族群組的整體指標看起來可能公平,但特定的互動 (例如種族和性別結合) 可能會顯示非預期的偏差。此外,許多子群組的界線模糊不清,而且不斷被重新劃定。
我何時測試了足夠的切片?以及我如何知道要測試哪些切片?
我們承認,可能有大量群組或切片與測試相關,在可能的情況下,我們建議對各種不同的切片進行切片和評估,然後深入探討您發現有改進機會的地方。同樣重要的是要承認,即使您可能沒有在已測試的切片上看到問題,這並不表示您的產品適用於所有使用者,而且取得多元的使用者意見回饋和測試對於確保您不斷識別新的機會非常重要。
若要開始使用,我們建議您思考您的特定使用案例以及使用者可能與您的產品互動的不同方式。不同的使用者可能會有哪些不同的體驗?這對您應該評估的切片有何意義?從不同的使用者收集意見回饋也可能會突顯出需要優先處理的潛在切片。
我應該選擇哪些指標?
在選擇要評估系統的哪些指標時,請考量誰將體驗您的模型、體驗方式以及體驗的效果。
例如,您的模型如何給予人們更多尊嚴或自主性,或對其情緒、身體或財務福祉產生正面影響?相反地,您的模型預測如何降低人們的尊嚴或自主性,或對其情緒、身體或財務福祉產生負面影響?
一般而言,我們建議切片您現有的所有效能指標,作為良好的做法。我們也建議跨多個門檻評估您的指標,以便瞭解門檻如何影響不同群組的效能。
此外,如果有一個一致「良好」或「不良」的預測標籤,則請考量 (針對每個子群組) 報告預測該標籤的比率。例如,「良好」標籤會是一個預測,可授予某人存取某些資源的權限,或讓他們執行某些動作。
分類的關鍵公平性指標
在思考分類模型時,請思考錯誤的效果 (實際「真實情況」標籤與模型標籤之間的差異)。如果某些錯誤可能會對您的使用者造成更多機會或危害,請確保您評估使用者群組中這些錯誤的比率。這些錯誤率定義如下,在「公平性指標」Beta 版目前支援的指標中。
在接下來的一年中,我們希望發布不同使用案例的個案研究以及與這些案例相關聯的指標,以便我們可以更好地突顯哪些指標在何時可能最合適。
「公平性指標」今天提供的指標
陽性率/陰性率
- 定義: 不論真實情況為何,分類為陽性或陰性的資料點百分比
- 與以下項目相關: 人口統計均等性和結果平等,在子群組之間相等時
- 何時使用此指標: 公平性使用案例,其中群組的最終百分比相等非常重要
真陽性率/假陰性率
- 定義: (如真實情況中所標記) 正確分類為陽性的陽性資料點百分比,或錯誤分類為陰性的陽性資料點百分比
- 與以下項目相關: 機會平等 (針對陽性類別),在子群組之間相等時
- 何時使用此指標: 公平性使用案例,其中每個群組中符合資格的候選人有相同的 % 被評為陽性非常重要。這在分類正面結果 (例如貸款申請、學校入學或內容是否適合兒童) 的情況下最常被建議使用
真陰性率/假陽性率
- 定義: 正確分類為陰性的陰性資料點百分比 (如真實情況中所標記),或錯誤分類為陽性的陰性資料點百分比
- 與以下項目相關: 機會平等 (針對陰性類別),在子群組之間相等時
- 何時使用此指標: 公平性使用案例,其中錯誤率 (或將某事物錯誤分類為陽性) 比分類陽性更令人擔憂。這在濫用案例中最常見,其中陽性通常會導致負面行為。這些對於人臉分析技術 (例如人臉偵測或人臉屬性) 也很重要
準確度和 AUC
- 與以下項目相關: 預測均等性,在子群組之間相等時
- 何時使用這些指標: 工作精準度最關鍵的情況 (不一定在給定的方向上),例如人臉識別或人臉分群
錯誤發現率
- 定義: 在所有分類為陽性的資料點中,錯誤分類為陽性的陰性資料點百分比 (如真實情況中所標記)。這也是 PPV 的倒數
- 與以下項目相關: 預測均等性 (也稱為校準),在子群組之間相等時
- 何時使用此指標: 正確陽性預測的比例在子群組之間應該相等的情況
錯誤遺漏率
- 定義: 在所有分類為陰性的資料點中,錯誤分類為陰性的陽性資料點百分比 (如真實情況中所標記)。這也是 NPV 的倒數
- 與以下項目相關: 預測均等性 (也稱為校準),在子群組之間相等時
- 何時使用此指標: 正確陰性預測的比例在子群組之間應該相等的情況
整體翻轉率/陽性到陰性預測翻轉率/陰性到陽性預測翻轉率
- 定義: 如果變更給定特徵中的身分屬性,分類器給出不同預測的機率。
- 與以下項目相關: 反事實公平性
- 何時使用此指標: 當判斷模型的預測是否在移除或取代範例中參考的敏感屬性時發生變更。如果發生變更,請考量在 Tensorflow 模型修正程式庫中使用「反事實 Logit 配對」技術。
翻轉計數/陽性到陰性預測翻轉計數/陰性到陽性預測翻轉計數 *
- 定義: 如果變更給定範例中的身分詞彙,分類器給出不同預測的次數。
- 與以下項目相關: 反事實公平性
- 何時使用此指標: 當判斷模型的預測是否在移除或取代範例中參考的敏感屬性時發生變更。如果發生變更,請考量在 Tensorflow 模型修正程式庫中使用「反事實 Logit 配對」技術。
指標選擇範例
- 相機應用程式系統性地無法偵測到人臉可能會導致某些使用者群組的負面使用者體驗。 在這種情況下,人臉偵測系統中的假陰性可能會導致產品失敗,而假陽性 (在沒有人臉時偵測到人臉) 可能會對使用者造成輕微困擾。因此,評估和最小化假陰性率對於此使用案例非常重要。
- 在仲裁系統中,不公平地將某些人的文字留言標記為「垃圾郵件」或「高度有害內容」會導致某些聲音被壓制。 一方面,高假陽性率會導致不公平的審查。另一方面,高假陰性率可能會導致某些群組的有毒內容激增,這可能會傷害使用者,並構成這些群組的代表性危害。因此,除了考量所有類型錯誤的指標 (例如準確度或 AUC) 之外,這兩個指標都很重要。
找不到您要尋找的指標?
請按照此處的文件新增您自己的自訂指標。
結語
兩個群組之間的指標差距可能表示您的模型可能存在不公平的偏誤。您應該根據您的使用案例解讀您的結果。但是,您可能不公平地對待一組使用者的第一個跡象是,該組使用者與您的整體使用者之間的指標顯著不同。在查看這些差異時,請務必考量信賴區間。當特定切片中的樣本太少時,指標之間的差異可能不準確。
在「公平性指標」上實現跨群組的平等並不表示模型是公平的。 系統高度複雜,在一個 (甚至所有) 提供的指標上實現平等都無法保證公平性。
公平性評估應在整個開發過程和發布後 (而不是在發布前一天) 執行。 就像改進您的產品是一個持續的過程,並且會根據使用者和市場意見回饋進行調整一樣,讓您的產品公平公正也需要持續關注。隨著模型的不同面向發生變化 (例如訓練資料、來自其他模型的輸入或設計本身),公平性指標可能會發生變化。 「通過門檻」一次不足以確保所有互動元件在一段時間內保持完好無損。
應針對罕見的惡意範例執行對抗性測試。 公平性評估並非旨在取代對抗性測試。針對罕見的目標範例進行額外的防禦至關重要,因為這些範例可能不會在訓練或評估資料中顯現。