文字分類

使用 TensorFlow Lite 模型將段落分類至預先定義的群組。

開始使用

如果您是 TensorFlow Lite 新手,且使用 Android 系統,建議您瀏覽 TensorFLow Lite Task Library 指南,只需幾行程式碼,即可整合文字分類模型。您也可以使用 TensorFlow Lite Interpreter Java API 整合模型。

下方的 Android 範例示範了 lib_task_apilib_interpreter 這兩種方法的實作方式。

Android 範例

如果您使用的平台不是 Android,或是您已熟悉 TensorFlow Lite API,可以下載我們的入門文字分類模型。

下載入門模型

運作方式

文字分類會根據段落內容,將段落分類至預先定義的群組。

這個預先訓練的模型會預測段落的情感是正面還是負面。此模型在 Mass 等人提供的 Large Movie Review Dataset v1.0 資料集上訓練而成,其中包含標示為正面或負面的 IMDB 電影評論。

以下是使用模型分類段落的步驟

  1. 將段落標記化,並使用預先定義的詞彙表將其轉換為字詞 ID 清單。
  2. 將清單饋送至 TensorFlow Lite 模型。
  3. 從模型輸出取得段落為正面或負面的機率。

注意

  • 僅支援英文。
  • 這個模型在電影評論資料集上訓練而成,因此在分類其他領域的文字時,準確度可能會降低。

效能基準

效能基準數字是使用此處說明的工具產生。

模型名稱 模型大小 裝置 CPU
文字分類 0.6 Mb Pixel 3 (Android 10) 0.05 毫秒*
Pixel 4 (Android 10) 0.05 毫秒*
iPhone XS (iOS 12.4.1) 0.025 毫秒**

* 使用 4 個執行緒。

** iPhone 上使用 2 個執行緒,以獲得最佳效能結果。

範例輸出

文字 負面 (0) 正面 (1)
這是我近年來看過最好看的電影。強烈推薦! 25.3% 74.7%
浪費我的時間。 72.5% 27.5%

使用您的訓練資料集

按照這個教學課程,套用這裡使用的相同技術,使用您自己的資料集訓練文字分類模型。有了正確的資料集,您就可以建立模型,用於文件分類或有害留言偵測等用途。

進一步瞭解文字分類