這個頁面列出一系列已知的指南和工具,說明如何使用 TensorFlow Hub 解決文字領域的問題。對於任何想要使用預先訓練的機器學習元件來解決典型的機器學習問題,而不是從頭開始的人來說,這裡是一個起點。
分類
當我們想要預測給定範例的類別時,例如情感、毒性、文章類別或任何其他特徵。
以下教學課程從不同的角度並使用不同的工具解決相同的任務。
Keras
使用 Keras 進行文字分類 - 使用 Keras 和 TensorFlow Datasets 建構 IMDB 情感分類器的範例。
Estimator
文字分類 - 使用 Estimator 建構 IMDB 情感分類器的範例。包含多個改進技巧和模組比較章節。
BERT
使用 TF Hub 上的 BERT 預測電影評論情感 - 說明如何使用 BERT 模組進行分類。包含使用 bert
程式庫進行符號化和預處理。
Kaggle
Kaggle 上的 IMDB 分類 - 說明如何從 Colab 輕鬆地與 Kaggle 競賽互動,包括下載資料和提交結果。
Estimator | Keras | TF2 | TF Datasets | BERT | Kaggle API | |
---|---|---|---|---|---|---|
文字分類 | ![]() |
|||||
使用 Keras 進行文字分類 | ![]() |
![]() |
![]() |
|||
使用 TF Hub 上的 BERT 預測電影評論情感 | ![]() |
![]() |
||||
Kaggle 上的 IMDB 分類 | ![]() |
![]() |
使用 FastText 嵌入的孟加拉文任務
TensorFlow Hub 目前並非提供所有語言的模組。以下教學課程說明如何利用 TensorFlow Hub 進行快速實驗和模組化機器學習開發。
孟加拉文文章分類器 - 示範如何建立可重複使用的 TensorFlow Hub 文字嵌入,並使用它來訓練 Keras 分類器,用於 BARD 孟加拉文文章資料集。
語意相似度
當我們想要在零樣本設定 (沒有訓練範例) 中找出哪些句子彼此相關時。
基本
語意相似度 - 說明如何使用句子編碼器模組來計算句子相似度。
跨語言
跨語言語意相似度 - 說明如何使用其中一個跨語言句子編碼器來計算跨語言的句子相似度。
語意擷取
語意擷取 - 說明如何使用問答句子編碼器來索引文件集合,以便根據語意相似度進行擷取。
SentencePiece 輸入
使用通用編碼器精簡版的語意相似度 - 說明如何使用接受 SentencePiece ID 作為輸入而非文字的句子編碼器模組。
模組建立
除了僅使用 tfhub.dev 上的模組之外,還有一些方法可以建立自己的模組。這可以成為改善機器學習程式碼庫模組化和進一步分享的實用工具。
包裝現有的預先訓練嵌入
文字嵌入模組匯出工具 - 一種將現有預先訓練嵌入包裝到模組中的工具。說明如何在模組中包含文字預處理運算。這允許從符記嵌入建立句子嵌入模組。
文字嵌入模組匯出工具 v2 - 與上述相同,但與 TensorFlow 2 和 Eager Execution 相容。