TensorFlow 文字處理指南記錄了自然語言處理 (NLP) 的程式庫和工作流程,並介紹了文字處理的重要概念。
KerasNLP
KerasNLP 是一個高階自然語言處理 (NLP) 程式庫,其中包含所有最新的 Transformer 架構模型,以及較低階的符記化公用程式。這是大多數 NLP 使用案例的建議解決方案。
- KerasNLP 入門:透過執行情感分析,逐步瞭解 KerasNLP 的複雜程度,從使用預先訓練的模型到從頭開始建構自己的 Transformer。
tf.strings
tf.strings
模組提供用於處理字串張量的運算。
- Unicode 字串:在 TensorFlow 中表示 Unicode 字串,並使用標準字串運算的 Unicode 等效項目來操作它們。
TensorFlow Text
如果您需要存取較低階的文字處理工具,可以使用 TensorFlow Text。TensorFlow Text 提供了一系列運算和程式庫,可協助您處理文字形式的輸入,例如原始文字字串或文件。
- TensorFlow Text 簡介:瞭解如何安裝 TensorFlow Text 或從原始碼建構它。
- 將 TensorFlow Text 運算子轉換為 TensorFlow Lite:將 TensorFlow Text 模型轉換為 TensorFlow Lite,以便部署到行動裝置、嵌入式裝置和 IoT 裝置。
預先處理
- 使用 TF Text 進行 BERT 預先處理:使用 TensorFlow Text 預先處理運算將文字資料轉換為 BERT 的輸入。
- 使用 TF Text 進行符記化:瞭解 TensorFlow Text 提供的符記化選項。瞭解您可能在何時想要使用某個選項而不是另一個選項,以及如何在模型中呼叫這些符記器。
- 子詞符記器:從資料集產生子詞彙表,並使用它從詞彙表建構
text.BertTokenizer
。
TensorFlow 模型 – NLP
TensorFlow Models - NLP 程式庫提供 Keras 基礎元件,可以組合成 Transformer 架構模型,以及可輕鬆實驗新型架構的 scaffold 類別。
- TensorFlow Models NLP 程式庫簡介:使用 NLP 模型程式庫中的建構區塊,為常見的 NLP 任務 (包括預先訓練、範圍標記和分類) 建構 Transformer 架構模型。
- 自訂 Transformer 編碼器:自訂
tfm.nlp.networks.EncoderScaffold
(雙向 Transformer 架構編碼器網路 scaffold),以採用新的網路架構。