Pytorch原始碼注釋

field類為可以由張量表示的常見文字處理資料型別建模。它包含乙個vocab物件，用於定義字段元素的可能值集及其對應的數字表示。field物件還包含與資料型別應如何數位化有關的其他引數，例如標記化方法和應生成的tensor型別。

如果在資料集中的兩列之間共享字段（例如，qa資料集中的問題和答案），則它們將具有共享詞彙表。

屬性：sequential：資料型別是否表示順序資料。如果為false，則不應用標記化。預設值：true。

use_vocab：是否使用vocab物件。如果為false，則此字段中的資料應已為數字。預設值：true。

init_token：將使用此欄位新增到每個示例的標記，如果沒有初始標記，則為none。預設值：無。

eos_token：將使用此欄位附加到每個示例的標記，或者對於沒有句末標記的none。預設值：無。

fix_length：使用此字段的所有示例都將填充到的固定長度，或者對於靈活的序列長度，為none。預設值：無。

dtype：torch.dtype類，表示此類資料的一批示例。預設值：torch.long。

預處理：在標記化之後但在數值化之前將使用此欄位應用於示例的管道。許多資料集使用自定義預處理器替換此屬性。預設值：無。

後處理：在數值化之後但在數字變為tensor之前將使用此欄位應用於示例的管道。管道功能將批處理作為列表和字段的vocab。預設值：無。

lower：是否小寫此字段中的文字。預設值：false。

tokenize：用於將使用此字段將字串標記為順序示例的函式。如果使用「spacy」，則使用spacy english tokenizer。預設值：str.split。

include_lengths：是否返回填充小批量的元組和包含每個示例長度的列表，或者只是填充的小批量。預設值：false。

batch_first：是否先生成具有批量維度的張量。預設值：false。

pad_token：用作填充的字串標記。預設值：「」。

unk_token：用於表示oov字的字串標記。預設值：「」。

pad_first：在開頭填充序列的填充。預設值：false。

truncate_first：在開頭截斷序列。預設值：false

stop_words：在預處理步驟中丟棄的標記。預設值：無

is_target：此欄位是否為目標變數。影響批量迭代。預設值：false

定義以csv，tsv或json格式儲存的列的資料集。

引數：path（str）：資料檔案的路徑。

format（str）：資料檔案的格式。「csv」，「tsv」或「json」之一（不區分大小寫）。

fields（list（tup（str，field））或dict [str：tuple（str，field）]：如果使用列表，格式必須是csv或tsv，列表的值應該是（name，字段應該與csv或tsv檔案中的列的順序相同，而（name，none）的元組表示將被忽略的列。如果使用dict，則鍵應該是json的子集鍵或csv / tsv列，值應為（名稱，字段）的元組。輸入字典中不存在的鍵將被忽略。這允許使用者從其json / csv / tsv鍵名稱重新命名列，並且還可以選擇要載入的列的子集。

skip_header（bool）：是否跳過輸入檔案的第一行。

csv_reader_params（dict）：傳遞給csv reader的引數。格式為csv或tsv時非常相關。

Pytorch原始碼注釋

devmem 原始碼注釋

PyTorch原始碼安裝小記

redis原始碼注釋簡述

Pytorch原始碼注釋

devmem 原始碼注釋

PyTorch原始碼安裝小記

redis原始碼注釋 簡述

相關推薦

redis原始碼注釋簡述