Torchtext學習筆記

2021-10-23 00:11:31 字數 850 閱讀 6079

torchtext是pytorch處理文字的乙個工具包,在學習pytorch的過程中遇到,就順便學習一下,也相應的做一下記錄。

我們在進行nlp任務時,對資料預處理一般分為:

dataset類:classtorchtext.data.dataset(examples, fields, filter_pred=none)

由field物件組成的資料集

變數:所有的資料集都是torch.text.data.dataset的子集,繼承自torch.utils.data.dataset

language modeling

classtorchtext.datasets.languagemodelingdataset(path, text_field, newline_eos=true, encoding='utf-8', **kwargs)

為lm定義的資料集,同樣繼承了split和iter方法

vocab

classtorchtext.vocab.vocab(counter, max_size=none, min_freq=1, specials=[''], vectors=none, unk_init=none, vectors_cache=none, specials_first=true)

這個其實就是之前text.build_vocab建立的字典,實踐的時候主要用到了stoi和itos兩個方法,記錄一下。

目前就用到了這麼幾種方法,留著之後再繼續更新吧~

使用torchtext將文字轉為ID表示

概覽圖 支援 json,dict,csv,tsv 檔案格式 path path,format csv skip header true,train train.csv validation test.csv fields index none label label field text text ...

學習筆記 雜湊學習筆記

hash基本原理 hash就是乙個像函式一樣的東西,你放進去乙個值,它給你輸出來乙個值。輸出的值就是hash值。一般hash值會比原來的值更好儲存 更小 或比較。那字串hash就非常好理解了。就是把字串轉換成乙個整數的函式。而且要盡量做到使字串對應唯一的hash值。它的主要思路是選取恰當的進製,可以...

學習筆記 CentOS 學習筆記01

簡單的做個課堂筆記 虛擬機器用的是vmware,系統是centos cd etc sysconfig network scripts pwdls 顯示列表 cat ifcfg eth0 檢視檔案內容 vi ifcfg eth0 進入vi編輯器 onboot no 原始設定 x逐字刪除 d刪除整行 a...