文字預處理等知識點打卡

2021-10-02 20:10:47 字數 994 閱讀 7213

一、文字預處理()

1.讀入文字

re.sub(pattern, repl, string, count=0, flags=0)

pattern:表示正規表示式中的模式字串;

repl:被替換的字串(既可以是字串,也可以是函式);

string:要被處理的,要被替換的字串;

count:匹配的次數, 預設是全部替換

flags:具體用處不詳

re.sub是個正規表示式方面的函式,用來實現通過正規表示式,實現比普通字串的replace更加強大的替換功能。簡單的替換功能可以使用replace()實現。

2.分詞:將乙個句子劃分成若干個詞(token),轉換為乙個詞的序列。

二、語言模型

1.建立字元索引

(1)set([iterable])

建立乙個無序不重複元素集,可進行關係測試,刪除重複資料,還可以計算交集、差集、並集等。

引數:iterable – 可迭代物件物件;

(2)enumerate(sequence, [start=0])

用於將乙個可遍歷的資料物件(如列表、元組或字串)組合為乙個索引序列,同時列出資料和資料下標,一般用在 for 迴圈當中。

引數:sequence – 乙個序列、迭代器或其他支援迭代物件。

start – 下標起始位置。

2隨機取樣

torch.device代表將torch.tensor分配到的裝置的物件。torch.device包含乙個裝置型別(『cpu』或『cuda』)和可選的裝置序號。如果裝置序號不存在,則為當前裝置。如:torch.tensor用裝置構建『cuda』的結果等同於『cuda:x』,其中x是torch.cuda.current_device()的結果。

二、迴圈神經網路

初始化引數模型

torch.nn.parameter()

將乙個固定不可訓練的tensor轉換成可以訓練的型別parameter,並將這個parameter繫結到這個module裡面

預處理命令知識點

ansi c標準規定,可以在c源程式中加入一些 預處理命令 以改進程式設計環節,提高程式設計效率。這些預處理命令是由ansi c統一規定的,但是它不是c語言本身的組成部分,不能直接對它們進行編譯 因為編譯程式不能識別它們 必須在對程式進行通常的編譯之前 先對程式中這些特殊的命令進行 預處理 即根據預...

編譯和預處理相關知識點

本質 翻譯官,把高階語言翻譯成機器指令 常用選項 gcc o 輸出檔名 輸入檔名 gcc o build 01.c 字尾不能為其他 gcc v o build 01.c gcc l o 用來指定程式要鏈結的庫,l引數緊接著就是庫名 gcc l o l引數跟著的是庫檔案所在的目錄名 gcc e ogc...

C 預處理相關知識點總結

c提供的預處理命令有3種 1 巨集定義 2 檔案包含 3 條件編譯 預處理命令不是c語句,為了與一般的c語句相區別,這些命令都是以 開頭的。c原始檔經過預處理之後,不再含有任何預處理命令。單個.c原始檔轉換為可執行檔案需要經過4個步驟 1 預處理 2 編譯 3 彙編 4 鏈結 多個.c原始檔轉換為可...