文字預處理等知識點打卡

一、文字預處理（）

1.讀入文字

re.sub(pattern, repl, string, count=0, flags=0)

pattern：表示正規表示式中的模式字串；

repl：被替換的字串（既可以是字串，也可以是函式）；

string：要被處理的，要被替換的字串；

count：匹配的次數, 預設是全部替換

flags：具體用處不詳

re.sub是個正規表示式方面的函式，用來實現通過正規表示式，實現比普通字串的replace更加強大的替換功能。簡單的替換功能可以使用replace()實現。

2.分詞:將乙個句子劃分成若干個詞（token），轉換為乙個詞的序列。

二、語言模型

1.建立字元索引

（1）set([iterable])

建立乙個無序不重複元素集，可進行關係測試，刪除重複資料，還可以計算交集、差集、並集等。

引數：iterable – 可迭代物件物件；

（2）enumerate(sequence, [start=0])

用於將乙個可遍歷的資料物件(如列表、元組或字串)組合為乙個索引序列，同時列出資料和資料下標，一般用在 for 迴圈當中。

引數：sequence – 乙個序列、迭代器或其他支援迭代物件。

start – 下標起始位置。

2隨機取樣

torch.device代表將torch.tensor分配到的裝置的物件。torch.device包含乙個裝置型別（『cpu』或『cuda』）和可選的裝置序號。如果裝置序號不存在，則為當前裝置。如：torch.tensor用裝置構建『cuda』的結果等同於『cuda：x』，其中x是torch.cuda.current_device()的結果。

二、迴圈神經網路

初始化引數模型

torch.nn.parameter()

將乙個固定不可訓練的tensor轉換成可以訓練的型別parameter，並將這個parameter繫結到這個module裡面

預處理命令知識點

ansi c標準規定，可以在c源程式中加入一些預處理命令以改進程式設計環節，提高程式設計效率。這些預處理命令是由ansi c統一規定的，但是它不是c語言本身的組成部分，不能直接對它們進行編譯因為編譯程式不能識別它們必須在對程式進行通常的編譯之前先對程式中這些特殊的命令進行預處理即根據預...

編譯和預處理相關知識點

本質翻譯官，把高階語言翻譯成機器指令常用選項 gcc o 輸出檔名輸入檔名 gcc o build 01.c 字尾不能為其他 gcc v o build 01.c gcc l o 用來指定程式要鏈結的庫，l引數緊接著就是庫名 gcc l o l引數跟著的是庫檔案所在的目錄名 gcc e ogc...

C 預處理相關知識點總結

c提供的預處理命令有3種 1 巨集定義 2 檔案包含 3 條件編譯預處理命令不是c語句，為了與一般的c語句相區別，這些命令都是以開頭的。c原始檔經過預處理之後，不再含有任何預處理命令。單個.c原始檔轉換為可執行檔案需要經過4個步驟 1 預處理 2 編譯 3 彙編 4 鏈結多個.c原始檔轉換為可...

文字預處理等知識點打卡

預處理命令知識點

編譯和預處理相關知識點

C 預處理相關知識點總結

相關推薦