線性回歸文字預處理

線性回歸

1.**模型：**為了簡單起見，這裡我們假設**只取決於房屋狀況的兩個因素，即面積（平方公尺）和房齡（年）。接下來我們希望探索**與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係:

price=warea⋅area+wage⋅age+bprice=warea⋅area+wage⋅age+b

2.**資料集：**我們通常收集一系列的真實資料，例如多棟房屋的真實售出**和它們對應的面積和房齡。我們希望在這個資料上面尋找模型引數來使模型的****與真實**的誤差最小。在機器學習術語裡，該資料集被稱為訓練資料集（training data set）或訓練集（training set），一棟房屋被稱為乙個樣本（sample），其真實售出**叫作標籤（label），用來**標籤的兩個因素叫作特徵（feature）。特徵用來表徵樣本的特點。

3.**損失函式：**在模型訓練中，我們需要衡量****值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差，且數值越小表示誤差越小。乙個常用的選擇是平方函式。它在評估索引為 ii 的樣本誤差的表示式為

4.優化函式 - 隨機梯度下降：(i)初始化模型引數，一般來說使用隨機初始化；

(ii)我們在資料上迭代多次，通過在負梯度方向移動引數來更新每個引數。

softmax與分類模型

1.處理分類問題，即在原輸出基礎資料上，加上e的該資料次方，最後歸一化即得到softmax分類模型。

2.交叉熵損失函式：

多層感知機

1.下圖展示了乙個多層感知機的神經網路圖，它含有乙個隱藏層，該層中有5個隱藏單元。

2.**啟用函式：**上述問題的根源在於全連線層只是對資料做仿射變換（affine transformation），而多個仿射變換的疊加仍然是乙個仿射變換。解決問題的乙個方法是引入非線性變換，例如對隱藏變數使用按元素運算的非線性函式進行變換，然後再作為下乙個全連線層的輸入。這個非線性函式被稱為啟用函式（activation function）。

文字預處理

文字是一類序列資料，一篇文章可以看作是字元或單詞的序列，本節將介紹文字資料的常見預處理步驟，預處理通常包括四個步驟：

1.讀入文字

2.分詞

3.建立字典，將每個詞對映到乙個唯一的索引（index）

4.將文字從詞的序列轉換為索引的序列，方便輸入模型

語言模型

時序資料的取樣

1.隨機取樣

2.相鄰取樣

迴圈神經網路基礎

1.下圖展示了如何基於迴圈神經網路實現語言模型。我們的目的是基於當前的輸入與過去的輸入序列，**序列的下乙個字元。迴圈神經網路引入乙個隱藏變數h，用ht表示h在時間步t的值。ht的計算基於xt和ht−1，可以認為ht記錄了到當前字元為止的序列資訊，利用ht對序列的下乙個字元進行**。

2.迴圈神經網路的構造

線性回歸 文字預處理

文字預處理

文字預處理

文字語料預處理總結

相關推薦

線性回歸文字預處理