李巨集毅《機器學習》課程筆記（作業四 RNN）

rnn和半監督學習需要後面補上。

word embedding是想做乙個什麼事情呢，是希望把詞彙用乙個比較短的向量表達出來，因為通常的詞彙的表達是通過乙個非常長的（詞典那麼長的）1-of-n向量來表達，這樣的表達沒有資訊，我們希望能用乙個短向量（例如10或100維）來表達詞彙，就需要每個維度表達一些資訊，希望含義相近的詞彙他們的向量也比較接近。這是一種無監督學習。

那麼怎麼做呢？有兩種方式，一種是基於計數的，一種是基於**的。

基於計數的就是看兩個詞彙同時出現的次數，用兩個向量的內積與這個次數的差值作為loss進行學習。基於**的方法是說，讓神經網路學習乙個詞後面接的詞彙的概率，這樣都可以利用大量資料把無監督學習轉換成有監督學習的形式。

李巨集毅《機器學習》課程筆記（作業四 RNN）

李巨集毅《機器學習》課程筆記（作業七模型壓縮）

李巨集毅《機器學習》課程筆記（作業二分類）

李巨集毅機器學習課程筆記 1

李巨集毅《機器學習》課程筆記（作業四 RNN）

李巨集毅《機器學習》課程筆記（作業七 模型壓縮）

李巨集毅《機器學習》課程筆記（作業二 分類）

李巨集毅機器學習課程筆記 1

相關推薦

李巨集毅《機器學習》課程筆記（作業七模型壓縮）

李巨集毅《機器學習》課程筆記（作業二分類）