深度學習Task2

讀入文字

分詞建立字典，將每個詞對映到乙個唯一的索引（index）

將文字從詞的序列轉換為索引的序列，方便輸入模型

課後練習

語言模型

假設序列w1、w2……wt中的每個詞是依次生成的，我們有

語言模型的引數就是詞的概率以及給定前幾個詞情況下的條件概率。設訓練資料集為乙個大型文字語料庫，如維基百科的所有條目，詞的概率可以通過該詞在訓練資料集中的相對詞頻來計算，例如，w1的概率可以計算為：

n元語法

序列長度增加，計算和儲存多個詞共同出現的概率的複雜度會呈指數級增加。n元語法通過馬爾可夫假設簡化模型，馬爾科夫假設是指乙個詞的出現只與前面n個詞相關，即n階馬爾可夫鏈（markov chain of order n）

當n分別為1、2和3時，我們將其分別稱作一元語法（unigram）、二元語法（bigram）和三元語法（trigram）。例如，長度為4的序列n在一元語法、二元語法和三元語法中的概率分別為

n元語法可能的缺陷：

引數空間過大

資料稀疏

課後練習

基於當前的輸入與過去的輸入序列，**序列的下乙個字元。

困惑度

困惑度是對交叉熵損失函式做指數運算後得到的值。特別地，

最佳情況下，模型總是把標籤類別的概率**為1，此時困惑度為1；

最壞情況下，模型總是把標籤類別的概率**為0，此時困惑度為正無窮；

基線情況下，模型總是**所有類別的概率都相同，此時困惑度為類別個數。

顯然，任何乙個有效模型的困惑度必須小於類別個數。在本例中，困惑度必須小於詞典大小vocab_size。

課後練習

14天動手學深度學習 Task2

一梯度消失梯度以及kaggle房價隨機初始化模型引數在神經網路中，通常需要隨機初始化模型引數。下面我們來解釋這樣做的原因。如果將每個隱藏單元的引數都初始化為相等的值，那麼在正向傳播時每個隱藏單元將根據相同的輸入計算出相同的值，並傳遞至輸出層。在反向傳播中，每個隱藏單元的引數梯度值相等。因此...

演算法學習Task2

1 主成分估計偏向於概率設有p個回歸自變數，第i次試驗測得的實驗值，並將他們標準化消除量綱影響，記為共n次實驗標準化方法方法很多，基本上機器學習裡的一些歸一化都可用於標準化這樣就形成了n p矩陣x 可構造回歸模型為p1的向量，為n1的誤差向量，0為常量，1為n1的列向量經過主成分轉換...

基礎演算法學習Task2

3.邏輯回歸損失函式的推導及優化 4.正則化與模型評估指標正則化 regularization 技術來防止過擬合情況，是機器學習中通過顯式的控制模型複雜度來避免模型過擬合確保泛化能力的一種有效方式，分為l1正則化和l2正則化。l2正則化，其形式是在原先的損失函式後邊再加多一項 12 2i12 i...

深度學習Task2

14天動手學深度學習 Task2

演算法學習Task2

基礎演算法學習Task2

相關推薦