深度學習Task2

2021-10-02 20:14:58 字數 1402 閱讀 1021

讀入文字

分詞建立字典,將每個詞對映到乙個唯一的索引(index)

將文字從詞的序列轉換為索引的序列,方便輸入模型

課後練習

語言模型

假設序列w1、w2……wt中的每個詞是依次生成的,我們有

語言模型的引數就是詞的概率以及給定前幾個詞情況下的條件概率。設訓練資料集為乙個大型文字語料庫,如維基百科的所有條目,詞的概率可以通過該詞在訓練資料集中的相對詞頻來計算,例如,w1的概率可以計算為:

n元語法

序列長度增加,計算和儲存多個詞共同出現的概率的複雜度會呈指數級增加。n元語法通過馬爾可夫假設簡化模型,馬爾科夫假設是指乙個詞的出現只與前面n個詞相關,即n階馬爾可夫鏈(markov chain of order n)

當n分別為1、2和3時,我們將其分別稱作一元語法(unigram)、二元語法(bigram)和三元語法(trigram)。例如,長度為4的序列n在一元語法、二元語法和三元語法中的概率分別為

n元語法可能的缺陷:

引數空間過大

資料稀疏

課後練習

基於當前的輸入與過去的輸入序列,**序列的下乙個字元。

困惑度

困惑度是對交叉熵損失函式做指數運算後得到的值。特別地,

最佳情況下,模型總是把標籤類別的概率**為1,此時困惑度為1;

最壞情況下,模型總是把標籤類別的概率**為0,此時困惑度為正無窮;

基線情況下,模型總是**所有類別的概率都相同,此時困惑度為類別個數。

顯然,任何乙個有效模型的困惑度必須小於類別個數。在本例中,困惑度必須小於詞典大小vocab_size。

課後練習

14天動手學深度學習 Task2

一 梯度消失 梯度 以及kaggle房價 隨機初始化模型引數 在神經網路中,通常需要隨機初始化模型引數。下面我們來解釋這樣做的原因。如果將每個隱藏單元的引數都初始化為相等的值,那麼在正向傳播時每個隱藏單元將根據相同的輸入計算出相同的值,並傳遞至輸出層。在反向傳播中,每個隱藏單元的引數梯度值相等。因此...

演算法學習Task2

1 主成分估計 偏向於概率 設有p個回歸自變數,第i次試驗測得的實驗值,並將他們標準化消除量綱影響,記為 共n次實驗 標準化方法 方法很多,基本上機器學習裡的一些歸一化都可用於標準化 這樣就形成了n p矩陣x 可構造回歸模型 為p1的向量,為n1的誤差向量,0為常量,1為n1的列向量 經過主成分轉換...

基礎演算法學習Task2

3.邏輯回歸損失函式的推導及優化 4.正則化與模型評估指標 正則化 regularization 技術來防止過擬合情況,是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式,分為l1正則化和l2正則化。l2正則化,其形式是在原先的損失函式後邊再加多一項 12 2i12 i...