斯坦福CS224n課程作業

2022-07-14 08:51:07 字數 1226 閱讀 5952

作業要求如下:

解析:題目要求我們證明\(softmax\)函式具有常數不變性。

解答:對於\(x+c\)的每一維來說,有如下等式成立:

\[softmax(x+c)_=\frac+c}}e^+c}}=\frac}*e^}(e^}*e^)}=\frac}*e^}(e^})*e^}=\frac}}e^}}=softmax(x)_

\]則可知\(softmax(x)=softmax(x+c)\)成立

作業要求如下:

解析:本題要求我們計算\(\sigma(x)\)函式的梯度,並用\(\sigma(x)\)表示結果

解答:$$\frac)}}=\frac}})}}$$

設\(a=1+e^\),應用鏈式法則可以得到:

\[\frac)}}=\frac})}}=-(\frac)^*\frac}}=-(\frac)^*e^*(-1)=\frac})^}

\]用\(\sigma(x)\)可以表示為\(\sigma(x)-\sigma(x)^\)

作業要求如下:

解析:本題給定了實際值\(y\),**值\(\hat\),以及softmax的輸入向量\(\theta\),要求我們求解\(ce(y,\hat)\)對\(\theta\)的梯度

解答:對於每個\(\theta_\)來說,\(ce(y,\hat)\)對\(\theta_\)的梯度如下所示:

可知,對於所有的i來說,\(ce(y,\hat)\)對\(\theta_\)的梯度為\(\hat-y\)。

作業要求如下:

解析:本題要求推導\(ce(y,\hat)\)對輸入\(x\)的梯度。

解答:

斯坦福課程總結一

1.傳送訊息給空指標並不會讓程式崩潰,但是程式也不會執行任何操作,任何例項變數在沒有初始化前,預設是零或者是空,所以如果要往乙個是零或者空的例項變數傳送訊息時要對例項變數進行初始化分配記憶體,在堆記憶體中指定例項變數的資料型別和記憶體位址。2.如果在父類中已經對屬性的getter和setter方法進...

CS224N 語言模型介紹

語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...

CS224N 子詞模型(subwords)

二 subword model 三 subword level language model 四 hybrid nwt 五 character level 因為人類書寫系統多種多樣,同時詞語存在形態變換,音譯,縮寫以及網路用語等現象,所以僅在word level進行建模是不夠的,需要model bl...