基於深度學習的自然語言處理

2021-09-17 18:21:30 字數 2873 閱讀 4087

cbow表示可以通過求單詞表示向量和或者通過將乙個單詞詞袋向量乘

以乙個每一行對應於乙個稠密單詞表示的矩陣(這樣的矩陣也叫作嵌入矩陣( embedd i ng

matricy ))來得到。

網路中每行神經元的值可以看作是乙個向量

全連線層可以看作是從四維到六維

的線性變換。全連線層實現了乙個向量與矩陣的乘法, h=xw

由線性變換產生的向量稱為層。最外層的線性變換產生輸出層,其他線性變換產生隱

層。非線性啟用操作接在每個隱層後面

乙個網路的引數是其中的矩陣和偏置項,二者定義了網路中的線性變換

帶有tanh 與sigmoid 啟用函式的網路層往往容易飽和造成該層的輸出都接近於

1 ,這是啟用函式的上界。飽和神經元具有很小的梯度,所以應該避免。帶有relu 啟用

函式的網路層不會飽和,但是會「死掉」一一大部分甚至所有的值為負值,因此對於所有的

輸入來說都裁剪為0 ,從而導致該層梯度全為0

飽和神經元是由值太大的輸入層造成的。這可以通過

更改初始化、縮放輸人值的範圍或者改變學習速率來控制

歸一啟用函式後的飽和值

死神經元是由進入網路層的負

值引起的(例如,在大規模的梯度更新後可能會發生),減少學習率將減緩這種現象

語言模型是給乙個句子分配概率的任務

困惑度是一種資訊理論測度, 用來測量乙個概率模型**樣本的好壞,困惑度越低越好

一種避免0 概率事件的方法是使用平滑技術

退避( back off) :如果沒有觀測到h 元文法,那麼就基於

(k-1) 元文法計算乙個估計值

的語言模型很容易訓練,可擴充套件到大規模語料,實際應用

中表現良好。然而,它有幾個重要的缺點。

平滑技術錯綜複雜而且需要回退到低階

缺乏對上下文的泛化

每行i 表示乙個單詞,每列j 表示詞出現處的語言學上下文,矩陣項m[i,j] 為在大語料庫中量化得到的詞與上下文之間的關聯強度。

wi 是詞表中的第i 個詞,而cj 是上下文表中的第j 個詞。

矩陣

視窗大小的影晌 視窗較大易於產生更大的主題相似性,而較小的視窗易於產生更多的功能和句法相似性

視窗位置 當使用cbow 或s kip gram 上下文表示時,視窗中的所有不同的上下文詞同等重要。與焦點詞近的上下文詞以及離它更遠的上下文詞之間沒有任何區別

變體 許多基於視窗方法的變化方案是可行的

cnn 專門用來識別文字中乙個

序列裡的富資訊η 元語法和帶槽η 元語法,忽略它們的位置但考慮區域性有序模式。rnn用來捕捉序列內敏感模式和規則,它可以建模非馬爾可夫依賴,觀測乙個焦點詞周圍的「無限視窗」,同時放大該視窗內富含資訊量的序列模式。最後,我們會討論序列生成模型和條件生成。

卷積層背後的主要想法是對序列中所有的走元語法應用同乙個引數化的函式。這樣構建了m 個向量,每乙個代表序列中乙個特定走元語法。這種表示對於h 元語法本身和其內部的詞序敏感,但是對於乙個序列中不同位置的同乙個走元語法會得到相同的表示。

rnn 就是乙個深度神經網路(或者說, 乙個帶

有少量複雜結點的非常大的計算圖),其中不同部分計算過程中的引數是共享的,不同層還可以附加額外的輸入。為了訓練乙個rnn 網路,所需要做的即為對給定的輸入序列構建乙個展開的計算圖,為展開的圖新增乙個損失結點,然後使用反(反向傳播)演算法計算關於該損失的梯度。這個過程在rnn 的文獻中被稱為沿時間展開的反向傳播cbptt)

rnn 常見使用模式

接收器編碼器

感測器雙向rnn

堆疊rnn

用於表示梭的rnn

長短期記憶網路(lstm)結構[日ochreiter and schmidhuber, 19 9 7 ]被設計用於解決梯

度消失問題,並且是第一種引入門機制的結構。lstm 結構明確地將狀態向量s; 分解為兩部分, 一半稱為「記憶單元」,另一半是執行記憶。記憶單元被設計用來儲存跨時間的記憶以及梯度資訊,同時受控於可微門元件

cj 是記憶元件, hj 是隱藏狀態元件

門的值由當前輸入xj 和前乙個狀態hj- 1 的線性組合通過-個sigmoid 啟用函式來得到。

乙個更新候選項z 由xj 和hj-1 的線性組合通過乙個tanh 啟用函式來得到。

遺忘門控制有多少先前的記憶被保留( f⊙ci-i ), 輸入門控制有多少更新被保留(i⊙z)。最後, hj ( yj 的輸出〉由記憶cj

的內容通過乙個ta nh 非線性啟用函式並受輸出門的控制來決定。這樣的門機制能夠使得

與記憶cj 相關的梯度即使跨過了很長的時間距離仍然保留較高的值

rnn接收器:讀入乙個序列,最後產生乙個二值或者多

分類的結果。

rnn特徵提取器

在訓練生成器時,一般的方法是簡單地將其當作乙個轉換器來進行訓練

需要樹形結構:

需要長距離的語義依存資訊的任務(例如上面的語義關係分類任務)semantic relation extraction

輸入為長序列,即複雜任務,且在片段有足夠的標註資訊的任務(例如句子級別的stanford情感樹庫分類任務),此外,實驗中作者還將這個任務先通過標點符號進行了切分,每個子片段使用乙個雙向的序列模型,然後總的再使用乙個單向的序列模型得到的結果比樹形結構的效果更好一些。

機器學習 深度學習 自然語言處理

文字挖掘 文字分類 機器翻譯 客服系統 複雜對話系統 手工特徵耗時耗力,還不易拓展 自動特徵學習快,方便擴充套件 深度學習提供了一種通用的學習框架,可以用來表示世界,視覺和語言學資訊 深度學習可以無監督學習,也可以監督學習 我 今天 下午 打籃球 p s p w1,w2,w3,w4,w5,wn p ...

自然語言處理深度學習的7個應用

自然語言處理領域正在從統計方法轉變為神經網路方法。自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的 事實上,乙個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的...

自然語言處理深度學習的7個應用

翻譯 無阻我飛揚 自然語言處理領域正在從統計方法轉變為神經網路方法。自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的 事實上,乙個單一的模型可以學習詞義和執行語言任務,從而消除了對專業...