NLP之分布表示

harris 在1954 年提出的分布假說（distributional hypothesis）為這一設想提供了理論基礎：上下文相似的詞，其語義也相似。

firth 在1957 年對分布假說進行了進一步闡述和明確：詞的語義由其上下文決定（a word is characterized by thecompany it keeps）[29]。

基於分布假說得到的表示均可稱為分布表示（distributional representation）。

根據建模的不同，主要可以分為三類：基於矩陣的分布表示（高維）、基於聚類的分布表示（高維）、基於神經網路的分布表示（低維）。

它們的核心思想也都由兩部分組成：一、選擇一種方式描述上下文；二、選擇一種模型刻畫某個詞（下文稱「目標詞」）與其上下文之間的關係。

這類方法需要構建乙個「詞-上下文」矩陣，從矩陣中獲取詞的表示。在「詞-上下文」矩陣中，每行對應乙個詞，每列表示一種不同的上下文，矩陣中的每個元素對應相關詞和上下文的共現次數。

在這種表示下，矩陣中的一行，就成為了對應詞的表示，這種表示描述了該詞的上下文的分布。由於分布假說認為上下文相似的詞，其語義也相似，因此在這種表示下，兩個詞的語義相似度可以直接轉化為兩個向量的空間距離。

該方法分為三個步驟：

一、選取上下文。第一種：將詞所在的文件作為上下文，形成「詞-文件」矩陣。第二種：將詞附近上下文中的各個詞（如上下文視窗中的5個詞）作為上下文，形成「詞-詞」矩陣。第三種：將詞附近上下文各詞組成的n-gram作為上下文，形成「詞-n元片語」。

二、確定矩陣中各元素的值。根據「詞-上下文」共現矩陣的定義，裡面各元素的值應為詞與對應的上下文的共現次數。但一般採用多種加權和平滑方法，eg：tf-idf。

三、矩陣分解。常見分解技術：奇異值分解svd、非負矩陣分解nmf、主成分分析pca。

最新代表作：global vector模型（glove）

該方法以根據兩個詞的公共類別判斷這兩個詞的語義相似度。最經典的方法是布朗聚類（brown clustering）。

基於神經網路的分布表示一般稱作詞向量、詞嵌入（word embedding）、分布式表示（distributed representation）。

在語言模型中，為了更好地保留詞序資訊，構建更有效的語言模型，我們希望在n 元模中選用更大的n。但是，當n 較大時，長度為n 序列出現的次數就會非常少，在估計n 元條件概率時，就會遇到資料稀疏問題，為了更好地解決n 元模型估算概率時遇到的資料稀疏問題，神經網路語言模型應運而生。