NLP之分布表示

2021-12-30 12:35:03 字數 1251 閱讀 2162

harris 在1954 年提出的分布假說(distributional hypothesis)為這一設想提供了理論基礎:上下文相似的詞,其語義也相似。

firth 在1957 年對分布假說進行了進一步闡述和明確:詞的語義由其上下文決定(a word is characterized by thecompany it keeps)[29]。

基於分布假說得到的表示均可稱為分布表示(distributional representation)。

根據建模的不同,主要可以分為三類:基於矩陣的分布表示(高維)、基於聚類的分布表示(高維)、基於神經網路的分布表示(低維)。

它們的核心思想也都由兩部分組成:一、選擇一種方式描述上下文;二、選擇一種模型刻畫某個詞(下文稱「目標詞」)與其上下文之間的關係。

這類方法需要構建乙個「詞-上下文」矩陣,從矩陣中獲取詞的表示。在「詞-上下文」矩陣中,每行對應乙個詞,每列表示一種不同的上下文,矩陣中的每個元素對應相關詞和上下文的共現次數。

在這種表示下,矩陣中的一行,就成為了對應詞的表示,這種表示描述了該詞的上下文的分布。由於分布假說認為上下文相似的詞,其語義也相似,因此在這種表示下,兩個詞的語義相似度可以直接轉化為兩個向量的空間距離。

該方法分為三個步驟:

一、選取上下文。第一種:將詞所在的文件作為上下文,形成「詞-文件」矩陣。第二種:將詞附近上下文中的各個詞(如上下文視窗中的5個詞)作為上下文,形成「詞-詞」矩陣。第三種:將詞附近上下文各詞組成的n-gram作為上下文,形成「詞-n元片語」

二、確定矩陣中各元素的值。根據「詞-上下文」共現矩陣的定義,裡面各元素的值應為詞與對應的上下文的共現次數。但一般採用多種加權和平滑方法,eg:tf-idf。

三、矩陣分解。常見分解技術:奇異值分解svd、非負矩陣分解nmf、主成分分析pca。

最新代表作:global vector模型(glove)

該方法以根據兩個詞的公共類別判斷這兩個詞的語義相似度。最經典的方法是布朗聚類(brown clustering)。

基於神經網路的分布表示一般稱作 詞向量、 詞嵌入(word embedding)、分布式表示(distributed representation)。

在語言模型中,為了更好地保留詞序資訊,構建更有效的語言模型,我們希望在n 元模中選用更大的n。但是,當n 較大時,長度為n 序列出現的次數就會非常少,在估計n 元條件概率時,就會遇到資料稀疏問題,為了更好地解決n 元模型估算概率時遇到的資料稀疏問題,神經網路語言模型應運而生。

NLP模型筆記 分布式表示

名稱 分布式表示 別名distributed representation 介紹若干元素的連續表現形式,將詞的語義分布式地儲存在各個維度中,與之相反的是獨熱向量。非分布式表示 圖形水平矩形 垂直矩形 水平橢圓 垂直橢圓 水平矩形10 00垂直矩形01 00水平橢圓00 10垂直橢圓00 01分布式表...

NLP 文字表示

一 文字表示 文字表示 one hot 單詞 boolean representation 句子 count based representation 句子 詞典 我,要,去,北京,上海,南京 one hot 向量空間只有乙個維度是1,其餘都是0 缺點 高維度高稀疏 w1 我 1,0,0,0,0,0...

NLP 之文字表示

我們在做模型訓練的時候,不是直接把文字或者詞語傳給計算機讓其進行計算,而是需要將單詞 句子 文字轉換成向量或者矩陣進行計算,而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前,大家需要先熟悉一些概念。詞庫 訓練資料 現的所有單詞,可以使用jieba分詞統計出來。混淆矩陣 混淆矩陣是資料科學 ...