文字蘊含日記3 句子編碼

中文分詞之後需要對資料進行特徵構造，也可以說成特徵轉換。再處理文字資料時，基於「向量空間模型」這一概念，可以通過詞袋模型、n-gram模型、詞向量來進行特徵構造。

（1）向量空間模型（vsm:vector space moudle ）

向量空間模型把文字內容的處理簡化為向量空間中的運算，並且以空間上的相似度表達語義的相似度，直觀易懂。

（2）詞袋模型

在傳統的詞袋模型中，對於每乙個詞採用one-hot稀疏編碼的形式。假設目標語料中共有n個唯一確認的詞，那麼需要乙個長度為n的詞典，詞典的每乙個位置表達了文字**現的某乙個詞。在某一種特徵表達下，比如詞頻、binary、tf-idf等，我們可以將任意詞或者文字表達放在乙個n維的向量空間裡。

例如，通過求每乙個單詞的tf-idf值，就可以用tf-idf值代替單詞，將文字轉換成乙個向量。

tf-idf演算法，tf意思是詞頻（term frenquency），idf意思是逆文字頻率指數（inverse document frenquency）。它是一種用於資訊檢索和資料探勘的常用加權技術，用以評估一字詞對於檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加，但同時會隨著它在語料庫**現的頻率成反比下降。

具體步驟如下：

● 將所有分詞後的文字，按單詞為最小單位去重，構成乙個詞彙表。

● 計算詞彙表中每乙個單詞的tf-idf值，可以將tf-idf值較小詞直接提出，這樣可以減少向量的維度。

● 用詞彙表將每乙個文字轉化成維度一樣的向量，並且非零值即為單詞所對應的tf-idf值。

（3）n-gram模型

n-gram模型是一種統計語言模型，其作用是根據前n-1個item來**第n個item。n-gram被廣泛地應用於語音識別、輸入法、分詞等任務，當n分別為1、2、3時，有分別稱為一元語法（unigram）、二元語法（bigram）與三元語法（trigram）。可用n-gram模型來構造分類任務的資料特徵。

（4）詞向量

當特徵資料集構造完成後，可能會出現特徵矩陣過大，從而導致計算量大，訓練時間長等一系列問題，因此降低特徵矩陣維度也是必不可少的。機器學習中常見的特徵降維方法有：l1懲罰項的模型、主成分分析法（pca）、線性判別分析（lda）。pca和lda有很多的相似點，它們的共同原理是將原始樣本對映到維度更低的樣本空間中。pca是一種無監督的降維方法，而lda是一種有監督的降維方法。在自然語言處理中常用的是主題模型，其兼備了降維和語義表達的效果，比如lsi、lda、plsa、hdp等統計主題模型。這些模型尋求在低維空間（不同主題）上的表達，在降低維度的同時，盡可能保留原有文字的語義資訊。主題模型在處理中長度文字分類任務時非常有效。

文字蘊含日記3 句子編碼

文字蘊含日記1 中文分詞

文字蘊含日記2 注意力機制

學習日記 3

文字蘊含日記3 句子編碼

文字蘊含日記1 中文分詞

文字蘊含日記2 注意力機制

學習日記 3

相關推薦