NLP 相似度度量

一、提取特徵階段

1、tf-idf

簡介：tf-idf是一種統計方法，用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加，但同時會隨著它在語料庫**現的頻率成反比下降。

兩個重要的概念:

1) tf: 詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被歸一化（分子一般小於分母區別於idf），以防止它偏向長的檔案。（同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻，而不管該詞語重要與否。）

或者

2）idf: 逆向檔案頻率 (inverse document frequency, idf) 是乙個詞語普遍重要性的度量。某一特定詞語的idf，可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取對數得到。

需要乙個語料庫（corpus），用來模擬語言的使用環境。

如果乙個詞越常見，那麼分母就越大，逆文件頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文件都不包含該詞）。log表示對得到的值取對數。

計算tf-idf:

把單詞表示成固定維度的稠密的向量！

word2vec有兩種常用的資料準備方式：

3、預訓練模型

1）背景

預訓練模型最開始是在影象領域提出的，獲得了良好的效果，近幾年才被廣泛應用到自然語言處理各項任務中。

預訓練模型的應用通常分為兩步：

第一步：在計算效能滿足的情況下用某個較大的資料集訓練出乙個較好的模型

第二步：根據不同的任務，改造預訓練模型，用新任務的資料集在預訓練模型上進行微調。

2）思想：預訓練方法可以認為是讓模型基於乙個更好的初始狀態進行學習，從而能夠達到更好的效能。

3）分類：feature-based（以elmo為例）和 fine-tuning（以bert為例）

case1:feature-based一般指使用預訓練語言模型訓練出的詞向量作為特徵，輸入到下游目標任務中。

case2:fine-tuning方式是指在已經訓練好的語言模型的基礎上，加入少量的task-specific parameters，然後在新的語料上重新訓練來進行微調。

詞語和句子嵌入已經成為任何基於深度學習的自然語言處理系統的必備組成部分。它們將詞語和句子編碼成稠密的定長向量，從而大大地提公升神經網路處理文字資料的能力。

1、 word embedding

詞嵌入(word embedding)的概念。本小節之前的所有向量表示都是稀疏的，通常都是乙個高維的向量，向量裡面的元素大部分都是0。那麼embedding有什麼不一樣的呢？

embedding同樣也是用乙個向量來表示乙個詞，但是它是使用乙個較低的維度，稠密地表示。

好處：