短文本相似度計算

短文本的相似度計算方法可以分為兩大類：基於深度學習的方法和基於非深度學習的方法。科研方面基本都是從深度學習方面入手，但個人覺得想把單語言的短文本相似度計算給做出花來比較難，相對而言基於深度學習的跨語言相似度計算稍微好點。工程方面多半不用深度學習的方法，主要是獲取帶標記的語比較難的(除非公司花錢找人標)。下面我將結合自己做過的相似度計算的任務，從深度學習和非深度學習兩個角度說一下文字相似度計算。

首先來說一下基於深度學習的文字相似度計算。在開始表演之前請允許我說一下故事背景。我們要做乙個網路查詢推薦，即類似於圖1一樣：使用者輸入查詢內容，網頁給出一些合理的推薦（這些推薦可以是之前**日誌記錄下的之前使用者的查詢資訊）。為了從日誌之中選出與使用者查詢內容最貼切的推薦返回給使用者，我們需要計算使用者輸入的查詢內容q和候選推薦s(s=)的相似度，並根據相似度返回對應的推薦給使用者。

在上述任務中，我們利用siamese network（見圖2）計算文字相似度。考慮到候選推薦s會比較大且真實的語料比較短，我們使用cnn做siamese network的基本機構，這樣我們在提高速度的同時也能保證效能。使用cnn的乙個好處就是我們可以很好地共享兩個cnn的引數，為此，我們比較了三種情況下模型效能結果。一種是兩個cnn不共享引數；另種是兩個cnn共享部分引數；最後一種是兩個cnn全部共享引數。實驗的結果顯示，在同一種語言(查詢和推薦的屬於同一種語言)的情況下，兩個cnn共享的引數越多模型的效能越好，在不同語言(查詢和推薦屬於不同的語言)的情況下兩個cnn共享的引數越多模型的效能越差。

圖2 siamese network

比較二者差異的主要由查詢語言和候選推薦語言是否一致造成的。當兩者一致時，用語習慣相同，使用一套引數能更好的擬合他們的分布；但當兩者不一致時，二者的語言環境差異很大，用一套引數很難同時模型二者的分布。使用cnn做相似度計算還是很難獲得句子整體的語義資訊，使用膨脹cnn(idcnn)做siamese network的基本單元效果應該會更好。另外把兩個句子任意兩個詞語的相似度組成的矩陣當成是處理也可以很好地適用於查詢推薦的，且聽nlpcc會議上的老師介紹，在資料較少的情況下這種方法更加實用。

綜上，文字相似度的計算還是由不少難點需要我們去克服的，這些難點往往涉及底層的nlp知識，感覺任重而道遠。

短文本相似度計算

Python短文本相似度比較

計算文字相似度

文字相似度計算

相關推薦