文字資料探勘詞向量

中文資料探勘的難點在於如何把文字變成計算機處理的向量，乙個好的詞向量方法可以提公升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下，方便自己複習和其他感興趣的小夥伴交流學習。

使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了，方便後期的資料探勘工作的展開。

詞向量技術：我接觸的大致可以分成（1）基於統計的方法（2）基於圖的方法（3）基於主題模型的方法（4）基於深度學習的方法

（1）基於統計的方法：

相似度，卡方，互資訊(優點：可以得到對結果影響大的詞；缺點：計算量比較大，需要先驗知識，比如類別)

tf-idf (優點：簡單、效果不錯，可以得到每個詞的權重；缺點：沒考慮詞的順序，需要多篇語料才能得到比較好的詞)

n-gram (優點：2-gram以上考慮了詞順序，提公升了效果；缺點：隨著n的增大，字典迅速擴大，而且訓練用的向量特別稀疏)

bag of words （one hot編碼，優點：簡單；缺點：沒有對詞進行過濾，導致詞比較多，進而影響字典的數量，而且沒有考慮詞頻，以及詞的順序）

（2）基於圖的方法：

textrank(優點：把網頁排名的演算法pagerrank進行變化，得到每個詞的重要性，可以針對一篇文章得到重要的詞語；缺點：計算複雜度比較高)

(3)基於主題模型的方法

lda (使用了共現矩陣；缺點：沒有考慮詞序)

plsa

svd

(4)基於深度學習的方法：

word2vec(優點：考慮了詞的上下文資訊，通過神經網路的投影層得到詞向量，屬於有監督的學習方法，這裡的有監督的意思是把中間詞one-hot的編碼看成已知的向量進行訓練模型，如果考慮是否使用了文章的類別，是無監督的方法；缺點：計算量比較大，訓練時間比較久）

doc2vec()

fasttext(優點：優化了word2vec，使速度大範圍提公升，不用生成詞向量了，直接用於分類等其他任務，屬於有監督的學習方法)

實際應用中，可能是多種方法聯合使用，比如先用tf-idf進行一遍過濾，然後再使用其他方法處理。

先總結這麼多，後面有新的東西再加

文字資料探勘（Text Data Mining）

文字資料探勘 text data mining 是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。文字資料探勘是應用驅動的，在商務智慧型 business intelligence 資訊檢索 information retrieval 生物資訊處理等方面都有應用。按照挖掘物件的不同，可以將td...

文字資料探勘部落格摘錄

1 中文分詞領域中相較於分詞歧義而言跟讓人頭疼的乙個問題未登入詞。問題分詞依賴詞庫，但是一些網路新詞，機構名稱等未登入詞卻不存在於詞庫中，這樣一來，依賴於詞庫分詞得到的結果並不是那麼可靠。一種想法是，通過詞的特徵將詞從語料中提取出來，對比詞庫得到新詞。但是怎樣的文字片段才算乙個詞？答在考慮了詞...

視覺化文字資料詞云

在r語言的包裡面，有乙個wordcloud的包，專門用來建立這種型別的圖形，它是由加州大學洛杉磯分校的專業統計學家ian fellows編寫的。下面用幾句簡單的r語言即可繪製出一張詞云 library wordcloud library tm library nlp getwd sms corpus...

文字資料探勘 詞向量

文字資料探勘（Text Data Mining）

文字資料探勘部落格 摘錄

視覺化文字資料 詞云

相關推薦

文字資料探勘詞向量

文字資料探勘部落格摘錄

視覺化文字資料詞云