機器學習文字挖掘

1.資料探勘與文字挖掘的區別（結構化資料，非結構化資料）

2.分詞方案（基於字串匹配，基於統計）

3.中英文預處理區別

英文：中文：

4.tf-idf缺點（缺點是有時候用詞頻來衡量文章中的乙個詞的重要性不夠全面，有時候重要的詞出現的可能不夠多，而且這種計算無法體現位置資訊，無法體現詞在上下文的重要性。如果要體現詞的上下文結構，那麼你可能需要使用word2vec演算法來支援。）

5.文字相似度計算（向量空間表示後計算余弦值）

6.如何用 word2vec 計算兩個句子之間的相似度？

7.歐氏距離和余弦相似度的區別是什麼？

在文字聚類中，一般是用歐氏距離還是余弦值？從stackoverflow這個帖子看，對於稀疏向量(文字向量顯然是稀疏的)，一般用cosine比較好clustering - euclidean distance is usually not good for sparse data?

8.樸素貝葉斯分類器和一般的貝葉斯分類器有什麼區別

9.文字降維（hash trick）

10.主題模型（gg）

機器學習 文字挖掘