文字分類學習（一）開篇

今天開始，就要認真開始對待文字分類，在此之前只是稀疏的看過一些部落格，了解一下貝葉斯分類。之所以要學習文字分類，是因為我做的畢業設計就是關於文字分類和機器學習的。突然感覺到時間不太夠用了，而擺在我面前的實際上是乙個很浩大的工程，不得不抓緊時間開始研究。至於為什麼畢業設計會選擇文字分類演算法，因為覺得現在機器學習很熱門，不會點都不好意思說自己是搞電腦科學的，其次我想把自己的畢業設計可以和工作結合，並充分發揮作用。

很慶幸自己搞過演算法，高中數學還算不錯，這些是學習文字分類的優勢吧。如果可以我想把自己的學習和研究成果發表成**，並且將**在git上開源。

其實自己到目前為止對文字分類的概率依然不是很清晰，只是大概知道這麼些東西：

1.首先待分類的文字我們需要把它變成計算機能認識的東西，計算機能認識啥？（從底層來說只認識0和1）我們當然不能把一大段文字交給計算機。文字是由一些列詞組成的，於是我們可以把文字變成一系列詞的組合，在此之間需要對文字進行分詞，（這和我之前學習的搜尋引擎的分詞是一樣的，可以直接拿來用了，o(∩_∩)o哈哈~）。比如這篇文章進行分詞之後：（"今天","開始","就要".......）這就是詞向量，也就是文字的特徵向量。在這之後還需要對詞進行加權重，這樣可以突出某些詞的重要性，在這篇文章中顯然"文字"，"分類"要比"今天","開始"更能代表文章的含義。關於文件向量就不細說了，畢竟只是開篇~

2.構造訓練集，事先我們得準備好很多很多個已經分好類的文字組成訓練集，當然對於所有的演算法是訓練集越大，分類的效果越好。

3.選擇分類演算法，構造分類器。就我目前知道的分類器有很多，比如決策樹，貝葉斯分類器，knn分類，svm支援向量機等等，還有adaboost增強訓練演算法。但是在網上，一些測試結果中都說svm演算法的效果是最好的，所以就先拿svm開刀了，貌似svm還是乙個挺複雜的演算法（難在它的數學知識，比如高維空間，核函式，很好奇是個什麼東西）。

4.分類待分類文字。

千里之行始於足下，同志們開始馬不停蹄的探索和學習吧。

文字分類學習（一）開篇

文字分類學習（一）開篇

文字分類學習筆記（5） KNN

文字分類學習（六） AdaBoost和SVM

文字分類學習（一） 開篇

文字分類學習（一） 開篇

文字分類學習筆記（5） KNN

文字分類學習（六） AdaBoost和SVM

相關推薦

文字分類學習（一）開篇

文字分類學習（一）開篇