文字分類學習(一) 開篇

2021-08-27 08:22:24 字數 928 閱讀 2632

今天開始,就要認真開始對待文字分類,在此之前只是稀疏的看過一些部落格,了解一下貝葉斯分類。之所以要學習文字分類,是因為我做的畢業設計就是關於文字分類和機器學習的。突然感覺到時間不太夠用了,而擺在我面前的實際上是乙個很浩大的工程,不得不抓緊時間開始研究。至於為什麼畢業設計會選擇文字分類演算法,因為覺得現在機器學習很熱門,不會點都不好意思說自己是搞電腦科學的,其次我想把自己的畢業設計可以和工作結合,並充分發揮作用。

很慶幸自己搞過演算法,高中數學還算不錯,這些是學習文字分類的優勢吧。如果可以我想把自己的學習和研究成果發表成**,並且將**在git上開源。

其實自己到目前為止對文字分類的概率依然不是很清晰,只是大概知道這麼些東西:

1.首先待分類的文字我們需要把它變成計算機能認識的東西,計算機能認識啥?(從底層來說只認識0和1)我們當然不能把一大段文字交給計算機。文字是由一些列詞組成的,於是我們可以把文字變成一系列詞的組合,在此之間需要對文字進行分詞 ,(這和我之前學習的搜尋引擎的分詞是一樣的,可以直接拿來用了,o(∩_∩)o哈哈~)。比如這篇文章進行分詞之後:("今天","開始","就要".......)這就是詞向量,也就是文字的特徵向量。在這之後還需要對詞進行加權重,這樣可以突出某些詞的重要性,在這篇文章中顯然"文字","分類"要比"今天","開始"更能代表文章的含義。關於文件向量就不細說了,畢竟只是開篇~

2.構造訓練集,事先我們得準備好很多很多個已經分好類的文字組成訓練集,當然對於所有的演算法是訓練集越大,分類的效果越好。

3.選擇分類演算法,構造分類器。就我目前知道的分類器有很多,比如決策樹,貝葉斯分類器,knn分類,svm支援向量機等等,還有adaboost增強訓練演算法。但是在網上,一些測試結果中都說svm演算法的效果是最好的,所以就先拿svm開刀了,貌似svm還是乙個挺複雜的演算法(難在它的數學知識,比如高維空間,核函式,很好奇是個什麼東西)。

4.分類待分類文字。

千里之行始於足下,同志們開始馬不停蹄的探索和學習吧。

文字分類學習(一) 開篇

今天開始,就要認真開始對待文字分類,在此之前只是稀疏的看過一些部落格,了解一下貝葉斯分類。之所以要學習文字分類,是因為我做的畢業設計就是關於文字分類和機器學習的。突然感覺到時間不太夠用了,而擺在我面前的實際上是乙個很浩大的工程,不得不抓緊時間開始研究。至於為什麼畢業設計會選擇文字分類演算法,因為覺得...

文字分類學習筆記(5) KNN

knn分類器實現,執行極慢不推薦 coding utf 8 from numpy import from scipy import sparse,io from sklearn.datasets import load files from sklearn.cross validation impo...

文字分類學習(六) AdaBoost和SVM

直接從特徵提取,跳到了boostsvm,是因為自己一直在寫程式,分析垃圾文字,和思考文字分類用於識別垃圾文字的短處。自己學習文字分類就是為了識別垃圾文字。中間的部落格待自己研究透徹後再補上吧。因為獲取垃圾文字的時候,發現垃圾文字不是簡單的垃圾文字,它們具有多個特性 1.種類繁多,難有共同的特徵。涵蓋...