文字分類（0） scrapy爬新浪滾動新聞

參考了：

謝謝學長給我的去年他們的爬蟲**

這基本上就是乙個從入門到差點放棄的故事。。**在最下面

這門課需要100萬的中文語料來做文字分類，所以還要自己爬一些。

xpath沒有獲取到任何東西，看了下網頁的原始碼，才發現資料是由ajax獲取的

然後發現了api是

就決定直接爬介面了。

返回的資料是下面這樣的

可能因為他用的jquery？？（純猜測）

嘗試了一下去掉了callback這個引數，返回的就是純json了。

page是頁碼，lid是新聞的類別，別的就不知道了沒試。

文字分類 libsvm

關於 libsvm 的介紹以及相關網上很多，感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料，選擇商業類文字 1001 篇，娛樂類文字 1208 篇，測試集 29904 篇。分別採用文件頻次，卡方分布，互資訊，資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後，就是將每一步整合起來。然後再盡可能的優化，使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法，當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...

文字分類概論

通過新增特定規則做分類任務，費時費力，覆蓋的範圍和準確率都非常有限。維護停用詞表包括高頻的代詞連詞介詞等特徵提取過程中刪除停用表現的詞等 1.詞袋模型 one hot編碼缺點高緯度高稀疏無法編碼上下文的關聯資訊，無法表達語義資訊。2.向量空間模型通過特徵選擇降低維度，特徵權重計算增加...

文字分類（0） scrapy爬新浪滾動新聞

文字分類 libsvm

文字分類四

文字分類概論

相關推薦