文字分類(0) scrapy爬新浪滾動新聞

2021-08-31 21:26:18 字數 2596 閱讀 8993

參考了:

謝謝學長給我的去年他們的爬蟲**

這基本上就是乙個從入門到差點放棄的故事。。**在最下面

這門課需要100萬的中文語料來做文字分類,所以還要自己爬一些。

xpath沒有獲取到任何東西,看了下網頁的原始碼,才發現資料是由ajax獲取的

然後發現了api是

就決定直接爬介面了。

返回的資料是下面這樣的

可能因為他用的jquery??(純猜測)

嘗試了一下去掉了callback這個引數,返回的就是純json了。

page是頁碼,lid是新聞的類別,別的就不知道了沒試。

文字分類 libsvm

關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後,就是將每一步整合起來。然後再盡可能的優化,使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法,當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...

文字分類概論

通過新增特定規則做分類任務,費時費力,覆蓋的範圍和準確率都非常有限。維護停用詞表 包括高頻的代詞連詞介詞等 特徵提取過程中刪除停用表 現的詞等 1.詞袋模型 one hot編碼 缺點 高緯度 高稀疏 無法編碼上下文的關聯資訊,無法表達語義資訊。2.向量空間模型 通過特徵選擇降低維度,特徵權重計算增加...