從研招網爬取招生目錄

工具：火車採集器、八爪魚、jupyter notebook、excel

過程略顯繁瑣，剛入門不了解工具的使用，應該有更好的方法

這裡僅僅提供自己的一種思路，適合程式設計小白

手動收集**（第一級**），研招網由於是使用表單對資料進行篩選，不同表單查詢出來的資料不一樣，我們不需要所有資料，根據網域名稱規則，選擇需要爬取的**。主要資訊有院校、專業，你開啟乙個**可以看到上面的區別。只需要更改為你需要爬取的就行。或者開啟網頁後直接複製貼上，這裡我選擇不同的學校，35所985院校，其他的資訊一樣，所以一共有35個一級**。

用火車採集器收集二級**，火車採集器的特點是速度快，缺點是結果不能直接轉換為 excel ，而且不是視覺化，對於新手來說上手有些難，所以用來爬取二級**。

用 python 將**補全，由於所有的**只有乙個 id 不同，爬取出來的二級**也只是id ，因此需要做乙個補全。

利用補全的**爬取內容，使用八爪魚爬取內容的好處是，有視覺化編輯的頁面，方便我們檢視到需要爬取的內容，而且可以轉化為 excel 支援的格式，方便我們後期做資料彙總，缺點是爬取的效率太慢，有時候可能需要爬取一兩個小時。本來上述工作都能夠使用八爪魚完成，是因為太慢的才使用火車採集器來爬取二級**，可以節省一部分時間。

後期實踐表明，用八爪魚跟網路有很大關係，卡住的時候會很慢。跟爬取規則可能關係不打。

從研招網爬取招生目錄

爬取研招網，考研動態！一手情報，你考研過了嗎？

scrapy爬蟲》爬取騰訊社招資訊

研招網考研出成績自動鳴笛指令碼

從研招網爬取招生目錄

爬取研招網，考研動態！一手情報，你考研過了嗎？

scrapy爬蟲》爬取騰訊社招資訊

研招網考研出成績自動鳴笛指令碼

相關推薦