從研招網爬取招生目錄

2021-09-22 16:40:13 字數 655 閱讀 9057

工具:火車採集器、八爪魚、jupyter notebook、excel

過程略顯繁瑣,剛入門不了解工具的使用,應該有更好的方法

這裡僅僅提供自己的一種思路,適合程式設計小白

手動收集**(第一級**),研招網由於是使用表單對資料進行篩選,不同表單查詢出來的資料不一樣,我們不需要所有資料,根據網域名稱規則,選擇需要爬取的**。主要資訊有 院校、專業,你開啟乙個**可以看到上面的區別。只需要更改為你需要爬取的就行。或者開啟網頁後直接複製貼上,這裡我選擇不同的學校,35所985院校,其他的資訊一樣,所以一共有35個一級**。

用火車採集器收集二級**,火車採集器的特點是速度快,缺點是結果不能直接轉換為 excel ,而且不是視覺化,對於新手來說上手有些難,所以用來爬取二級**。

用 python 將**補全,由於所有的**只有乙個 id 不同,爬取出來的二級**也只是id ,因此需要做乙個補全。

利用補全的**爬取內容,使用八爪魚爬取內容的好處是,有視覺化編輯的頁面,方便我們檢視到需要爬取的內容,而且可以轉化為 excel 支援的格式,方便我們後期做資料彙總,缺點是爬取的效率太慢,有時候可能需要爬取一兩個小時。本來上述工作都能夠使用八爪魚完成,是因為太慢的才使用 火車採集器 來爬取二級**,可以節省一部分時間。

後期實踐表明,用八爪魚跟網路有很大關係,卡住的時候會很慢。跟爬取規則可能關係不打。

爬取研招網,考研動態!一手情報,你考研過了嗎?

爬取研招網 考研動態所有的文章的的的的的 我是分割線.import csv import time import requests from bs4 import beautifulsoup 1234 這裡爬取鏈結用的是xpath,畢竟bs4的強項還是在處理文字上,下面獲取具體內容全部用的bs4 這...

scrapy爬蟲》爬取騰訊社招資訊

dos視窗輸入 scrapy startproject tencent cd tencent coding utf 8 define here the models for your scraped items see documentation in import scrapy class ten...

研招網考研出成績自動鳴笛指令碼

等待過於焦慮,於是寫乙個自動鳴笛 來檢測是否出成績。出成績自動呼叫winsound.messagebeep 主函式裡check new傳入學校 即可。import requests import json import winsound import time defalert print aaa ...