記錄szhk官網爬行（爬蟲）

一， szhk官網資料爬行

1，概況

在模擬m端的請求來爬取 szhk官網資料上，運用**ip來換ip爬取基本上已經通了，而運用多個ip並行爬取效率也打打提高，6分鐘左右爬取一天的。將szdata.php放置running資料夾下，cmd找的running資料夾下執行php szdata.php -i _all即可正常執行。

2，在並行爬取方式上

爬取封裝在post_curl函式中，該函式根據傳入的poststr陣列長度來獲取同數量的ip並同樣數量的並行處理，（傳入的有50個ip一組，不足50按其他算）

採用curl的並行處理方式curl_multi_init

具體可參照

然後說一下這四句是設定**ip的地方

3，在爬行演算法上

爬蟲裡面採用50個ip並行爬取，爬取成功率為80%~90%；所以爬取函式creep是乙個遞迴演算法，裡面有乙個失敗序列loser_list收集爬取這一天所有航線過程中失敗的序列，然後再呼叫creep函式用來處理每次爬取失敗序列，直到失敗序列為空函式則執行完畢

4，在ip****上

極光**自動去重按ip數量收費獲取ip方式api介面

現在每天給我10000個ip測試不知道還能用幾天；爬蟲**登入賬號：hahajing密碼：huhubin **：

如果它給你停了不給測試了就聯絡他們的客服，我就是聯絡客服說我要測試一下再決定買不買（偽裝成大客戶就可以）不過後面要上線可能就得付點費用了

雲**我也用過他們是按時間收費的，沒有自動查重。當然還有很多價效比更高的選擇，因為他們有乙個共同特點就是貴

5，對爬來的資料進行寫入資料庫，我現在爬取到的資料直接把所有json寫入資料庫了，而且在我的本地測試的時候我還是在用chjson這個表。可以建立乙個szjson將深圳航空資訊的起止城市，日期和對應json儲存於資料庫，然後再寫程式從資料庫的szjson表中篩選所需要的資訊。注意儲存返回的json字串的資料型別要用mediumtext，text的最大能存64k而有寫json超過了這個值會導致插入失敗，mediumtext最大能存16mk。

或longtext，都是可變長度型別。

6，採取換ip的原因

szhk官網封禁ip很嚴重，使用並行執行的原因是用ip**換ip來爬行效率不高

記錄szhk官網爬行（爬蟲）

10 10 010 簡介官網官網翻譯

ue4 官網IK流程記錄

Robolectric Shadows 官網翻譯

記錄szhk官網爬行（爬蟲）

10 10 010 簡介 官網 官網翻譯

ue4 官網IK流程記錄

Robolectric Shadows 官網翻譯

相關推薦

10 10 010 簡介官網官網翻譯