記錄szhk官網爬行(爬蟲)

2021-08-22 16:22:48 字數 1312 閱讀 3401

一, szhk官網資料爬行

1, 概況

在模擬m端的請求來爬取 szhk官網資料上,運用**ip來換ip爬取基本上已經通了,而運用多個ip並行爬取效率也打打提高,6分鐘左右爬取一天的。將szdata.php放置running資料夾下,cmd找的running資料夾下執行php szdata.php -i _all即可正常執行。

2, 在並行爬取方式上

爬取封裝在post_curl函式中,該函式根據傳入的poststr陣列長度來獲取同數量的ip並同樣數量的並行處理,(傳入的有50個ip一組,不足50按其他算)

採用curl的並行處理方式curl_multi_init

具體可參照

然後說一下這四句是設定**ip的地方

3, 在爬行演算法上

爬蟲裡面採用50個ip並行爬取,爬取成功率為80%~90%;所以爬取函式creep是乙個遞迴演算法,裡面有乙個失敗序列loser_list收集爬取這一天所有航線過程中失敗的序列,然後再呼叫creep函式用來處理每次爬取失敗序列,直到失敗序列為空函式則執行完畢

4, 在ip****上

極光**自動去重按ip數量收費獲取ip方式api介面

現在每天給我10000個ip測試不知道還能用幾天;爬蟲**登入賬號:hahajing密碼:huhubin **:

如果它給你停了不給測試了就聯絡他們的客服,我就是聯絡客服說我要測試一下再決定買不買(偽裝成大客戶就可以 )不過後面要上線可能就得付點費用了

雲**我也用過他們是按時間收費的,沒有自動查重。當然還有很多價效比更高的選擇,因為他們有乙個共同特點就是貴

5, 對爬來的資料進行寫入資料庫,我現在爬取到的資料直接把所有json寫入資料庫了,而且在我的本地測試的時候我還是在用chjson這個表。可以建立乙個szjson將深圳航空資訊的起止城市,日期和對應json儲存於資料庫,然後再寫程式從資料庫的szjson表中篩選所需要的資訊。注意儲存返回的json字串的資料型別要用mediumtext,text的最大能存64k而有寫json超過了這個值會導致插入失敗,mediumtext最大能存16mk。

或longtext,都是可變長度型別。

6,採取換ip的原因

szhk官網封禁ip很嚴重,使用並行執行的原因是用ip**換ip來爬行效率不高

10 10 010 簡介 官網 官網翻譯

netty是 乙個非同步事件驅動的網路應用程式框架,用於快速開發可維護的高效能協議伺服器和客戶端。netty是乙個nio客戶端伺服器框架,可以快速輕鬆地開發協議伺服器和客戶端等網路應用程式。它極大地簡化並簡化了tcp和udp套接字伺服器等網路程式設計。快速簡便 並不意味著最終的應用程式會受到可維護性...

ue4 官網IK流程記錄

這裡注意下make vector時把z方向的偏移量設定到了x上 猜測原因是效應器的x方向跟世界座標的z方向相同 這個可以在two bone ik中調整效應器,然後看效應器的位置數值得到驗證 效應器的x軸和世界座標z軸完全對應,是朝上的 但是其他兩個軸和世界座標不對應,是另乙個獨立的相對座標系,應該是...

Robolectric Shadows 官網翻譯

robolectric 通過建立乙個包含真實android 框架 的執行時環境來進行工作。這意味著,當你的測試或被測試 呼叫到android框架時,你會獲得更真實的體驗,因為這跟在實際裝置上執行的大部分 都是相同的。然而還是有一些限制 native code 源 android源 不能在你的開發機器...