爬蟲程式的優化

維護人員近期反應我寫的爬取某**資料的程式執行比較慢，看了一下執行爬蟲的機器的狀態，磁碟io 100%了，於是想優化一下，減少磁碟io，關於減少磁碟io的最容易想到的方法就是記憶體緩衝區，我原來的程式設計的是每抓一條資料都會插入資料庫或者更新資料庫對應的資料，由於資源有限，資料庫和爬蟲程式都放在了一台機器上（更坑爹的是機器還很爛），多個城市的爬蟲程式一起執行的話，磁碟的io明顯就捉急了。具體的方案：

用乙個list陣列用來緩衝爬取的資料，暫定緩衝1000條資料（具體應該緩衝多少再一次提交能達到最佳效能這個就需要測試了），緩衝區滿了就一次性提交給資料庫去處理（拷貝該list單獨開乙個執行緒去提交資料庫同時清除緩衝list重新接受新資料？還是在當前執行緒中提交緩衝list給資料庫處理等處理完後再清除緩衝list繼續接受後續資料？前者占用更多的記憶體但提高了效率，後者則反之，先用後者把。），待資料庫處理完後，list.clear()清楚掉緩衝區的資料，準備接受後面的資料。這樣1000條資料就出發一次磁碟io，比原來的每一條資料觸發一次磁碟io的效率應該會高不少。

總結：以前總是會去考慮記憶體的不足，以後也應該考慮考慮磁碟io資源的緊張了。

爬蟲程式的優化

爬蟲程式的優化策略

優化爬蟲程式時需要注意哪幾點？

程式的優化

爬蟲程式的優化

爬蟲程式的優化策略

優化爬蟲程式時需要注意哪幾點？

程式的優化

相關推薦