個人對爬蟲框架的一些認知(四)

2021-09-24 07:33:20 字數 820 閱讀 7247

上章講解了**方面的使用知識點,本章給大家講下需要用到賬號的站點如何處理?

賬號其實就是對應著乙個cookie字串。有的站點不需要登入所謂的賬號,但是在請求的時候cookie設定那塊也需要帶上特定的值,這型別的站點我們也歸到賬號一類。我們為賬號體系設定了乙個標準的model如下截圖,這裡以mysql資料庫為例:

model的關鍵用處在於對賬號狀態的控制,我們把賬號體系隔離出來,單獨維護,爬蟲拿取賬號池可用的賬號,同時定期反饋當前使用賬號的狀態,賬號維護體系根據賬號狀態,及時調整賬號體系,同時也大致記錄統計下各種情況下該賬號累計的次數,賬號出現異常時也方便及時查詢原因。

站點登入這個好說,大部分都是可以直接通過http的方式登入上去的,把獲取下來的cookie及賬號密碼等資訊寫到這個資料庫表裡面即可。不能直接http的就用模擬瀏覽器的方式解決,兩者靈活結合起來90%以上的站點登入問題都闊以迎刃而解的。

站點需要的賬號量大怎麼辦呢?當然是找平台註冊咯,有需求就會有市場的,怎麼樣都會有人在做這塊的事情,只是相對隱蔽一些,畢竟是一些灰色產業,對於抓資料的團隊來說,必要的安全措施還是要注意的,賬號跟**配合著用吧,避免不必要的麻煩。另外再說一點,用的打碼平台、賬號註冊平台的賬號消費盡量不要大量集中式消費,可以分散賬號用哦,資料易抓取,風險需謹慎!

說個題外話,最近有看到乙個新聞是關於資料安全限制方面的,大家可以關注下,後續在獲取資料時候注意下,資料千萬條,安全第一條,違法又亂紀,親人兩行淚!

下一章關於異常處理體系:個人對爬蟲框架的一些認知(五)待定

對docker一些認知

關於docker 應用容器引擎 乙個完整的docker有以下幾個部分組成 dockerclient客戶端 docker daemon守護程序 docker image映象 dockercontainer容器 docker容器為什麼可以跨平台部署 docker映象和作業系統沒關係,docker最大的價...

個人對協議的一些理解

所謂協議,是虛無縹緲的東西,它僅僅是一套規範。協議需要具體的事物實現才有價值,具體到網路世界中,http協議是需要客戶端程式 瀏覽器 和伺服器容器程式 tomcat 共同實現的。假設http協議在傳輸層的協議就是tcp協議,那麼可以把瀏覽器和tomcat簡單的抽象成為兩個socket。乙個客戶端so...

個人對JS的一些見解

優點 1.廣泛,無論對於使用者還是開發者,可以說是最廣泛使用的程式語言 2.生態完美,多個端 多類庫 多種框架,眾多優秀團隊支援,迄今沒有任何一種語言能做到,真正的眾星拱月 3.能處理任何形式資料,特別是對於json的處理 4.易用,對初學相當友好,你只需要裝乙個瀏覽器,就能進行開發 5.特別適合於...