Python網路爬蟲原理及基礎知識

爬蟲步驟

1.獲取網頁，使用urllib,requests等第三方庫構造http請求

2.提取資訊，使用正規表示式或者beautifulsoup，pyquery，lxml等工具分析網頁原始碼，提取所需要的資料

3.儲存資料，mongodb,mysql等多種工具

4.自動化程式，抓取過程中的批處理，異常處理，錯誤重試等操作

會話和cookie

原因：http協議對於事務處理沒有記憶能力，即伺服器不知道客戶端是什麼狀態，伺服器不會記錄處理請求前後客戶端的變化

會話物件：儲存特定使用者會話所需的屬性及配置資訊，當使用者請求來自應用程式的web頁時，如果該使用者還沒有會話則自動建立，會話過期或放棄後，伺服器終止會話，伺服器端。

會話維持：當客戶端第一次請求伺服器時，伺服器會返回乙個響應頭帶有set-cookie欄位的響應給客戶端，用以標記使用者，客戶端瀏覽器會把cookie放到請求頭一起提交給伺服器，cookie攜帶了會話id資訊，伺服器檢查該cookies即可找到對應的會話是什麼，然後再判斷會話來辨認使用者狀態。如果傳給伺服器的cookies是無效的或者會話過期，則返回錯誤響應或者跳轉登入介面重新登入。

**的基本原理

封ip：伺服器檢測某個ip在單位時間內的請求次數，如果超過了這個閾值，就會返回錯誤資訊

原理：作為web伺服器和客戶端請求的中轉站，客戶端向**伺服器提出請求，**伺服器向web伺服器傳送請求，接著**伺服器將web伺服器返回的響應**給本機

Python網路爬蟲原理及基礎知識

Python網路爬蟲基礎

Python爬蟲（2 網路爬蟲的實現原理及技術）

Python網路爬蟲基礎一

Python網路爬蟲 原理及基礎知識

Python網路爬蟲基礎

Python爬蟲（2 網路爬蟲的實現原理及技術）

Python網路爬蟲基礎 一

相關推薦

Python網路爬蟲原理及基礎知識

Python網路爬蟲基礎一