http協議
1.1headers是請求頭
request headers是傳送過去的請求,裡面包含了完整的http請求資料,在之後我們爬取**頁面時會用到。
get是獲取方式;
host是遠端主機位址;
connection客戶端希望的聯機方式;
accept是客戶端能接受的**型別;
user-agent標示瀏覽器的身份,爬蟲爬取時不可或缺的部分;
accept-encoding客戶端能接受的編碼型別;
accept-language我能接受哪種語言的顯示;
response headers是伺服器端的應答
http/1.1 200 ok 應答版本號 應答碼 是否成功
server 應答伺服器
content-type 應答的內容是什麼資料
last-modified 網頁上次修改時間
content-encoding 應答方式是什麼編碼
content-length 應答資料的大小
應答碼
2xx: 成功
200: ok
206 partial content
3xx: 重定向
301 moved permanently
303 see other
304 not modified
4xx:客戶端錯誤
400 bad request
404 not found
5xx: 服務端錯誤
500 internal server error
501 not implemented
1.2preview是預覽
1.3response應答的內容
1.4timing時間
python 協程 爬蟲
協程 又叫微執行緒 python的多執行緒沒法利用多核,只能用乙個核去切換,沒辦法實現真正的並行效果。多執行緒的意義,對於io密集型是有意義的。大部分處理都是io的,多執行緒是可以解決大多數情況的。但是解決不了並行的多程序。協程 非搶占式的程式,執行緒和程序都是搶占式的。協程也是要切換的,不過這種切...
Python基礎 協程
協程是一種使用者態的輕量級執行緒,本質上是單執行緒 協程擁有自己的暫存器上下文和棧。協程排程切換時,將暫存器上下文和棧儲存到其他地方,在切回來的時候,恢復先前儲存的暫存器上下文和棧。使用greenlet實現協程操作,greenlet需要手動進行切換 首先需要使用greenlet建立類似與堆疊空間,然...
http 協程與非同步 Python
協程是啥 簡單來說,協程是一種基於執行緒之上,但又比執行緒更加輕量級的存在。對於系統核心來說,協程具有不可見的特性,所以這種由 程式設計師自己寫程式來管理的輕量級執行緒又常被稱作 使用者空間執行緒 協程比多執行緒好在哪 適用場景 協程適用於被阻塞的,且需要大量併發的場景。不適用場景 協程不適用於存在...