python爬蟲基礎 http協議

2021-07-25 07:33:09 字數 1067 閱讀 1490

http協議

1.1headers是請求頭

request headers是傳送過去的請求,裡面包含了完整的http請求資料,在之後我們爬取**頁面時會用到。

get是獲取方式;

host是遠端主機位址;

connection客戶端希望的聯機方式;

accept是客戶端能接受的**型別;

user-agent標示瀏覽器的身份,爬蟲爬取時不可或缺的部分;

accept-encoding客戶端能接受的編碼型別;

accept-language我能接受哪種語言的顯示;

response headers是伺服器端的應答

http/1.1 200 ok 應答版本號 應答碼 是否成功

server 應答伺服器

content-type 應答的內容是什麼資料

last-modified 網頁上次修改時間

content-encoding 應答方式是什麼編碼

content-length 應答資料的大小

應答碼

2xx: 成功

200: ok

206 partial content

3xx: 重定向

301 moved permanently

303 see other

304 not modified

4xx:客戶端錯誤

400 bad request

404 not found

5xx: 服務端錯誤

500 internal server error

501 not implemented

1.2preview是預覽

1.3response應答的內容

1.4timing時間

python 協程 爬蟲

協程 又叫微執行緒 python的多執行緒沒法利用多核,只能用乙個核去切換,沒辦法實現真正的並行效果。多執行緒的意義,對於io密集型是有意義的。大部分處理都是io的,多執行緒是可以解決大多數情況的。但是解決不了並行的多程序。協程 非搶占式的程式,執行緒和程序都是搶占式的。協程也是要切換的,不過這種切...

Python基礎 協程

協程是一種使用者態的輕量級執行緒,本質上是單執行緒 協程擁有自己的暫存器上下文和棧。協程排程切換時,將暫存器上下文和棧儲存到其他地方,在切回來的時候,恢復先前儲存的暫存器上下文和棧。使用greenlet實現協程操作,greenlet需要手動進行切換 首先需要使用greenlet建立類似與堆疊空間,然...

http 協程與非同步 Python

協程是啥 簡單來說,協程是一種基於執行緒之上,但又比執行緒更加輕量級的存在。對於系統核心來說,協程具有不可見的特性,所以這種由 程式設計師自己寫程式來管理的輕量級執行緒又常被稱作 使用者空間執行緒 協程比多執行緒好在哪 適用場景 協程適用於被阻塞的,且需要大量併發的場景。不適用場景 協程不適用於存在...