python爬蟲基礎

一什麼是爬蟲

通常爬蟲是從某個**的某個頁面開始，爬取這個頁面的內容，找到網頁中的其他鏈結位址，然後從這個位址爬到下乙個頁面，這樣一直不停的爬下去，進去批量的抓取資訊。那麼，我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。

二爬蟲的基本流程

1，發起請求

向目標站點傳送乙個requests請求，包括額外的headers，url 等資訊。類似於我們輸入乙個**等待伺服器相應獲取網頁內容。

* 2，獲取響應內容*

得到的內容可能是html，可以使用正規表示式，網頁解析庫進行解析。也可能是json，可以直接轉為json物件解析。可能是二進位制資料，可以做儲存或者進一步處理。這一步相當於瀏覽器把伺服器端的檔案獲取到本地，再進行解釋並且展現出來。

4，儲存資料

儲存的方式可以是把資料存為文字，也可以把資料儲存到資料庫，或者儲存為特定的jpg，mp4 等格式的檔案

三 requests請求

包涵：

請求方式：通過get,post,head,put,delete方式請求資料。

請求url：用來定位所需資源位置資訊，任何乙個所需的資源都可以是使用url來定位它。

請求頭：請求頭包含請求時的頭部資訊，如user-agent（指定瀏覽器的請求頭），host，cookies等資訊；

請求體：請求體是請求是額外攜帶的資料，比如登入表單提交的登入資訊資料。

四 response

伺服器收到瀏覽器傳送的資訊後，能夠根據瀏覽器傳送資訊的內容，做出相應的處理，然後把訊息回傳給瀏覽器，這個過程就叫做http response。

返回的response包含：

響應狀態：200 表示成功

301 表示跳轉

404 表示找不到頁面

502 表示伺服器出錯

響應頭(response headers)：比如內容型別，內容長度，伺服器資訊，設定cookie等；

能抓到什麼樣的資料？

#這段**用來獲取此url下的二進位制資訊
import requests
resp=requests.get('',headers=headers)
print(resp.content) # 二進位制檔案使用content