python爬蟲基礎

2021-08-21 22:17:25 字數 1364 閱讀 8798

一 什麼是爬蟲

通常爬蟲是從某個**的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。

二 爬蟲的基本流程

1,發起請求

向目標站點傳送乙個requests請求,包括額外的headers,url 等資訊。類似於我們輸入乙個**等待伺服器相應獲取網頁內容。

* 2,獲取響應內容*

得到的內容可能是html,可以使用正規表示式,網頁解析庫進行解析。也可能是json,可以直接轉為json物件解析。可能是二進位制資料,可以做儲存或者進一步處理。這一步相當於瀏覽器把伺服器端的檔案獲取到本地,再進行解釋並且展現出來。

4,儲存資料

儲存的方式可以是把資料存為文字,也可以把資料儲存到資料庫,或者儲存為特定的jpg,mp4 等格式的檔案

三 requests請求

包涵:

請求方式:通過get,post,head,put,delete方式請求資料。

請求url:用來定位所需資源位置資訊,任何乙個所需的資源都可以是使用url來定位它。

請求頭:請求頭包含請求時的頭部資訊,如user-agent(指定瀏覽器的請求頭),host,cookies等資訊;

請求體:請求體是請求是額外攜帶的資料,比如登入表單提交的登入資訊資料。

四 response

伺服器收到瀏覽器傳送的資訊後,能夠根據瀏覽器傳送資訊的內容,做出相應的處理,然後把訊息回傳給瀏覽器,這個過程就叫做http response。

返回的response包含:

響應狀態:200 表示成功

301 表示跳轉

404 表示找不到頁面

502 表示伺服器出錯

響應頭(response headers):比如內容型別,內容長度,伺服器資訊,設定cookie等;

能抓到什麼樣的資料?

#這段**用來獲取此url下的二進位制資訊

import requests

resp=requests.get('',headers=headers)

print(resp.content) # 二進位制檔案使用content

python爬蟲基礎

爬蟲 爬蟲,全稱網路爬蟲,指按照一定的規則 模擬瀏覽器人工登入網頁的方式 自動抓取網路資訊資料的程式。簡單的說,就是將瀏覽器上網所能看到頁面上的內容通過爬蟲程式自動獲取下來,並進行儲存。爬蟲其實就是乙個程式自動收集獲取指定網路資料資訊的過程,網路資料資訊量十分龐大,人工獲取無法完成,這時就需要爬蟲來...

python 爬蟲基礎

urllib 或 requests re 01 r 大圖的 pat re.compile re 01 建立乙個正規表示式的模板 imgurls re.findall pat,data 開始匹配 print len imgurls imgurls i 0 for imgurl in imgurls i...

Python 爬蟲基礎

by 小?post請求 cookies session beautifulsoup庫 scrapy框架 import requests response requests.get 或者response requests.request get import requests kw headers p...