爬蟲第一步 獲取資料

2021-10-11 13:31:09 字數 825 閱讀 6092

在python中,可通過requests庫來獲取資料。

windows系統:在cmd命令視窗中輸入:pip install requests

mac系統:在terminal終端軟體中輸入:pip3 install requests

requests.get()用法如下:

#引入requests庫

import requests

#1.使用requests.get()方法獲取資源

#2.將獲取到的資源賦值給 an 變數

an = requests.get(

'www.4399.com'

)#列印 an 變數的資料型別,檢視通過requests.get()獲取的資源是什麼型別

print

(type

(an)

)

上述**執行後,會發現 an 變數屬於類屬性

作用response.status_code

返回響應狀態碼用於檢查連線是否成功

response.content

將response物件轉化為二進位制資料

response.text

將response物件轉化為字串資料

response.encoding

定義response物件的編碼

格式說明

意思1xx

收到請求

繼續提出請求

2xx請求成功

訪問成功

3xx重定向

應使用**訪問

4xx客戶端錯誤

禁止訪問

5xx服務段錯誤

服務不可用

爬蟲第一步

注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...

python爬蟲第一步 獲取頁面資料

第一步html頁面資料 最好是設定下頭部 資訊,不然伺服器檢查到你是用python請求的可能會把你 遮蔽掉 import urllib.request class gethtml object def init self url head self.url url self.head head de...

Python爬蟲 反爬蟲第一步

request urllib2.request headers headers response urllib2.urlopen request html response.read decode utf 8 print html print response.getcode response 是伺...