python爬蟲小例子

2021-08-14 14:27:56 字數 1738 閱讀 7837

**如下:

r.raise_for_status()的功能是判斷返回的狀態碼,如果狀態碼不是200(如404),則丟擲異常

來檢視user-agent屬性。

requests庫寫的**預設user-agent是』python-requests/x.xx.x』(x表示版本號)。如果訪問不成功,可嘗試修改』user-agent』屬性。

方法如下:

1. 先構建乙個字典

ua=

其中」mozilla/5.0」是瀏覽器的普遍標識。

2. 在get方法裡面加乙個引數

r=requests.get(url,headers=ua)

這時就可以模仿瀏覽器訪問了。

完整**:

import requests

url=""

ua=r=requests.get(url)

print r.request

.headers

r=requests.get(url,headers=ua)

print r.request

.headers

結果:

wd="環家偉"

url=url+wd

r=requests.get(url)

print r.text

第一行裡面# coding: utf-8是宣告編碼的,不寫的話將不能識別中文。

重點是這句,字串拼接一下

url=""

wd="環家偉"

url=url+wd

# coding: utf-8

import requests

url=""

kv=r=requests.get(url,params=kv)

r.encoding="utf-8"

print r.text[:2000]

其中,這個網頁不設定r.encoding是亂碼的,所以設為utf-8

提交搜尋詞的方法也是構建乙個字典鍵值對

kv=

然後通過get方法傳進去

r=requests.get(url,params=kv)

r.text[:2000]是取字串0-2000的部分

「`tips:可以通過r.request.url來檢視生成的鏈結

Go 爬蟲小例子

爬取指定頁面 func working start,end int 將讀到的資料儲存成乙個檔案 file,err os.create 第 strconv.itoa i 頁 html 迴圈讀取網頁資料 緩衝區 buf make byte,2048 forif err nil err io.eof 累加...

python爬蟲入門 開發環境與小例子

現在來詳細講解 import requests 就是匯入了requests庫,這是乙個爬蟲庫 r requests.get r是乙個response 物件。我們可以從這個物件中獲取所有我們想要的資訊。requests.get函式引數是url,返回值是乙個response 物件。r.encoding ...

python爬蟲 兩個簡單的小例子

import requests url value input search headers param response requests.get url url,params param,headers headers response.encoding utf 8 亂碼 page conten...