python爬蟲 urllib庫基本使用

2021-08-20 22:03:03 字數 1643 閱讀 8444

#匯入urllib

from urllib import request

# 明確url

base_url = ''

# 發起乙個http請求,返回乙個類檔案物件

response = request.urlopen(base_url)

# 獲取網頁內容

html = response.read().decode('utf-8')

#將網頁寫入檔案當中

f.write(html)

有些**通過獲取瀏覽器資訊判斷是否是機器在操作 因此我們需要構造請求頭

#匯入urllib
from urllib import request

base_url = ''

# 構造請求頭

headers =

# 構造請求物件

req = request.request(base_url,headers=headers)

# 發起請求

response = request.urlopen(req)

# 獲取網頁內容

html = response.read().decode()

#列印獲取的頁面**

print(html)

from urllib import request,parse

import random

#get要帶的值

qs =

#將攜帶的值轉換為瀏覽器識別的值

qs = parse.urlencode(qs)

#拼接url

base_url = 's?' + qs

#定義乙個頭列表用來隨機獲取

ua_list = [

]# 構造請求頭

headers =

# 構造請求物件

req = request.request(base_url,headers=headers)

# 發起請求

response = request.urlopen(req)

# 獲取請求內容

html = response.read().decode()html = response.read().decode()

from urllib import request,parse

base_url = ''

# 構造請求表單資料

form =

#將攜帶的值轉換為瀏覽器識別的值

form = parse.urlencode(form)

# 構建post請求 ,如果指定data引數 ,則請求是post請求

req = request.request(base_url,data=bytes(form,encoding='utf-8'))

# 發起http post請求

response = request.urlopen(req)

# 獲取響應內容(json)

data= response.read().decode()

python 爬蟲基礎篇 urllib庫

衣帶漸寬終不悔,為伊消得人憔悴。urllib.request模組 該模組是urllib的核心模組用於傳送請求,獲取請求返回結果。urlopen 發起請求 response urllib.request.urlopen url,data none,timeout,cafile none,capath ...

Python 爬蟲乾貨之urllib庫

小試牛刀 怎樣扒網頁呢?其實就是根據url來獲取它的網頁資訊,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段html 加 js css,如果把網頁比作乙個人,那麼html便是他的骨架,js便是他的肌肉,css便是它的衣服。所以最重要的部分是存在於html...

爬蟲之urllib庫

一 urllib的基本使用 import urllib.request response urllib.request.urlopen 獲取當前爬取網頁的狀態碼 print response.getcode decode 解碼 位元組資料轉成字串資料 data response.read decod...