python爬蟲 urllib庫基本使用

#匯入urllib
from urllib import request
# 明確url
base_url = ''
# 發起乙個http請求,返回乙個類檔案物件
response = request.urlopen(base_url)
# 獲取網頁內容
html = response.read().decode('utf-8')
#將網頁寫入檔案當中
f.write(html)

有些**通過獲取瀏覽器資訊判斷是否是機器在操作因此我們需要構造請求頭

#匯入urllib

from urllib import request
base_url = ''
# 構造請求頭
headers = 
# 構造請求物件
req = request.request(base_url,headers=headers)
# 發起請求
response = request.urlopen(req)
# 獲取網頁內容
html = response.read().decode()
#列印獲取的頁面**
print(html)

from urllib import request,parse
import random
#get要帶的值
qs = 
#將攜帶的值轉換為瀏覽器識別的值
qs = parse.urlencode(qs)
#拼接url
base_url = 's?' + qs
#定義乙個頭列表用來隨機獲取
ua_list = [
]# 構造請求頭
headers = 
# 構造請求物件
req = request.request(base_url,headers=headers)
# 發起請求
response = request.urlopen(req)
# 獲取請求內容
html = response.read().decode()html = response.read().decode()

from urllib import request,parse
base_url = ''
# 構造請求表單資料
form = 
#將攜帶的值轉換為瀏覽器識別的值
form = parse.urlencode(form)
# 構建post請求 ,如果指定data引數 ，則請求是post請求
req = request.request(base_url,data=bytes(form,encoding='utf-8'))
# 發起http post請求
response = request.urlopen(req)
# 獲取響應內容(json)
data= response.read().decode()

python 爬蟲基礎篇 urllib庫

衣帶漸寬終不悔,為伊消得人憔悴。urllib.request模組該模組是urllib的核心模組用於傳送請求，獲取請求返回結果。urlopen 發起請求 response urllib.request.urlopen url,data none,timeout,cafile none,capath ...

Python 爬蟲乾貨之urllib庫

小試牛刀怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html 加 js css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分是存在於html...

爬蟲之urllib庫

一 urllib的基本使用 import urllib.request response urllib.request.urlopen 獲取當前爬取網頁的狀態碼 print response.getcode decode 解碼位元組資料轉成字串資料 data response.read decod...

python爬蟲 urllib庫基本使用

python 爬蟲基礎篇 urllib庫

Python 爬蟲乾貨之urllib庫

爬蟲之urllib庫

相關推薦