Python之爬蟲學習記錄簿

2021-10-07 09:21:54 字數 1017 閱讀 4085

作為python爬蟲初學者,想用用筆記記錄一下學到的知識點,畢竟書看完就吃灰,還是得習慣電子筆記才是。內容簡略,僅供參考。

1.**示例:

import urllib.request

response = urllib.request.urlopen(

'請求的url'

)

這樣就完成了最簡單的請求,接下來就可以進行提取資訊等操作了。

urlopen()函式還可以傳入其他可選引數,data(構造post請求,傳入的資料應用bytes()方法轉化為位元組流編碼格式),timeout(超時時間,單位是秒)

2.**示例:

request構造請求:

import urllib.request

request = urllib.request.request( url,data(位元組流)

,headers(請求頭)

,origin_req_host(請求方ip)

,unverifiable(預設false

,請求是否驗證)

,method(字串,指定請求方法)

)

1.**示例:

from urllib.parse import urlparse

result = urlparse(url)

urlparse()方法拆解url,相反urlunparse()方法合成url。

2.**示例:

from urllib.parse import urlencode

params =

base_url =

''url = base_url + urlencode(params)

print

(url)

執行得到結果:

18urlencode()非常好用,可以把引數用字典表示,然後可以直接構造。

Python之爬蟲學習記錄簿(3)

基本庫更完了,更一下re,當然只是用於提取資訊的簡略內容。re官方文件 re文件 1,match 嘗試從字串起始位置匹配正規表示式,如果匹配,返回匹配成功的結果,否則返回none。匹配任意盡可能多的字元,匹配盡可能少的任意字元。2,search 掃瞄整個字串,返回第乙個匹配成功的結果。3,finda...

Python之爬蟲學習(七) 問題記錄

1 ip質量問題 獲取到的 ip可能會失效,所以需要多次校驗ip的質量及記錄問題url重新請求 獲取時校驗 獲取可用ip print self.urlproxylist 使用時再次校驗 def getusefulproxy self proxy random.choice self.urlproxy...

python爬蟲入門學習記錄

在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了 pip install requests pip install beautifulsoup4 beautifulsoup4使用手冊 簡單的示列 import requests 匯入requests包 url strh...