python3 爬蟲 04 解析鏈結的相關函式

2021-10-10 03:47:37 字數 1835 閱讀 9547

urlparse() 、urlunparse()

函式: urllib.parse.urlparse(urlstring, scheme='', allow_fragments=ture)

urlstring: 必填項。 scheme: 預設協議。

allow_fragments: 選擇是否忽略。如果它被設定為false, fragment部分

就會就會被忽略

返回乙個元組

scheme:協議, netloc:網域名稱, path:訪問路徑,

params:引數, query: 查詢條件, fragment:錨點

urllib.parse.urlunparse()

此函式接受乙個可迭代物件,必須傳遞6個引數!

不會單獨解析param,將其與path合併

urlunsplit()

urljoin()

提供乙個基礎鏈結(base_url)作為第乙個引數,將新鏈結作為第二個引數。

該方法會分析base_url的schme, netloc, path這三個內容對新鏈結缺失的部分進行補充,返回最後的結果

print

(urljoin(

'','faq.html'))

print

(urljoin(

'',''))

print

(urljoin(

'/about.html'

,''))

urlcode()、pares_qs()、pares_qsl()
urlcode(): 常用於構造get方法,傳入乙個字典

pares_qs(): 將get引數轉化為字典

pares_qsl(): 將get引數轉化為元組組成的列表

params =

base_url =

''url = base_uel+urlencode(params)

print

(url)

quote()、unquote()
quote():將內容轉化為url編碼格式

unquote(): 將內容進行解碼

keyword =

'孫全剛'

url =

''+ quote(keyword)

print

(url)

# 輸出:%e5%ad%99%e5%85%a8%e5%88%9a

url =

'%e5%ad%99%e5%85%a8%e5%88%9a'

print

(unquote(url)

)# 輸出:孫全剛

python3爬蟲資料解析實戰

如圖所示,我想獲取中畫紅框的src路徑 這裡我們用urlib請求下來資料,然後用beautifulsoup解析資料 python3 from bs4 import beautifulsoup import urllib.request url response urllib.request.urlo...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...