python3 爬蟲 04 解析鏈結的相關函式

urlparse() 、urlunparse()

函式: urllib.parse.urlparse(urlstring, scheme='', allow_fragments=ture)

urlstring: 必填項。 scheme: 預設協議。

allow_fragments: 選擇是否忽略。如果它被設定為false， fragment部分

就會就會被忽略

返回乙個元組

scheme：協議， netloc：網域名稱， path：訪問路徑，

params：引數， query：查詢條件， fragment：錨點

urllib.parse.urlunparse()

此函式接受乙個可迭代物件，必須傳遞6個引數！

不會單獨解析param,將其與path合併

urlunsplit()

urljoin()

提供乙個基礎鏈結(base_url)作為第乙個引數,將新鏈結作為第二個引數。

該方法會分析base_url的schme, netloc, path這三個內容對新鏈結缺失的部分進行補充，返回最後的結果

print
(urljoin(
'','faq.html'))
print
(urljoin(
'',''))
print
(urljoin(
'/about.html'
,''))

urlcode()、pares_qs()、pares_qsl()

urlcode(): 常用於構造get方法，傳入乙個字典
pares_qs(): 將get引數轉化為字典
pares_qsl(): 將get引數轉化為元組組成的列表

params =
base_url =
''url = base_uel+urlencode(params)
print
(url)

quote()、unquote()

quote():將內容轉化為url編碼格式
unquote(): 將內容進行解碼

keyword =
'孫全剛'
url =
''+ quote(keyword)
print
(url)
# 輸出：%e5%ad%99%e5%85%a8%e5%88%9a
url =
'%e5%ad%99%e5%85%a8%e5%88%9a'
print
(unquote(url)
)# 輸出：孫全剛

python3爬蟲資料解析實戰

如圖所示，我想獲取中畫紅框的src路徑這裡我們用urlib請求下來資料，然後用beautifulsoup解析資料 python3 from bs4 import beautifulsoup import urllib.request url response urllib.request.urlo...

python3爬蟲實戰（3）

今天心血來潮去爬取了一下招聘的實時招聘資訊。是選的條件是北京，實習生，計算機軟體。分析之後發現還是很容易的，不過過程中出了不少小問題，在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後，tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊，作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單，環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯，因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3 爬蟲 04 解析鏈結的相關函式

python3爬蟲資料解析實戰

python3爬蟲實戰（3）

python3 爬蟲入門

相關推薦