python網路爬蟲入門之URL編碼模組

為什麼要給位址編碼

我們在瀏覽器裡面輸入查詢引數時瀏覽器會自動給我們進行編碼,當我們用爬蟲程式進行獲取內容時瀏覽器識別不了我們所輸入的內容,所以就要編碼

給url位址中查詢引數進行編碼

編碼前：https: 美女編碼後：https: %e7%be% 8e%e5%a5%b3

比如我們在瀏覽器裡輸入「美女」瀏覽器自動給我們生成%e7%be%8e%e5%a5%b3如下圖

url中乙個查詢引數

**查詢引數： ****urlencode編碼後：'wd=%e7%be%8e%e5%a5%b3'

**

url位址中多個查詢引數

from urllib import parse
query_string_dict =

示例1

from urllib import parse
string =
'美女'
print
(parse.quote(string)
)# 結果: %e7%be%8e%e5%a5%b3

示例

from urllib import parse
string =
'%e7%be%8e%e5%a5%b3'
result = parse.unquote(string)
print
(result)

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫，beautiful soup 安裝該庫 pip3 install beautifulsou...

網路爬蟲之Beautifulsoup入門（二）

開啟beautifulsoup之旅在使用之前，我們還需要配置解析器，本文及之後都使用python自帶的解析器 html.parser 更多解析器介紹及比較可參考本人部落格 beautiful soup4 之table資料提取。我們使用乙個最常見的例子來說明其使用方法 html doc the do...

網路爬蟲之BeautifulSoup入門（三）

3.點屬性 find find all 我們稱乙個tag的子節點指其包含的多個字串或其他的tag，如上篇1中的例子不清楚的可以點此檢視我們可以使用獲取tag的name的方法來獲取資料，如 soup.head the dormouse s storytitle head 這種點屬性操作可以進行多...

python網路爬蟲入門之URL編碼模組

python網路爬蟲入門

網路爬蟲之Beautifulsoup入門（二）

網路爬蟲之BeautifulSoup入門（三）

相關推薦