python網路爬蟲入門之URL編碼模組

2021-10-03 13:21:08 字數 996 閱讀 2152

為什麼要給位址 編碼

我們在瀏覽器裡面輸入查詢引數時瀏覽器會自動給我們進行編碼,當我們用爬蟲程式進行獲取內容時瀏覽器識別不了我們所輸入的內容,所以就要編碼
給url位址中查詢引數進行編碼

編碼前:https:

美女編碼後:https:

%e7%be%

8e%e5%a5%b3

比如我們在瀏覽器裡輸入「美女」瀏覽器自動給我們生成%e7%be%8e%e5%a5%b3如下圖

url中乙個查詢引數

**查詢引數:

****urlencode編碼後:'wd=%e7%be%8e%e5%a5%b3'

**

url位址中 多個 查詢引數

from urllib import parse

query_string_dict =

示例1

from urllib import parse

string =

'美女'

print

(parse.quote(string)

)# 結果: %e7%be%8e%e5%a5%b3

示例

from urllib import parse

string =

'%e7%be%8e%e5%a5%b3'

result = parse.unquote(string)

print

(result)

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...

網路爬蟲之Beautifulsoup入門(二)

開啟beautifulsoup之旅 在使用之前,我們還需要配置解析器,本文及之後都使用python自帶的解析器 html.parser 更多解析器介紹及比較可參考本人部落格 beautiful soup4 之table資料提取。我們使用乙個最常見的例子來說明其使用方法 html doc the do...

網路爬蟲之BeautifulSoup入門(三)

3.點屬性 find find all 我們稱乙個tag的子節點指其包含的多個字串或其他的tag,如上篇1中的例子 不清楚的可以 點此檢視 我們可以使用獲取tag的name的方法來獲取資料,如 soup.head the dormouse s storytitle head 這種點屬性操作可以進行多...