爬蟲學習筆記01

2021-10-04 10:13:22 字數 1861 閱讀 2603

固定部分

import requests

base_url =

''headers =

params =

response = requests.

get(base_url, headers = headers, params = params)

第一種

—讀取後顯示為亂碼

—通過檢視網頁原始碼查詢到網頁編碼格式為gbk

—修改編碼格式後,網頁得到正確顯示

第二種

response_str = response.text

with

open

('sina_news1.html'

,'w'

, encoding =

'gbk'

)as fp:

fp.write

(response_str)

1.編碼錯誤

使用gbk編碼有時會出現錯誤,導致執行失敗,

分別對應上述第一種,與第二種

第一種

第二種

解決方法:

response_str = response.content.

decode

('utf-8'

)with

open

('sina_news1.html'

,'w'

, encoding =

'utf-8'

,errors =

'ignore'

)as fp:

fp.write

(response_str)

選擇忽略錯誤:這裡只適用於第二種,因為第一種情況在第一行**就開始解碼

2.拼接url

此方法相較於requests模組更為繁瑣,但是當需要拼接帶中文的url時,

使用parse.urlencode(params)可以直接獲得

python爬蟲筆記01

精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...

爬蟲學習記錄 01

在檔案儲存及資料型別中的一些小問題 結語python 3.6 使用原生自帶的 urllib 模組進行爬蟲的開始 匯入模組urllib的request框架 import urllib.request 使用urlopen方法模擬使用者開啟網頁,以www.baidu.com為例。import urllib...

Python爬蟲學習01

由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...