四二學堂 網路爬蟲實踐 爬取百度首頁

2021-10-05 08:40:33 字數 664 閱讀 3095

一、詳細步驟

1)開啟python編輯器idle。

2)匯入要使用的庫。

import urllib.request

3)獲取目的網頁響應的物件。使用urlopen方法開啟目的網頁,並返回網頁響應物件fh。

fh=urllib.request.urlopen(「

4)獲取物件fh的內容data。採用read方法讀取fh物件的內容。因為網頁有編碼,採用decode方法進行解碼,解碼方式用utf-8,引數ignore表示忽略當前解碼的細節錯誤。

data=fh.read()

data=data.decode(「utf-8」,「ignore」)

5)將data寫入本地test.html檔案進行儲存。在系統中建立html格式的檔案test。以寫入的方式開啟檔案,並設定檔案編碼格式為utf-8。然後呼叫write方法將data寫入fh2中,最後關閉檔案並儲存。

fh2=open(「d:/網課系列/大資料系列/python網路爬蟲/1/test.html」,「w」,encoding=「utf-8」)

fh2.write(data)

fh2.close()

open函式中「w」引數的含義

爬蟲實踐 爬取百度貼吧內容

貼吧位址 python版本 3.6 瀏覽器 chrome 從網上爬下特定頁碼的網頁 對於爬下的頁面內容進行簡單的篩選分析 找到每一篇帖子的 標題 發帖人 發帖時間 將結果儲存到文字。二 分析 位址中這些都是中文字元,e7 94 9f e6 b4 bb e5 a4 a7 e7 88 86 e7 82 ...

python爬蟲 之 爬取百度首頁

剛開始學習爬蟲,照著教程手打了一遍,還是蠻有成就感的。使用版本 python2.7 注意 python2的預設編碼是ascii編碼而python3預設編碼是utf 8 import urllib2 url response urllib2.urlopen url print response.rea...

網頁爬蟲 爬取百度諮詢新聞

工具 import urllib request urllib.request庫可以模擬瀏覽器傳送網頁請求並獲取request的結果。以科技類新聞為例,擬爬取這樣一篇文章。首先,傳送請求 html request urllib request request html 寫入獲取到的網頁,並轉化成py...