使用urllib爬取百度貼吧

2021-10-08 03:33:48 字數 1698 閱讀 4530

博主是新手,只是做個筆記,不好勿噴

手動輸入主題,並爬取目標主題內容的前三頁

爬取之後儲存在html檔案當中

第一步建立乙個類,類中定義三個函式,分別為主函式、爬取函式和儲存函式。

第二步找到相應的請求頭以及url,為防止將url寫死,觀察url組成部分,為最終進行相應的拼接做準備。

第三步手動設定輸入主題以及想獲取的頁數。

爬取函式主要運用urllib中的request和parse模組

儲存函式中主要運用open方法儲存檔案

詳見**

("開始列印"

) f.write(html)

defmain

(self)

: name =

input

("請輸入主題:"

) start =

int(

input

("請輸入起始頁"))

end =

int(

input

("請輸入尾頁"))

kw =

kw = urllib.parse.urlencode(kw)

for i in

range

(start, end +1)

:# 總共迴圈k次

pn =

((i -1)

*50)# 分析url頁碼和i值的關係

url = self.baseurl + kw +

'&pn'

+str

(pn)

# 分析url組成部分

html = self.readpage(url)

filename =

'第'+

str(i)

+'頁.html'

urllib爬取百度貼吧貼子頁面

coding utf 8 import urllib.request import urllib urllib2 urllib.request def loadpage url,filename 作用 根據url傳送請求,獲取伺服器響應檔案 filename 處理的檔名 headers reques...

爬取百度貼吧

import urllib.request import urllib.parse import os,time 輸入貼吧名字 baname input 請輸入貼吧的名字 start page int input 請輸入起始頁 end page int input 請輸入結束頁 不完整的url ur...

爬取百度貼吧

帶入需要使用的包 from urllib import request,parse importos 基礎知識 變數賦值 字串賦值 爬取的關鍵字 kw lol 數值賦值 爬取的頁數範圍 start 1end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建立資...