爬取百度貼吧

2021-09-13 10:44:04 字數 1031 閱讀 1263

import urllib.request

import urllib.parse

import os,time

#輸入貼吧名字

baname = input("請輸入貼吧的名字:")

start_page = int(input("請輸入起始頁"))

end_page = int(input("請輸入結束頁"))

#不完整的url

url = ""

#搞個迴圈,迴圈拼接每一頁的url,得到每一頁的**

for page in range(start_page,end_page+1):

#更具頁碼來計算pn

pn = (page-1)*50

#定義乙個get引數字典

data =

query_string = urllib.parse.urlencode(data)

#拼接得到的url

new_url = url + query_string

#構建請求物件

headers =

request = urllib.request.request(url=new_url,headers=headers)

# 傳送請求,得到響應

response = urllib.request.urlopen(request)

#建立資料夾

if not os.path.exists(baname):

os.mkdir(baname)

#生成檔名 李毅-第1頁.html

filename = '%s-第%s頁.html'%(baname,page)

#拼接檔案的路徑

filepath = os.path.join(baname,filename)

#將檔案寫入到dilepath裡面去

with open(filepath,'wb')as fp:

fp.write(response.read())

time.sleep(3)

爬取百度貼吧

帶入需要使用的包 from urllib import request,parse importos 基礎知識 變數賦值 字串賦值 爬取的關鍵字 kw lol 數值賦值 爬取的頁數範圍 start 1end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建立資...

爬取百度貼吧資料

每次寫的時候總是正規表示式出現問題,還需多多練習正規表示式的書寫,需要耐心 細心 coding utf 8 引入請求包 import requests 引入正規表示式包 import re 1.準備url url 2.獲取網頁源 發起請求接收響應 response requests.get url ...

批量爬取百度貼吧

帶入需要使用的包 from urllib import request,parse import os 基礎知識 變數賦值 字串賦值 爬取的關鍵字 kw lol 數值賦值 爬取的頁數範圍 start 1 end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建...