爬取百度貼吧

import urllib.request
import urllib.parse
import os,time
#輸入貼吧名字
baname = input("請輸入貼吧的名字：")
start_page = int(input("請輸入起始頁"))
end_page = int(input("請輸入結束頁"))
#不完整的url
url = ""
#搞個迴圈，迴圈拼接每一頁的url,得到每一頁的**
for page in range(start_page,end_page+1):
#更具頁碼來計算pn
pn = (page-1)*50
#定義乙個get引數字典
data = 
query_string = urllib.parse.urlencode(data)
#拼接得到的url
new_url = url + query_string
#構建請求物件
headers = 
request = urllib.request.request(url=new_url,headers=headers)
# 傳送請求，得到響應
response = urllib.request.urlopen(request)
#建立資料夾
if not os.path.exists(baname):
os.mkdir(baname)
#生成檔名 李毅-第1頁.html
filename = '%s-第%s頁.html'%(baname,page)
#拼接檔案的路徑
filepath = os.path.join(baname,filename)
#將檔案寫入到dilepath裡面去
with open(filepath,'wb')as fp:
fp.write(response.read())
time.sleep(3)

爬取百度貼吧

帶入需要使用的包 from urllib import request,parse importos 基礎知識變數賦值字串賦值爬取的關鍵字 kw lol 數值賦值爬取的頁數範圍 start 1end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建立資...

爬取百度貼吧資料

每次寫的時候總是正規表示式出現問題，還需多多練習正規表示式的書寫，需要耐心細心 coding utf 8 引入請求包 import requests 引入正規表示式包 import re 1.準備url url 2.獲取網頁源發起請求接收響應 response requests.get url ...

批量爬取百度貼吧

帶入需要使用的包 from urllib import request,parse import os 基礎知識變數賦值字串賦值爬取的關鍵字 kw lol 數值賦值爬取的頁數範圍 start 1 end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建...

爬取百度貼吧

爬取百度貼吧

爬取百度貼吧資料

批量爬取百度貼吧

相關推薦