爬取百度貼吧

#
帶入需要使用的包
from urllib import
request, parse
importos#
基礎知識
#變數賦值
#字串賦值 爬取的關鍵字
kw = '
lol'
#數值賦值 爬取的頁數範圍
start = 1end = 4#輸出
#print(kw, start, end)
#宣告需要爬取的連線
base_url = '
'#建立資料夾 存放頁面資料
#os.makedirs(kw)
#宣告乙個字典
qs = 
#構造pn查詢引數
for i in range(start, end + 1):
#print(i)
#算出pn和i之間的關係
#1 --> 0 2 --> 50 3 --> 100 4 --> 150
pn = (i - 1) * 50qs['pn
'] =str(pn)
#將字典 轉換為 kw=lol&pn=0 字串
qs_data =parse.urlencode(qs)
#構建乙個完整的url位址 然後進行請求 返回 kw=lol&pn=100
full_url = base_url +qs_data
#發起請求 並接受響應
response =request.urlopen(full_url)
#讀取響應內容
html = response.read().decode('
utf-8')
#存入相應的檔案當中
with open(kw + '
/' + str(i) + '
.html
', '
w', encoding='
utf-8
') as f:
f.write(html)

爬取百度貼吧

import urllib.request import urllib.parse import os,time 輸入貼吧名字 baname input 請輸入貼吧的名字 start page int input 請輸入起始頁 end page int input 請輸入結束頁不完整的url ur...

爬取百度貼吧資料

每次寫的時候總是正規表示式出現問題，還需多多練習正規表示式的書寫，需要耐心細心 coding utf 8 引入請求包 import requests 引入正規表示式包 import re 1.準備url url 2.獲取網頁源發起請求接收響應 response requests.get url ...

批量爬取百度貼吧

帶入需要使用的包 from urllib import request,parse import os 基礎知識變數賦值字串賦值爬取的關鍵字 kw lol 數值賦值爬取的頁數範圍 start 1 end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建...

爬取百度貼吧

爬取百度貼吧

爬取百度貼吧資料

批量爬取百度貼吧

相關推薦