爬取百度貼吧

2022-03-16 22:59:39 字數 1007 閱讀 3181

#

帶入需要使用的包

from urllib import

request, parse

importos#

基礎知識

#變數賦值

#字串賦值 爬取的關鍵字

kw = '

lol'

#數值賦值 爬取的頁數範圍

start = 1end = 4#輸出

#print(kw, start, end)

#宣告需要爬取的連線

base_url = '

'#建立資料夾 存放頁面資料

#os.makedirs(kw)

#宣告乙個字典

qs =

#構造pn查詢引數

for i in range(start, end + 1):

#print(i)

#算出pn和i之間的關係

#1 --> 0 2 --> 50 3 --> 100 4 --> 150

pn = (i - 1) * 50qs['pn

'] =str(pn)

#將字典 轉換為 kw=lol&pn=0 字串

qs_data =parse.urlencode(qs)

#構建乙個完整的url位址 然後進行請求 返回 kw=lol&pn=100

full_url = base_url +qs_data

#發起請求 並接受響應

response =request.urlopen(full_url)

#讀取響應內容

html = response.read().decode('

utf-8')

#存入相應的檔案當中

with open(kw + '

/' + str(i) + '

.html

', '

w', encoding='

utf-8

') as f:

f.write(html)

爬取百度貼吧

import urllib.request import urllib.parse import os,time 輸入貼吧名字 baname input 請輸入貼吧的名字 start page int input 請輸入起始頁 end page int input 請輸入結束頁 不完整的url ur...

爬取百度貼吧資料

每次寫的時候總是正規表示式出現問題,還需多多練習正規表示式的書寫,需要耐心 細心 coding utf 8 引入請求包 import requests 引入正規表示式包 import re 1.準備url url 2.獲取網頁源 發起請求接收響應 response requests.get url ...

批量爬取百度貼吧

帶入需要使用的包 from urllib import request,parse import os 基礎知識 變數賦值 字串賦值 爬取的關鍵字 kw lol 數值賦值 爬取的頁數範圍 start 1 end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建...