爬取百度貼吧發帖資訊並儲存到scv檔案中

2021-10-05 05:02:44 字數 1070 閱讀 3615

#匯入需要的模組

import requests

import re

import csv

url=

""# 1.獲取網頁源**

headers =

response=requests.get(url,headers=headers)

#傳送請求

html=response.content.decode(encoding=

'utf-8'

)#獲取網頁源**

#2.解析資料

xinxi_list=

title = re.

compile

('"j_th_tit ">(.*)'

)titles = re.findall(title, html)

#獲取標題

author = re.

compile()

authors = re.findall(author, html)

#獲取發帖人

time = re.

compile

(r'"建立時間">(.*)'

)times = re.findall(time, html)

#獲取發帖時間

for i in

range

(len

(titles)):

xinxi =

#儲存成csv檔案

with

open

('發帖資訊.csv'

,'w'

, encoding=

'utf-8'

)as f:

# 開啟指定檔案,如果檔案不存在則建立同名的檔案

w = csv.dictwriter(f, fieldnames=

['標題'

,'發帖人'

,'發帖時間'])

# 指定寫入檔案的欄位名

w.writeheader(

)# 寫入表頭

w.writerows(xinxi_list)

# 寫入列表中的資料

print

("爬取完成"

)

爬取百度貼吧

import urllib.request import urllib.parse import os,time 輸入貼吧名字 baname input 請輸入貼吧的名字 start page int input 請輸入起始頁 end page int input 請輸入結束頁 不完整的url ur...

爬取百度貼吧

帶入需要使用的包 from urllib import request,parse importos 基礎知識 變數賦值 字串賦值 爬取的關鍵字 kw lol 數值賦值 爬取的頁數範圍 start 1end 4 輸出 print kw,start,end 宣告需要爬取的連線 base url 建立資...

爬取百度貼吧資料

每次寫的時候總是正規表示式出現問題,還需多多練習正規表示式的書寫,需要耐心 細心 coding utf 8 引入請求包 import requests 引入正規表示式包 import re 1.準備url url 2.獲取網頁源 發起請求接收響應 response requests.get url ...