知乎資料爬取及儲存

2021-08-24 20:58:38 字數 906 閱讀 1323

import requests

from pymysql_conn import mysql_connect

url = ''

# 分析所有請求後發現上面的url可以直接獲取所需資料的json檔案,兩個引數分

# 別為offset,limit。其中offset控制起始資料序號,limit控制本次資料數量;

# 經測試offset可以隨意設定;limit未測試,採取網頁上的數值20。本程式只爬

# 取前3頁。

headers =

# 準備sql語句

sql = 'insert into data_zhihu values ({},{},{})'

# 建立資料庫連線物件

mysql_object = mysql_connect()

for i in range(0,60,20):

# 獲取前3頁資料的json

response = requests.get(url.format(i), headers=headers)

data_str = response.json()

# 迴圈獲取每頁的所有資料並寫入資料庫

for j in range(0,20):

id = data_str['data'][j]['question']['id']

title = data_str['data'][j]['question']['title']

content = data_str['data'][j]['content'][3:-4]

# print(id,title,content)

mysql_object.execute_sql(sql.format(repr(id),repr(title),repr(content)))

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

爬取知乎所有專欄文章

一般來說爬取乙個 就是那麼幾步走 1.先使用瀏覽器逛一逛想爬取的 找找規律 2.直接發乙個傻瓜式請求,試一下能不能獲取到想要的資料,萬一就得到了呢 3.不行的話,換一下請求頭中的user agent欄位 這邊推薦大家乙個模組 fake useragent 安裝 pip install fake us...

Python爬取知乎溫酒小故事

關於登陸的問題,可以參考我的另一篇部落格 在這裡記錄一下我在爬取溫酒小故事的時候遇到的問題以及解決辦法 css選擇器無效,只好通過觀察,用正規表示式直接從html裡提取資訊。import requests from bs4 import beautifulsoup import re from ur...