翻頁爬取騰訊課堂課程使用者暱稱和評論

2021-10-19 21:45:45 字數 1592 閱讀 5531

1.找到目標的url

2.構造請求頭引數

3.傳送請求,獲取響應

4.解析資料

5.儲存資料

下面會對其中的細節進行講解

3.儲存資料時,將多條資料寫入到檔案中的方式為「a追加」的方式。

我們拿前三頁的url進行比較,可以得出不同頁的url差別在於引數page和r的不同。

引數page:第一頁的page=0;第二頁的page=1,第三頁的page=2,因此我們for迴圈的翻頁規律也就顯而易見,我們直接令page = i 即可(因為for迴圈i是從0開始的)

引數r:通過嘗試我發現r的值對於獲取響應沒有影響,因此我們可以將引數r刪去

# 輸入要爬取的頁數

pages = int(input('請輸入要爬取的頁數:'))

for i in range(pages):

page = i

# 確認目標的url

url = f''

# 構造請求頭引數

headers = ; hm_lpvt_0c196c536f609d373a16d246a117fd44=1614057466; tdw_data_new_2='

}# 傳送請求,獲取響應

response = requests.get(url,headers=headers)

# 將json資料轉換成py資料

py_data = response.json()

nick_name_list = jsonpath.jsonpath(py_data,'$..nick_name')

comment_list = jsonpath.jsonpath(py_data,'$..first_comment')

# 將資料放入字典,然後轉換成json格式儲存

for i in range(len(nick_name_list)):

dict_ = {}

dict_[nick_name_list[i]] = comment_list[i]

# 將字典轉換成json格式

json_data = json.dumps(dict_,ensure_ascii=false)+',\n'

# 將資料儲存到本地

f.write(json_data)

小程式 雲函式之爬取騰訊課堂課程好評體驗

雲函式是一段執行在雲端的 無需管理伺服器,在開發工具內編寫 一鍵上傳部署即可執行後端 雲函式執行時基於node.js 1 開通雲開發功能及建立雲開發專案 不贅述 2 新建node.js雲函式 右擊 cloudfuns 新建node.js雲函式 getcomments 在本地建立node.js雲函式後...

python requests 爬取騰訊科技的新聞

昨天收到一道面試題爬取的新聞,當時看到的時候簡直簡單爆了,事實證明的確是,將將將,就是這個頁面,很普通啊,開幹。1.首先發現在檢視源 的時候看不見這些資料,所以需要js抓一下,注意到url的最後乙個引數是個時間戳,然後就是headers裡一定要放上referer,不然獲取不到的 就因為這個refer...

php 爬取騰訊動漫

先貼醜圖 獲取分類 return array function type 獲取分類列表 param integer id 分類id param integer page 頁碼 return array function typelist id 1,page 1 page resp json deco...