Python番外篇 爬取CSDN作者排行榜資料

2021-10-18 22:52:23 字數 1799 閱讀 7630

今天,又雙叒叕是番外篇,我們來爬取csdn作者排行榜上的資料。

首先,排行榜的網頁鏈結是

開啟「檢視網頁源**」,會看到:

也得加上兩個引數:

page=0

pagesize=20

pagesize指定了獲取**排行榜前n名作者的資料(這裡n=20),我們只需在請求時加上引數即可。

瀏覽器訪問這個**,會返回json格式的資料,如下圖:

可以看到,資料儲存在data中的allranklistitem中:

我們來分析第一名的資料:

我們使用json的loads函式,載入資料。

這裡我們只列印前10的排行資料:

import requests

from json import loads

headers =

params =

url =

""r = requests.get(url, headers=headers, params=params)

data = loads(r.text)

["data"][

"allranklistitem"

]for i in data:

user_url =

""+ i[

"username"

]print

(i["currentrank"],

i["nickname"],

",粉絲數:"

+str

(i["fanscount"])

,",等級:"

+str

(i["level"])

,",個人主頁:"

+user_url)

執行以上**,格式應該如下:

1 濤歌依舊 ,粉絲數:96704 ,等級:11 ,個人主頁:stpeace

2 乙個**座的程式猿 ,粉絲數:468522 ,等級:10 ,個人主頁:qq_41185868

3 yuanmeng001 ,粉絲數:14092 ,等級:11 ,個人主頁:yuanmeng001

4 yjclsx ,粉絲數:6701 ,等級:10 ,個人主頁:yjclsx

5 sap劍客 ,粉絲數:9330 ,等級:10 ,個人主頁:zhongguomao

6 augusdi ,粉絲數:10076 ,等級:10 ,個人主頁:augusdi

7 dog250 ,粉絲數:18534 ,等級:10 ,個人主頁:dog250

8 inside_zhang ,粉絲數:5976 ,等級:10 ,個人主頁:lanchunhui

9 okidogreen ,粉絲數:5442 ,等級:10 ,個人主頁:z69183787

10 drogozhang ,粉絲數:21420 ,等級:10 ,個人主頁:weixin_40400177

今天的番外篇就到這兒了,感興趣記得收藏點讚哦~~

Python 爬取CSDN部落格文章

新建乙個module,用於根據使用者名稱來獲取文章的url coding utf 8 from bs4 import beautifulsoup import requests 獲取部落格文章數量 def get page size user name article list url user n...

CSDN文章爬取

title csdn文章爬取 date 2019 06 09 13 17 26 tags 找到文章列表,進行文章爬取,提取到文章的url資訊。進行文章內容的解析,提取文章內容。儲存到本地。嘗試對文章樣式進行儲存 採用python語言來完成,使用pyquery庫進行爬取。article doc blo...

WebCollector爬取CSDN部落格

新聞 部落格爬取是資料採集中常見的需求,也是最容易實現的需求。一些開發者利用httpclient和jsoup等工具也可以實現這個需求,但大多數實現的是乙個單執行緒爬蟲,並且在url去重和斷點爬取這些功能上控制地不好,爬蟲框架可以很好地解決這些問題,開源爬蟲框架往往都自帶穩定的執行緒池 url去重機制...