C 學習之路 百度網盤爬蟲設計與實現(一)

2022-02-17 02:24:43 字數 782 閱讀 7340

現在市面上出現了很多網盤搜尋引擎,寫這系列博文及爬蟲程式的初衷:

工具/庫選擇

此爬蟲原理是通過爬取使用者的分享/**儲存鏈結來達到資源搜尋的目的,而使用者與使用者之間通過訂閱/關注來聯絡,慢慢形成乙個龐大的爬蟲網路。
首先設定爬取使用者(初始化爬蟲佇列)。

遍歷使用者分享/**,更改佇列狀態。

將使用者訂閱/關注使用者加入佇列。

重複以上步驟。

ps:看似簡單的流程,想要精工還需細磨。

當沒有訂閱任何使用者時,網盤的分享動態介面會出現一些使用者噢。這是系統推薦的使用者,雖然改動不一定會很大,但是可以作為爬蟲的初始使用者來處理(這種推薦使用者聽說關注的人都不少噢)
介面返回資訊:

errorno: 狀態碼

request_id:請求id

hotuser_list:使用者列表

使用者列表結構:

type:型別(通常返回-1,不明用途)

hot_uname:使用者暱稱

intro:描述

follow_count:訂閱人數

fans_count:粉絲人數

user_type:使用者型別?(不明意義)

is_vip:是否為vip

pubshare_count:分享數

hot_uk:不知道啥玩意

album_count:分享**數

end
暫時就寫到這兒了,要去寫**了~ 寫完再會

百度網盤爬蟲

在這裡我們要記錄粉絲數,好友數,分享數,uk 2.從我們初始化的資料庫中取出一定量的資料。首先獲得乙個 uk下分享的資訊,uk 下分享資訊有兩種一種是普通的檔案,另一種是 因此我們通過如下鏈結獲取資訊的時候要注意sharelists url getsharelist?category 0 auth ...

解決百度網盤限速

使用方法 安裝部分 firefox 定製瀏覽器 chrome 定製瀏覽器 1 使用上面的定製版瀏覽器,登入自己的帳號。注意事項 2 如果還是出現http 1.1 403錯誤,嘗試將應用 id 修改為 778750。2.1 如何修改應用 id 呢?開啟 在彈出的視窗裡修改。2.2 如果 778750 ...

誰在捍衛百度網盤?

文 曾響鈴 科技向令說 xiangling0815 他來了 他來了,他帶著一星走來了。釘釘被推向 風口浪尖 怎麼說也是釘釘自己湊上去的,學生們不想上網課,釘釘卻在 賣力吆喝 蹙了廣大學生黨的眉頭,被報復一下,也算是情理之中的事。惡意刷分確實讓人無奈,也不得不讓人感嘆 爸爸們 真是無處不在。使用者為何...