新浪微博爬蟲分享(一天可抓取 1300 萬條資料)

2021-07-10 12:54:44 字數 680 閱讀 2443

爬蟲抓取微博的速度可以達到1300萬/天以上,具體要視網路情況,我使用的是校園網(廣工大學城校區),普通的家庭網路可能才一半的速度,甚至都不到。

開發語言:python2.7

開發環境:64位windows8系統,4g記憶體,i7-3612qm處理器。

資料庫:mongodb 3.2.0

(python編輯器:pycharm 5.0.4;mongodb管理工具:mongobooster 1.1.1)

啟動前配置:

information 表:

_id:採用 「使用者id」 作為唯一標識。

birthday:出生日期。

city:所在城市。

gender:性別。

marriage:婚姻狀況。

nickname:微博暱稱。

num_fans:粉絲數量。

num_follows:關注數量。

num_tweets:已發微博數量。

province:所在省份。

signature:個性簽名。

url:微博的個人首頁。

tweets 表:

IOS新浪微博分享鏈結

所以,筆者這裡把分享的文字和url拼在一起,結果就可以分享帶鏈結的內容了。把分享內容和ulr拼接在一起 nsstring sinacontent nsstring stringwithformat content,url sharedcontent sharesdk content sinacont...

實戰新浪微博 騰訊微博的分享功能

算上也是半年前做的,今天翻出來放出來,作為日誌記錄,也許能幫助一些人。我做的大概介面是如下圖。呵呵,上面這些都是些預備工作。下面正式開發。以上就是工程上設定。下面具體 以下處理sina的相關 以下是處理sina的授權驗證函式,qq的未寫。void removeauthdata bool islogg...

爬蟲初探 新浪微博搜尋爬蟲總覽

在這裡需要說明一下,一般來說,資料抓取工作主要有兩種方式 一是通過抓包工具 fiddle 進行抓包分析,獲取ajax請求的url,通過url抓取資料,這也是更為通用 推薦的方法 另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。那麼,在源 中資訊不可見的情況下,通過什麼方法能夠提取js 中的html...