新浪微博爬蟲分享（一天可抓取 1300 萬條資料）

爬蟲抓取微博的速度可以達到1300萬/天以上，具體要視網路情況，我使用的是校園網（廣工大學城校區），普通的家庭網路可能才一半的速度，甚至都不到。

開發語言：python2.7

開發環境：64位windows8系統，4g記憶體，i7-3612qm處理器。

資料庫：mongodb 3.2.0

（python編輯器：pycharm 5.0.4；mongodb管理工具：mongobooster 1.1.1）

啟動前配置：

information 表：

_id：採用「使用者id」作為唯一標識。

birthday：出生日期。

city：所在城市。

gender：性別。

marriage：婚姻狀況。

nickname：微博暱稱。

num_fans：粉絲數量。

num_follows：關注數量。

num_tweets：已發微博數量。

province：所在省份。

signature：個性簽名。

url：微博的個人首頁。

tweets 表：

IOS新浪微博分享鏈結

所以，筆者這裡把分享的文字和url拼在一起，結果就可以分享帶鏈結的內容了。把分享內容和ulr拼接在一起 nsstring sinacontent nsstring stringwithformat content,url sharedcontent sharesdk content sinacont...

實戰新浪微博騰訊微博的分享功能

算上也是半年前做的，今天翻出來放出來，作為日誌記錄，也許能幫助一些人。我做的大概介面是如下圖。呵呵，上面這些都是些預備工作。下面正式開發。以上就是工程上設定。下面具體以下處理sina的相關以下是處理sina的授權驗證函式，qq的未寫。void removeauthdata bool islogg...

爬蟲初探新浪微博搜尋爬蟲總覽

在這裡需要說明一下，一般來說，資料抓取工作主要有兩種方式一是通過抓包工具 fiddle 進行抓包分析，獲取ajax請求的url，通過url抓取資料，這也是更為通用推薦的方法另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。那麼，在源中資訊不可見的情況下，通過什麼方法能夠提取js 中的html...

新浪微博爬蟲分享（一天可抓取 1300 萬條資料）

IOS新浪微博分享鏈結

實戰新浪微博 騰訊微博的分享功能

爬蟲初探 新浪微博搜尋爬蟲總覽

相關推薦

實戰新浪微博騰訊微博的分享功能

爬蟲初探新浪微博搜尋爬蟲總覽