爬蟲初探新浪微博搜尋爬蟲總覽

在這裡需要說明一下，一般來說，資料抓取工作主要有兩種方式：一是通過抓包工具（fiddle）進行抓包分析，獲取ajax請求的url，通過url抓取資料，這也是更為通用、推薦的方法；另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。

那麼，在源**中資訊不可見的情況下，通過什麼方法能夠提取js**中的html**用以解析呢？普通的beautifulsoup肯定是不行了，這樣的後端解析的情況，只有上瀏覽器引擎了！模擬瀏覽器的行為，通過渲染引擎（也就是瀏覽器核心）將後端js**進行渲染，進而獲取到dom用以資訊的提取。

一番查閱後了解到，瀏覽器測試工具selenium+firefox/phantomjs能夠完成這項工作（找到這些的時候簡直要哭了）。selenium是乙個用於web應用程式測試的工具。selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。與selenium相容性最好的就是firefox了，執行過程中能夠通過firefox看到執行過程，但firefox的缺點在於執行速度太慢，所以一般來說，使用firefox用於除錯**，執行的時候使用phantomjs能加快速度。

最後，做乙個積極主動的人，這是現代人極其珍貴的品質，與大家共勉。

（by mrhammer 2016-05-02 下午兩點 @bin house rainy）

爬蟲初探新浪微博搜尋爬蟲總覽

Python 微博搜尋爬蟲

微博爬蟲python 微博爬蟲 python

爬蟲新浪微博（登陸訪問 cookie訪問）

爬蟲初探 新浪微博搜尋爬蟲總覽

Python 微博搜尋爬蟲

微博爬蟲python 微博爬蟲 python

爬蟲 新浪微博（登陸訪問 cookie訪問）

相關推薦

爬蟲初探新浪微博搜尋爬蟲總覽

爬蟲新浪微博（登陸訪問 cookie訪問）