爬蟲資料採集技術概述

採集技術的本質是請求網頁，返回結果，主要的操作是網路的io操作，由於網路io比cpu的速度慢非常多，因此，為了充分利用cpu多核多執行緒等硬體資源，同時為了保證採集的規模和時效性，我們開發了分布式與多執行緒結合的採集策略，從而可以實現多個**併發高效採集的能力；

隨著網際網路技術的發展，反爬技術也出現在各大**與平台，即同乙個ip頻繁的對某個**訪問，很容易觸發該**的反爬機制，返回錯誤的網頁原始碼；

因此，對於實時採集需要突破的採集限制問題，我們研發了基於匿名**的類人智慧型爬取技術，通過模擬多ip、多使用者、多客戶端、多瀏覽器、不定時隨機採集等策略，從而突破反爬限制，實現真正的高效併發採集海量網路資訊。另外，為保證採集的實時性和減少資料的冗餘度，本技術在爬取時還評價待抓取的內容與主題的相關度，根據相關度進行排序，優先採集其中相關度較高的url&#x