分布式爬蟲

該專案使用kafka和redis構建分布式爬蟲集群。在多個spider例項間分發url的種子，這些請求通過redis進行協同。由於邊界擴充套件或深度遍歷的特點，任何其他抓取這些觸發器的內容也將在集群中的所有工作程式之間分發。

系統的輸入是一組kafka主題，輸出是一組kafka主題。原始html和資源以互動方式，spider和日誌輸出方式進行爬網。

在最高端別，scrapy cluster執行單個輸入kafka主題，以及兩個單獨的輸出kafka主題。所有對群集的傳入請求都要經過demo.incomingkafka主題，具體取決於請求將從demo.outbound_firehose動作請求demo.crawled_firehose主題或html爬網請求主題生成輸出。

三個核心部件中的每乙個都是可擴充套件的，以便增加或增強其功能。kafka monitor和redis monitor都使用「外掛程式」來增強他們的能力，而scrapy使用「中介軟體」，「管道」和「蜘蛛」來允許您自定義爬行。這三個元件和rest服務一起允許跨多台計算機進行擴充套件和分布式爬網。

分布式爬蟲

爬蟲 分布式爬蟲

分布式爬蟲

分布式爬蟲

相關推薦

爬蟲分布式爬蟲