爬蟲專案筆記

爬蟲分為垂直爬蟲；全網爬蟲兩種；

①爬蟲的基礎架構：

資料解析：資料解析技術分別有四種：

dom：最原始最基礎需要將所有資訊都載入到記憶體裡對記憶體消耗比較大，如果xml檔案比較大，容易影響解析的效能，可能會造成記憶體溢位。應用程式通過dom介面，應用程式在任何時候都能訪問xmlwendan文件中的任何資料，又稱為隨機訪問機制；

sax：也是xml簡單應用程式介面，與dom不同訪問模式是一直種順序模式，是一種快速讀寫xml資料方式，當時用sax解析時會觸發一系列的事件並激發一系列事件處理函式應用程式通過這些處理函式實現對xml 文件的訪問，事件驅動介面。

採用事件驅動模式對記憶體消耗比較小，只適用於處理xml檔案。但是編碼比較麻煩，很難同時訪問xml 檔案處的不同資料。

jdom ：僅僅使用的是具體類而不是使用介面。api大量使用collections類。

dom4j ：jdom的一種智慧型分支，合併了許多超出基本xml文件表現功能，使用介面和抽象基本類方法。具有效能優化，靈活性好，，功能強大和極端易用的，是乙個開放原始碼檔案。

xpath：使用正則的方式在網頁上提取。

本爬蟲運用的是xpath+htmlcleaner

資料儲存：mysql hbase es

②爬蟲的公升級架構：