網路資料採集

網路資料採集是指通過網路爬蟲或**公開api等方式從**上獲取資料資訊

工作原理

工作流程

抓取策略

網路爬蟲策略用到的基本概念

通用網路爬蟲

通用網路爬蟲又稱全網爬蟲，爬行物件從一些種子url擴充套件到整個web，主要為門戶站點搜尋引擎和大型web服務提供商採集資料。

聚焦網路爬蟲

聚焦網路爬蟲又稱主題網路爬蟲，是指選擇性地爬行那些與預先定義好的主題相關的頁面的網路爬蟲。

1）基於內容評價的爬行策略

de bra將文字相似度的計算方法引入到網路爬蟲中，提出了fish search演算法。該演算法將使用者輸入的查詢詞作為主題，包含查詢詞的頁面被視為與主題相關的頁面，其侷限性在於無法評價頁面與主題相關度的大小。

herseovic對fish search演算法進行了改進，提出了shark search演算法，即利用空間向量模型計算頁面與主題的相關度大小。採用基於連續值計算鏈結價值的方法，不但可以計算出哪些抓取的鏈結和主題相關，還可以得到相關度的量化大小。

2）基於鏈結結構評價的爬行策略

pagerank演算法的基本原理是，如果乙個網頁多次被引用，則可能是很重要的網頁，如果乙個網頁沒有被多次引用，但是被重要的網頁引用，也有可能是重要的網頁。乙個網頁的重要性被平均地傳遞到它所引用的網頁上。

3）基於增強學習的爬行策略

將增強學習引入聚焦爬蟲，利用貝葉斯分類器，根據整個網頁文字和鏈結文字對超連結進行分類，為每個鏈結計算出重要性，從而決定鏈結的訪問順序。

4）基於語境圖的爬行策略

通過建立語境圖學習網頁之間的相關度的爬行策略，該策略可訓練乙個機器學習系統，通過該系統可計算當前頁面到相關web頁面的距離，距離近的頁面中的鏈結優先訪問。

增量式網路爬蟲

深度網路爬蟲