爬蟲的種類

2021-09-21 02:46:23 字數 682 閱讀 7123

通用爬蟲:搜尋引擎用的爬蟲系統

再對這些網頁進行相關處理(提取關鍵字,去除廣告),最後提供乙個

使用者可用的介面。

抓取流程:

1.首先取一部分已有的url,把這些url放到待爬取佇列。

2.從佇列裡取出這些url,然後通過dns得到主機ip,然後去這個ip伺服器

放入已爬取佇列中.

3.分析這些網頁內容,找出網頁中其它url連線,繼續執行第二步,直到沒有

其它url連線.

搜尋引擎是如何獲取乙個新**的url的:

1.主動向搜尋引擎提交**

2.在其它**設定**的外鏈

3.搜尋引擎會和dns服務商進行合作,可以快速收錄新的**

通用爬蟲並不是萬物皆可爬的,它也需要遵守規則:

robots協議:

可以檢視協議內容

)一般只有大型的搜尋引擎才會遵守產.

通用爬蟲工作流程:

抓取網頁--儲存資料--內容處理--提供檢索--排名服務

搜尋排名:

1.pagerank值:根據**流量,**流量越高,排名越靠前.

2.競價排名:給錢多的排名靠前.

通用爬蟲的缺點:

只能提供和文字相關的內容,不提供多**檔案爬取.

提供的結果千篇一律(正在改進中.....)

為了解決這個問題,聚焦爬蟲出現了.

python爬蟲六 反爬蟲技術種類

zhuanlan.zhihu.com referer ehco 知乎 很多 都會建立 user agent白名單,只有屬於正常範圍的user agent才能夠正常訪問。模擬header的user agent欄位,返回乙個隨機的user agent字典型別的鍵值對 agents mozilla 5.0...

網路爬蟲處理異常的種類

每個程式都不可避免地要進行異常處理,爬蟲也不例外,假如不進行異常處理,可能導致爬蟲程式直接崩掉。以下是網路爬蟲出現的異常種類。urlerror 通常,urlerror在沒有網路連線 沒有路由到特定伺服器 或者伺服器不存在的情況下產生。首先我們要明白伺服器上每乙個http 應答物件response都包...

爬蟲時多種類資訊寫入

爬蟲時,我們一般會確定我們要哪些資訊然後寫入檔案中。但有時候遇到如下情況,我們需要的資訊有a,b,c,d,e,f,g,h。這8個資訊,但是在第乙個頁面中只有a,b,c,d這四個資訊,第二個頁面中有c,d,e,f,h這4個資訊,但我們寫入檔案的時候要求是如下格式 ab cdef ghab cdcd e...