要想爬蟲好 這幾點少不了!

2021-10-02 20:04:32 字數 1496 閱讀 2291

網路爬蟲(又稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

1.通用爬蟲:

通用搜尋引擎所返回的結果都是網頁,而大多情況下,網頁裡90%的內容對使用者來說都是無用的。

不同領域、不同背景的使用者往往具有不同的檢索目的和需求,搜尋引擎無法提供針對具體某個使用者的搜尋結果。

通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢,無法準確理解使用者的具體需求。

2.聚焦爬蟲:

好的網路爬蟲,首先需要遵守robots協議。robots協議(也稱為爬蟲協議、機械人協議等)的全稱是「網路爬蟲排除標準」(robots exclusion protocol),**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。

在**根目錄下放乙個robots.txt文字檔案(如 ),裡面可以指定不同的網路爬蟲能訪問的頁面和禁止訪問的頁面,指定的頁面由正規表示式表示。網路爬蟲在採集這個**之前,首先獲取到這個robots.txt文字檔案,然後解析到其中的規則,然後根據規則來採集**的資料。

例如:

禁止所有機械人訪問

user-agent: *

disallow: /

允許所有機械人訪問

user-agent: *

disallow:

禁止特定機械人訪問

user-agent: badbot

disallow: /

允許特定機械人訪問

user-agent: goodbot

disallow:

禁止訪問特定目錄

user-agent: *

disallow: /images/

僅允許訪問特定目錄

user-agent: *

allow: /images/

disallow: /

禁止訪問特定檔案

user-agent: *

disallow: /*.html$

僅允許訪問特定檔案

user-agent: *

allow: /*.html$

disallow: /

urllib方式:

urllib出現的較早,用起來稍微複雜點,但是如果你希望讀懂很多爬蟲大神寫的東西,想要成為爬蟲高手還是學習一下!

requests方式:

requests是python中的http客戶端庫,網路請求更加直觀方便,它與urllib最大的區別就是在爬取資料的時候連線方式的不同。urllb爬取完資料是直接斷開連線的,而requests爬取資料之後可以繼續復用socket,並沒有斷開連線。

(個人比較推薦使用requests方式,常見的組合是requests+beautifulsoup(解析網路文字的工具庫),解析工具常見的還有正則,xpath,個人覺得xpath和beautifulsoup標籤類解析學一種就好了,正則都可以學,用的地方很多,這個看個人喜好。)

PMP備考必看,要想提高通過率,這幾點必須做到!

關於pmp考試,這些問題你一定會關心 1 零基礎備考,知識點晦澀難懂,如何規劃複習時間和節奏?2 想要在最後時間實現快速提分,是抓重點還是抓基礎呢?3 真題是從2019年刷起,還是從更早的年份呢?4 哪些知識是需要重點把握的?1.參加培訓班 堅持就是勝利 2.收集資料 資訊就是分數 歷年真題 模擬題...

判斷檔案是否損壞 U盤經常損壞?這幾點千萬不要忽視

那不知道大家發現了沒有,在智慧型電視上使用u盤的時候,並沒有像電腦般會有安全拔出的提示,那麼直接拔出u盤會造成損害嗎?u盤在設計之初就被定義為即插即用裝置,可後來有使用者發現,在進行系統與資料傳輸時,會導致u盤內正在訪問的檔案直接損壞,而且還有可能燒壞u盤儲存架構和裝置主機板。這種拔取方式就是熱拔,...

淨水器哪個牌子好?凱菲勒 請注意這幾點

淨水器進入中國的 20 餘年間,從鮮為人知到全面認可,反映出人們健康飲水意識的增強,這是眾多淨水器企業共同努力的成果。然而,截止 2015 年,全國共有 5000 多個淨水器廠家,激烈的競爭催生出了一系列的 淨水器十大排名 淨水器十大品牌 的不同版本,讓消費者和經銷商眼花繚亂。所以,如果我們在判斷淨...