要想爬蟲好這幾點少不了！

網路爬蟲（又稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

1.通用爬蟲：

通用搜尋引擎所返回的結果都是網頁，而大多情況下，網頁裡90%的內容對使用者來說都是無用的。

不同領域、不同背景的使用者往往具有不同的檢索目的和需求，搜尋引擎無法提供針對具體某個使用者的搜尋結果。

通用搜尋引擎大多提供基於關鍵字的檢索，難以支援根據語義資訊提出的查詢，無法準確理解使用者的具體需求。

2.聚焦爬蟲：

好的網路爬蟲，首先需要遵守robots協議。robots協議（也稱為爬蟲協議、機械人協議等）的全稱是「網路爬蟲排除標準」（robots exclusion protocol），**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。

在**根目錄下放乙個robots.txt文字檔案（如），裡面可以指定不同的網路爬蟲能訪問的頁面和禁止訪問的頁面，指定的頁面由正規表示式表示。網路爬蟲在採集這個**之前，首先獲取到這個robots.txt文字檔案，然後解析到其中的規則，然後根據規則來採集**的資料。

例如：

禁止所有機械人訪問 user-agent: * disallow: / 允許所有機械人訪問 user-agent: * disallow: 禁止特定機械人訪問 user-agent: badbot disallow: / 允許特定機械人訪問 user-agent: goodbot disallow: 禁止訪問特定目錄 user-agent: * disallow: /images/ 僅允許訪問特定目錄 user-agent: * allow: /images/ disallow: / 禁止訪問特定檔案 user-agent: * disallow: /*.html$ 僅允許訪問特定檔案 user-agent: * allow: /*.html$

disallow: /

urllib方式：

urllib出現的較早，用起來稍微複雜點，但是如果你希望讀懂很多爬蟲大神寫的東西，想要成為爬蟲高手還是學習一下！

requests方式：

requests是python中的http客戶端庫，網路請求更加直觀方便，它與urllib最大的區別就是在爬取資料的時候連線方式的不同。urllb爬取完資料是直接斷開連線的，而requests爬取資料之後可以繼續復用socket，並沒有斷開連線。

（個人比較推薦使用requests方式，常見的組合是requests+beautifulsoup（解析網路文字的工具庫），解析工具常見的還有正則，xpath，個人覺得xpath和beautifulsoup標籤類解析學一種就好了，正則都可以學，用的地方很多，這個看個人喜好。）

要想爬蟲好這幾點少不了！

PMP備考必看，要想提高通過率，這幾點必須做到！

判斷檔案是否損壞 U盤經常損壞？這幾點千萬不要忽視

淨水器哪個牌子好？凱菲勒請注意這幾點

要想爬蟲好 這幾點少不了！

PMP備考必看，要想提高通過率，這幾點必須做到！

判斷檔案是否損壞 U盤經常損壞？這幾點千萬不要忽視

淨水器哪個牌子好？凱菲勒 請注意這幾點

相關推薦

要想爬蟲好這幾點少不了！

淨水器哪個牌子好？凱菲勒請注意這幾點