常見爬蟲策略

方法一：利用**協議和sitemap去分析**結構

robots 協議

也稱為爬蟲協議、機械人協議，全稱是「網路爬蟲排除標準」

該協議檔案放置在**根目錄下，在訪問**的時候要檢視的第乙個檔案就是robots.txt協議檔案，**通過robots.txt協議檔案告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，但是並不是每個**必須有

馬蜂窩robots協議

sitemap

告訴搜尋引擎**的架構，每個**有自己的sitemap結構。它是乙個xml檔案，定義了各種型別文章的聚合頁面。點開任意乙個sitemap，得到的是另乙個頁面，它是一些具體的文章。內容需要長期沉澱的**非常適合做sitemap，對於實時更新的網頁比如微博，就不會進行設計sitemap。

以馬蜂窩的頁面**為例：

10010 表示某乙個板塊（某乙個城市），再點開分頁。

i後面就是一篇一篇文章

馬蜂窩sitemap

import re
with open('mfw.html', 'r') as f:
c = f.read()
#pattern = re.compile(r'/i/\d.html') #將正規表示式編譯成pattern物件
print(pattern.findall(c))#利用pattern的方法findall對文字進行匹配查詢

常見爬蟲策略

反反爬蟲策略

python爬蟲去重策略爬蟲去重策略

python爬蟲去重策略爬蟲去重策略

常見爬蟲策略

反反爬蟲策略

python爬蟲去重策略 爬蟲去重策略

python爬蟲去重策略 爬蟲去重策略

相關推薦

python爬蟲去重策略爬蟲去重策略

python爬蟲去重策略爬蟲去重策略