爬蟲的簡單介紹

⽹絡爬⾍（⼜被稱為⽹⻚蜘蛛，⽹絡機器⼈）就是模擬客戶端傳送⽹絡請求，接收請求響應，⼀種按照⼀定的規則，⾃動地抓取互聯⽹資訊的程式。只要是瀏覽器能做的事情，原則上，爬⾍都能夠做

12306搶票

**上的投票

簡訊轟炸

⽹⻚三⼤特徵：

1 ⽹⻚都有⾃⼰唯⼀的url

2 ⽹⻚都是html來描述⻚⾯資訊

3 ⽹⻚都使⽤http/https協議來傳輸html資料

爬⾍的設計思路：

1 確定需要爬取的url位址

2 通過http/https協議獲取對應的html⻚⾯

3 提取html⻚⾯有⽤的資料

**簡介，開發效率⾼，⽀持的模組多，http請求和html解的模組豐富。調⽤其他接⼝也⾮常⽅便。

根據使⽤場景，⽹絡爬⾍可分為通⽤爬⾍和聚焦爬⾍兩種.

通⽤⽹絡爬⾍從互聯⽹中蒐集⽹⻚，採集資訊，這些⽹⻚資訊⽤於為搜尋引擎建⽴索引從⽽提供⽀持，它決定著整個引擎系統的內容是否豐富，資訊是否即時，因此其效能的優劣直接影響著搜尋引擎的效果。

搜尋引擎如何獲取⼀個新⽹站的url：

在其他⽹站上設定新⽹站外鏈（盡可能處於搜尋引擎爬⾍爬取範圍）

搜尋引擎和dns解析服務商(如dnspod等）合作，新⽹站網域名稱將被迅速抓取。

第二步：資料儲存

搜尋引擎通過爬⾍爬取到的⽹⻚，將資料存⼊原始⻚⾯資料庫。其中的⻚⾯資料與⽤戶瀏覽器得到的html是完全⼀樣的。

搜尋引擎蜘蛛在抓取⻚⾯時，也做⼀定的重複內容檢測，⼀旦遇到訪問權重很低的⽹站上有⼤量抄襲、採集或者複製的內容，很可能就不再爬⾏。

第四步：提供檢索服務，⽹站排名

搜尋引擎在對資訊進⾏組織和處理後，為⽤戶提供關鍵字檢索服務，將⽤戶檢

索相關的資訊展示給⽤戶。

同時會根據⻚⾯的pagerank值（鏈結的訪問量排名）來進⾏⽹站排名，這樣

rank值⾼的⽹站在搜尋結果中會排名較前，當然也可以直接使⽤ money 購買

搜尋引擎⽹站排名，簡單粗暴。

簡單反爬蟲技術介紹

反爬蟲的技術大概分為四個種類注文末有福利！一通過user agent來控制訪問無論是瀏覽器還是爬蟲程式，在向伺服器發起網路請求的時候，都會發過去乙個標頭檔案 headers，比如知乎的requestsheaders accept encoding gzip,deflate,sdch,br a...

Python開發簡單爬蟲之爬蟲介紹（一）

本部落格來自慕課網 python開發簡單爬蟲爬蟲主要場景不需要登入的靜態網頁使用ajax非同步載入的內容需要使用者登入才可以訪問的網頁以下主要介紹不需要登入的靜態網頁。3中實現方式 python中已經存在關鍵字class,故當屬性為class時，用class 代替。coding utf 8...

簡單的爬蟲

參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求，用於獲取目標的原始碼 def download p...

爬蟲的簡單介紹

簡單反爬蟲技術介紹

Python開發簡單爬蟲之爬蟲介紹（一）

簡單的爬蟲

相關推薦