爬蟲的簡單介紹

2021-10-24 07:01:37 字數 984 閱讀 8524

⽹絡爬⾍(⼜被稱為⽹⻚蜘蛛,⽹絡機器⼈)就是模擬客戶端傳送⽹絡請求,接收請求響應,⼀種按照⼀定的規則,⾃動地抓取互聯⽹資訊的程式。只要是瀏覽器能做的事情,原則上,爬⾍都能夠做

12306搶票

**上的投票

簡訊轟炸

⽹⻚三⼤特徵:

1 ⽹⻚都有⾃⼰唯⼀的url

2 ⽹⻚都是html來描述⻚⾯資訊

3 ⽹⻚都使⽤http/https協議來傳輸html資料

爬⾍的設計思路:

1 確定需要爬取的url位址

2 通過http/https協議獲取對應的html⻚⾯

3 提取html⻚⾯有⽤的資料

**簡介,開發效率⾼,⽀持的模組多,http請求和html解的模組豐富。調⽤其他接⼝也⾮常⽅便。

根據使⽤場景,⽹絡爬⾍可分為 通⽤爬⾍ 和 聚焦爬⾍ 兩種.

通⽤⽹絡爬⾍ 從互聯⽹中蒐集⽹⻚,採集資訊,這些⽹⻚資訊⽤於為搜尋引擎建⽴索引從⽽提供⽀持,它決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響著搜尋引擎的效果。

搜尋引擎如何獲取⼀個新⽹站的url:

在其他⽹站上設定新⽹站外鏈(盡可能處於搜尋引擎爬⾍爬取範圍)

搜尋引擎和dns解析服務商(如dnspod等)合作,新⽹站網域名稱將被迅速抓取。

第二步 :資料儲存

搜尋引擎通過爬⾍爬取到的⽹⻚,將資料存⼊原始⻚⾯資料庫。其中的⻚⾯資料與⽤戶瀏覽器得到的html是完全⼀樣的。

搜尋引擎蜘蛛在抓取⻚⾯時,也做⼀定的重複內容檢測,⼀旦遇到訪問權重很低的⽹站上有⼤量抄襲、採集或者複製的內容,很可能就不再爬⾏。

第四步:提供檢索服務,⽹站排名

搜尋引擎在對資訊進⾏組織和處理後,為⽤戶提供關鍵字檢索服務,將⽤戶檢

索相關的資訊展示給⽤戶。

同時會根據⻚⾯的pagerank值(鏈結的訪問量排名)來進⾏⽹站排名,這樣

rank值⾼的⽹站在搜尋結果中會排名較前,當然也可以直接使⽤ money 購買

搜尋引擎⽹站排名,簡單粗暴。

簡單反爬蟲技術介紹

反爬蟲的技術大概分為四個種類 注 文末有福利!一 通過user agent來控制訪問 無論是瀏覽器還是爬蟲程式,在向伺服器發起網路請求的時候,都會發過去乙個標頭檔案 headers,比如知乎的requestsheaders accept encoding gzip,deflate,sdch,br a...

Python開發簡單爬蟲之爬蟲介紹(一)

本部落格來自慕課網 python開發簡單爬蟲 爬蟲主要場景 不需要登入的靜態網頁 使用ajax非同步載入的內容 需要使用者登入才可以訪問的網頁 以下主要介紹不需要登入的靜態網頁。3中實現方式 python中已經存在關鍵字class,故當屬性為class時,用class 代替。coding utf 8...

簡單的爬蟲

參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求,用於獲取目標 的原始碼 def download p...