Python 爬蟲 概念基礎

2021-10-17 03:32:56 字數 629 閱讀 8954

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程

爬蟲在使用中的分類:

- 通用爬蟲:

抓取系統的重要主城部分,抓取的是整張頁面的資料。

- 聚焦爬蟲:

建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。

- 增量式爬蟲:

檢測**中資料更新的情況,只會抓取**中最新更新的資料。

反爬機制:

各個**,通過制定相應的策略或技術手段,限制爬蟲程式對**資料的爬取。

反反爬策略:

robots.txt協議:

robots.txt協議:

君子協議。規定了**中哪些資料可以被爬蟲爬取哪些資料不可以被爬取。

http協議:

一概念:就是伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

-user-agent:請求載體的身份標識

- connection:請求完畢後,是斷開連線還是保持連線

常用響應頭資訊

- content-type:伺服器響應回客戶端的資料型別

https協議:

一 安全的超文字傳輸協議

加密方式

一對稱秘鑰加密

一非對稱秘鑰加密

-證書秘鑰加密

爬蟲基礎概念

1.通過ua識別爬蟲 有些爬蟲的ua是特殊的,與正常瀏覽器的不一樣,可通過識別特徵ua,直接封掉爬蟲請求 2.設定ip訪問頻率,如果超過一定頻率,則封掉爬蟲請求 3.彈出驗證碼 如果輸入正確的驗證碼,則放行,如果沒有輸入,則拉入禁止一段時間,如果超過禁爬時間,再次觸發驗證碼,則拉入黑名單。當然根據具...

爬蟲基礎概念

目錄開發工具和chrome的安裝 chrome抓包工具 http協議 爬蟲是乙個模擬人類請求 行為的程式。可以自動請求網頁 並把資料抓取下來,然後使用一定的規則提取有價值的資料 惠惠購物助手。資料分析。搶票軟體等。語法優美 簡潔 開發效率高 支援的模組多。相關的http請求模組和html解析模組非常...

python爬蟲之基礎概念篇

最近在學爬蟲,把學習過程做個記錄,也方便自己以後檢視。一 基礎概念篇 爬蟲在使用場景中的分類 通用爬蟲 抓取系統重要組成部分。抓取的是一整張頁面資料。聚焦爬蟲 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。增量式爬蟲 檢測 中資料更新的情況。只會抓取 中最新更新出來的資料。robots...