python爬蟲學習 第一章 爬蟲基礎

2021-10-09 19:37:08 字數 990 閱讀 2252

通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。

比如:電商願意被比價**或者購物資訊**爬取資訊,因為可以為他們的商品帶來更多的流量;而不願意被同行爬取**資訊,或者產品資訊;但是很多電商又會去爬取同行的商品資訊。

如何解決這個矛盾?

​ — 反爬機制:門戶**,可以通過制定相應的策略或者技術手段,防止爬蟲程式進行**資料的爬取。

​ —反反爬策略:爬蟲程式通過制定相關的策略或者技術手段,破解門戶**具備的反爬機制,從而可以獲取門戶 **中的相關資料。

robots.txt協議是第一種反爬機制,君子協議,並沒有強制限定**的資料哪些可以被爬取,哪些不可以被爬取。

題外話:關於robots.txt協議的第一場官司(2023年),電商a將電商b告上法庭,電商b爬取了電商a在 robots.txt協議中已寫明不能被爬取的資料,電商a勝訴。

常用的響應頭資訊( response headers):

不安全,資料未進行加密

非對稱秘鑰加密:伺服器端設定一種加密方式,將加密方式傳遞給客戶端,客戶端使用伺服器端設定的加 密方式對將要傳遞給伺服器端的資料進行加密後,將密文傳遞給伺服器端,伺服器端再通過自己的私有秘鑰進行解密。

證書秘鑰加密:為解決非對稱秘鑰加密中存在的安全隱患,引出了公開秘鑰證書機制,數字證書認證機構是客戶端與伺服器都可信賴的第三方機構,證書傳播過程:

伺服器端的開發者攜帶公鑰,向數字證書認證機構提出公鑰的申請,數字證書認證機構認清申請者身份,並對公鑰進行審核,審核通過以後,數字證書認證機構會對公鑰做數字簽名(用於防偽),然後將已簽名的公鑰封裝在證書裡,然後將證書傳送到客戶端。

客戶端可以通過數字證書中的數字簽名(很難被偽造)來驗證公鑰的真偽,確認無誤後,客戶端使用證書中公鑰對將要傳送的資料進行加密,加密後向伺服器端傳送密文,伺服器端再使用私鑰進行解密

爬蟲第一章

爬蟲基礎 什麼是爬蟲?爬蟲是通過程式模擬瀏覽器上網,從網上獲取資料的過程.爬蟲的分類 通用爬蟲 爬取一整個頁面的資料.聚焦爬蟲 爬取頁面中指定的區域性資料 增量式爬蟲 檢測 中資料更新的情況,爬取的是 中最新更新出來的資料.什麼是反爬機制?製作時設定的一系列阻止爬蟲程式進行的阻礙,就是反爬機制,反爬...

python網路爬蟲(第一章)

內容來自於o reilly 人民郵電出版社 的 python網路爬蟲權威指南 此部落格僅用於記錄學習,方便以後使用 目前本系列文章 python網路爬蟲筆記 更新情況 第一章 本文 第二章 python網路爬蟲 第二章 簡單例項 python網路爬蟲 簡單例項 print title 1 urlli...

第一章 初識爬蟲

1 爬蟲的定義 可以自動抓取全球資訊網上資訊的指令碼或程式。2 爬蟲可以解決的問題 1 解決冷啟動的問題。2 搜尋引擎的根基。做搜尋引擎,必須使用爬蟲。3 幫助機器學習建立知識圖譜。機器學習最終的是訓練集。訓練集可以靠爬蟲爬去。4 可以製作比較軟體。1 搜尋引擎定義 自動從網際網路蒐集資訊,經過一定...