爬蟲基礎簡介

2021-10-21 12:26:18 字數 911 閱讀 4461

什麼是爬蟲:

– 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。

爬蟲的價值:

– 實際應用

– 就業

爬蟲是否違法?

在法律中是不被禁止的

具有違法風險

爬蟲帶來的風險可以體現在如下2方面:

如何避免進入局子: 優化自己的程式,避免干擾被訪問**的正常執行

在使用,傳播爬取到的資料時,審查抓取到的內容,如果發現了涉及到使用者隱私,或商業機密等敏感內容,需要及時停止爬取或傳播

爬蟲在使用場景中的分類:

通用爬蟲: 抓取系統重要組成部分。抓取的是一整張頁面資料。

爬蟲的矛與盾:

robots.txt協議:(反爬)

君子協議。規定了**中哪些資料可以被爬蟲爬取哪些資料不可以被爬取。

http協議(hypertext transfer protocol)超文字傳輸協議

概念:伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

– user-agent:請求載體的身份標識

– connection:請求完畢後,是斷開連線還是保持連線

常用響應頭資訊

– content-type:伺服器響應回客戶端的資料型別

https協議

– 安全的超文字傳輸協議(資料加密)

加密方式

對稱秘鑰加密

非對稱秘鑰加密

證書秘鑰加密

爬蟲 1 爬蟲簡介及基礎庫

學習爬蟲,第一步便是要能夠模擬瀏覽器向伺服器發出請求。這一基礎操作可以借助 python 的庫來幫助我們實現,我們只需要學會這些庫的使用即可。最基礎的 http 庫有 注 在 python2 中,有 urllib 和 urllib2 兩個庫來實現 http 請求的傳送。而在 python3 中,ur...

爬蟲 一 爬蟲簡介

很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...

Scrapy爬蟲 二 爬蟲簡介

列幾個簡單的例子,看看就行 urllib庫 基於python3.5 encoding utf 8 import urllib.request def download data url response urllib.request.urlopen url print response.getcod...