爬蟲筆記初始爬蟲（二）

什麼是爬蟲？

爬蟲是什麼呢，一般說的爬蟲都是網路爬蟲。那什麼是網路爬蟲呢？

網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

總結來說就是一句話，就是從某個**上獲取某些你想要的資料，然後儲存起來

爬蟲可以幹什麼？

爬蟲的原理和實質：

那爬蟲呢，就是寫**把上面的這個過程自動化，自動做這個操作，不需要再手動點了。這就是爬蟲的原理。

爬蟲的實質呢，就是寫**發http請求（瀏覽器裡面開啟傳送的都是http請求），然後獲取到response，咱們再從response裡面找到想要的資料，儲存到本地。

爬蟲協議是什麼？

爬蟲協議就是你想用爬蟲爬我的**，那麼你得聽我的，哪些你能爬，哪些你不能爬。

怎麼檢視乙個**的爬蟲協議呢，就在這個**的網域名稱後面加上robots.txt

jd：**的：

如果你要爬的**網域名稱加上robots.txt是404，那你就可以隨心所欲的爬了。

爬蟲協議裡面有這麼幾個字段：

user-agent：*

這個欄位的意思是允許哪個引擎的爬蟲獲取資料

* 代表所有型別的爬蟲都可以

disallow:/admin/

這個字段代表爬蟲不允許爬哪個路徑下面的資料，如果是/的話，就代表所有的路徑下面的資料都不能爬。

什麼是反爬蟲？

因為會有一些惡意的人，惡意的去用爬蟲爬咱們的系統，獲取一些資料用來做一些不好的事情，這樣就會咱們的**造成危害。

反爬蟲就是幹這個事的，**後台有程式專門檢測發這個請求是爬蟲發的，還是使用者的正常請求（發請求就是開啟乙個頁面），如果是爬蟲發的話，那麼就不給它返回資料，這就是反爬蟲。

當然有反爬蟲那就有針對反爬蟲的策略，就是看誰技術高低的問題了~

python爬蟲筆記（二）爬蟲原理

瀏覽器f12的html 中的資訊就是爬取的目標瀏覽器傳送訊息請求到伺服器，這個過程叫http request 伺服器返回瀏覽器資訊，http response 瀏覽器處理資訊，展示 request 常用請求方式 get post，post請求需要構造表單進行請求，資料不會暴露在url中 url...

初始Python爬蟲

python2與python3的區別 python2將在2020年停止維護。語法預設編碼 print用法 xrange等函式變化建立例項 python中主要由urllib和request來獲取網頁內容。建立urllib例項 from urllib.request import urlopen 呼...

爬蟲二 Python爬蟲入門二

1.認識爬蟲 1.1 什麼是爬蟲爬蟲一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。1.2 python的爬蟲架構網頁解析器將乙個網頁字串進行解析，可以按照我們的要求來提取出我們有用的資訊，也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式直觀，將網頁轉成字串...

爬蟲筆記 初始爬蟲（二）

python爬蟲筆記（二）爬蟲原理

初始Python爬蟲

爬蟲二 Python爬蟲入門二

相關推薦

爬蟲筆記初始爬蟲（二）