爬蟲筆記 初始爬蟲(二)

2022-09-17 02:12:11 字數 1088 閱讀 5856

什麼是爬蟲?

爬蟲是什麼呢,一般說的爬蟲都是網路爬蟲。那什麼是網路爬蟲呢?

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

總結來說就是一句話,就是從某個**上獲取某些你想要的資料,然後儲存起來

爬蟲可以幹什麼?

爬蟲的原理和實質:

那爬蟲呢,就是寫**把上面的這個過程自動化,自動做這個操作,不需要再手動點了。這就是爬蟲的原理。

爬蟲的實質呢,就是寫**發http請求(瀏覽器裡面開啟傳送的都是http請求),然後獲取到response,咱們再從response裡面找到想要的資料,儲存到本地。

爬蟲協議是什麼?

爬蟲協議就是你想用爬蟲爬我的**,那麼你得聽我的,哪些你能爬,哪些你不能爬。

怎麼檢視乙個**的爬蟲協議呢,就在這個**的網域名稱後面加上robots.txt

jd:**的:

如果你要爬的**網域名稱加上robots.txt是404,那你就可以隨心所欲的爬了。

爬蟲協議裡面有這麼幾個字段:

user-agent:*

這個欄位的意思是允許哪個引擎的爬蟲獲取資料

* 代表所有型別的爬蟲都可以

disallow:/admin/

這個字段代表爬蟲不允許爬哪個路徑下面的資料,如果是/的話,就代表所有的路徑下面的資料都不能爬。

什麼是反爬蟲?

因為會有一些惡意的人,惡意的去用爬蟲爬咱們的系統,獲取一些資料用來做一些不好的事情,這樣就會咱們的**造成危害。

反爬蟲就是幹這個事的,**後台有程式專門檢測發這個請求是爬蟲發的,還是使用者的正常請求(發請求就是開啟乙個頁面),如果是爬蟲發的話,那麼就不給它返回資料,這就是反爬蟲。

當然有反爬蟲那就有針對反爬蟲的策略,就是看誰技術高低的問題了~

python爬蟲筆記(二)爬蟲原理

瀏覽器f12的html 中的資訊就是爬取的目標 瀏覽器傳送訊息 請求 到伺服器,這個過程叫http request 伺服器返回瀏覽器資訊,http response 瀏覽器處理資訊,展示 request 常用請求方式 get post,post請求需要構造表單進行請求,資料不會暴露在url中 url...

初始Python爬蟲

python2與python3的區別 python2將在2020年停止維護。語法 預設編碼 print用法 xrange等函式變化 建立例項 python中主要由urllib和request來獲取網頁內容。建立urllib例項 from urllib.request import urlopen 呼...

爬蟲二 Python爬蟲入門二

1.認識爬蟲 1.1 什麼是爬蟲 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。1.2 python的爬蟲架構 網頁解析器 將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式 直觀,將網頁轉成字串...