Python3爬蟲學習筆記1 0 什麼是爬蟲?

2021-07-15 23:32:16 字數 839 閱讀 2057

我們來思考乙個問題,什麼是爬蟲?說一下我對爬蟲的理解。

理解爬蟲之前,我們思考一下網路是一種什麼樣式的存在。爬蟲就是游離在這些網路之間的乙個自動化程式,並且能夠完成對網路地瀏覽,自動採集網路中所有訪問到的內容 ,從而在網路中得到你需要的資訊。

網路蜘蛛(爬蟲)-維基百科

順便說一句:google是世界上最大的爬蟲。

需要注意的一點是,當你需要用爬蟲完成一件事情的時候,「用爬蟲」,這三個字只能作為乙個定語使用。即,只有當你在不用爬蟲就有許可權進行操作的時候,才能考慮到使用爬蟲來完成;爬蟲只是乙個自動化的工具。

例如:用爬蟲可以把目標**上所有的扒下來,但是如果你女神對設定了許可權,不允許你訪問她的qq空間,這個時候爬蟲也是愛莫能助。

爬蟲的定義中提到:

網路爬蟲始於一張被稱作種子的統一資源位址(urls)列表。

那麼url又是什麼呢?

url,統一資源定位符,通常我們表達為**,如:www.baidu.com,但這不是乙個標準的格式,統一資源定位符的標準格式如下:

協議型別://伺服器位址(必要時需加上埠號)/路徑/檔名

大多數網頁瀏覽器不要求使用者輸入網頁中「http://」的部分,因為大多數都是用到的http協議。

爬蟲會開始於乙個url,然後跟你設定的深度和爬取數量,接著尋找該頁面中的url,用於下次訪問,以此類推。如果是資料結構基礎的同學應該能夠看出來,爬蟲程式實際上完成的是乙個bfs,「廣度優先遍歷」。

從這篇文章開始,以後寫東西都用markdown了,感謝黃日辰同學的友情提示,麼麼噠。

謝謝捧場!

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

python3爬蟲筆記

請求 並提取 資料的 自動化 程式 發起請求 獲取響應內容 解析文字內容 儲存資料 1.瀏覽器傳送資訊給該 所在的伺服器,這個過程叫做http request。2.服務收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應的處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。...

Python3爬蟲學習筆記0 0 綜述

歡迎捧場,博主前一段時間零零碎碎地學習了一些python爬蟲的知識,現在把一些學習內容整理出來,水平有限,難免出現錯誤,希望大家能夠批評指正,謝謝。該系列部落格的內容參照 崔慶才 靜覓的部落格內容完成,謝謝授權。python 版本 3.5 預備知識 python基礎,http協議,正規表示式,url...