爬蟲基礎概念

2022-10-09 01:12:14 字數 2016 閱讀 8726

目錄開發工具和chrome的安裝

chrome抓包工具

http協議:

爬蟲是乙個模擬人類請求**行為的程式。可以自動請求網頁、並把資料抓取下來,然後使用一定的規則提取有價值的資料;

惠惠購物助手。

資料分析。

搶票軟體等。

語法優美、**簡潔、開發效率高、支援的模組多。相關的http請求模組和html解析模組非常豐富。還有scrapy和scrapy-redis框架讓我們開發爬蟲變得異常簡單····

開發工具anaconda和pycharm的安裝教學前面都有介紹到,chrome安裝也非常簡單

ps:如果打不開說明被牆掉了,需要f牆

可以幫助我們分析網頁結構,獲取我們想要的資料。但是elements下是最終呈現的網頁資料,有時候網頁資料是通過ajax請求得到的,因此elements下的資料不能完全相信。

用來列印網頁的一些資訊。

整個網頁所載入的所有檔案。

檢視整個網頁傳送的所有網路請求。一般我們想要去檢視某個請求的資訊,都可以到這個裡面去看。

http協議:全稱是hypertext transfer protocol,中文意思是超文字傳輸協議,是一種發布和接收html(hypertext markup language)頁面的方法。伺服器端口號是80埠。 2. https協議:是http協議的加密版本,在http下加入了ssl層。伺服器端口號是443埠。

更多介紹請參考:

url是uniform resource locator的簡寫,統一資源定位符。 乙個url由以下幾部分組成:

host:主機名,網域名稱,比如www.baidu.com

path:查詢路徑。比如:www.jianshu.com/trending/now,後面的trending/now就是path

query-string:查詢字串,比如:www.baidu.com/s?wd=python,後面的wd=python就是查詢字串。

anchor:錨點,前端用來做頁面定位的。現在一些前後端分離專案,也用錨點來做導航。

在瀏覽器中請求乙個url,瀏覽器會對這個url進行乙個編碼。除英文本母,數字和部分符號外,其他的全部使用百分號+十六進製製碼值進行編碼。

在http協議中,定義了八種請求方法。這裡介紹兩種常用的請求方法,分別是get請求和post請求。

get請求:一般情況下,只從伺服器獲取資料下來,並不會對伺服器資源產生任何影響的時候會使用get請求。

post請求:向伺服器傳送資料(登入)、上傳檔案等,會對伺服器資源產生影響的時候會使用post請求。 以上是在**開發中常用的兩種方法。並且一般情況下都會遵循使用的原則。但是有的**和伺服器為了做反爬蟲機制,也經常會不按常理出牌,有可能乙個應該使用get方法的請求就一定要改成post請求,這個要視情況而定。

在http協議中,向伺服器傳送乙個請求,資料分為三部分,第乙個是把資料放在url中,第二個是把資料放在body中(在post請求中),第三個就是把資料放在head中。這裡介紹在網路爬蟲中經常會用到的一些請求頭引數:

user-agent:瀏覽器名稱。這個在網路爬蟲中經常會被使用到。請求乙個網頁的時候,伺服器通過這個引數就可以知道這個請求是由哪種瀏覽器傳送的。如果我們是通過爬蟲傳送請求,那麼我們的user-agent就是python,這對於那些有反爬蟲機制的**來說,可以輕易的判斷你這個請求是爬蟲。因此我們要經常設定這個值為一些瀏覽器的值,來偽裝我們的爬蟲。

cookie:http協議是無狀態的。也就是同乙個人傳送了兩次請求,伺服器沒有能力知道這兩個請求是否來自同乙個人。因此這時候就用cookie來做標識。一般如果想要做登入後才能訪問的**,那麼就需要傳送cookie資訊了。

爬蟲基礎概念

1.通過ua識別爬蟲 有些爬蟲的ua是特殊的,與正常瀏覽器的不一樣,可通過識別特徵ua,直接封掉爬蟲請求 2.設定ip訪問頻率,如果超過一定頻率,則封掉爬蟲請求 3.彈出驗證碼 如果輸入正確的驗證碼,則放行,如果沒有輸入,則拉入禁止一段時間,如果超過禁爬時間,再次觸發驗證碼,則拉入黑名單。當然根據具...

Python 爬蟲 概念基礎

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...

python爬蟲之基礎概念篇

最近在學爬蟲,把學習過程做個記錄,也方便自己以後檢視。一 基礎概念篇 爬蟲在使用場景中的分類 通用爬蟲 抓取系統重要組成部分。抓取的是一整張頁面資料。聚焦爬蟲 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。增量式爬蟲 檢測 中資料更新的情況。只會抓取 中最新更新出來的資料。robots...