爬蟲基礎概念

目錄開發工具和chrome的安裝

chrome抓包工具

http協議：

爬蟲是乙個模擬人類請求**行為的程式。可以自動請求網頁、並把資料抓取下來，然後使用一定的規則提取有價值的資料；

惠惠購物助手。

資料分析。

搶票軟體等。

語法優美、**簡潔、開發效率高、支援的模組多。相關的http請求模組和html解析模組非常豐富。還有scrapy和scrapy-redis框架讓我們開發爬蟲變得異常簡單····

開發工具anaconda和pycharm的安裝教學前面都有介紹到，chrome安裝也非常簡單

ps：如果打不開說明被牆掉了，需要f牆

可以幫助我們分析網頁結構，獲取我們想要的資料。但是elements下是最終呈現的網頁資料，有時候網頁資料是通過ajax請求得到的，因此elements下的資料不能完全相信。

用來列印網頁的一些資訊。

整個網頁所載入的所有檔案。

檢視整個網頁傳送的所有網路請求。一般我們想要去檢視某個請求的資訊，都可以到這個裡面去看。

http協議：全稱是hypertext transfer protocol，中文意思是超文字傳輸協議，是一種發布和接收html（hypertext markup language）頁面的方法。伺服器端口號是80埠。 2. https協議：是http協議的加密版本，在http下加入了ssl層。伺服器端口號是443埠。

更多介紹請參考：

url是uniform resource locator的簡寫，統一資源定位符。乙個url由以下幾部分組成：

host：主機名，網域名稱，比如www.baidu.com

path：查詢路徑。比如：www.jianshu.com/trending/now，後面的trending/now就是path

query-string：查詢字串，比如：www.baidu.com/s?wd=python，後面的wd=python就是查詢字串。

anchor：錨點，前端用來做頁面定位的。現在一些前後端分離專案，也用錨點來做導航。

在瀏覽器中請求乙個url，瀏覽器會對這個url進行乙個編碼。除英文本母，數字和部分符號外，其他的全部使用百分號+十六進製製碼值進行編碼。

在http協議中，定義了八種請求方法。這裡介紹兩種常用的請求方法，分別是get請求和post請求。

get請求：一般情況下，只從伺服器獲取資料下來，並不會對伺服器資源產生任何影響的時候會使用get請求。

post請求：向伺服器傳送資料（登入）、上傳檔案等，會對伺服器資源產生影響的時候會使用post請求。以上是在**開發中常用的兩種方法。並且一般情況下都會遵循使用的原則。但是有的**和伺服器為了做反爬蟲機制，也經常會不按常理出牌，有可能乙個應該使用get方法的請求就一定要改成post請求，這個要視情況而定。

在http協議中，向伺服器傳送乙個請求，資料分為三部分，第乙個是把資料放在url中，第二個是把資料放在body中（在post請求中），第三個就是把資料放在head中。這裡介紹在網路爬蟲中經常會用到的一些請求頭引數：

user-agent：瀏覽器名稱。這個在網路爬蟲中經常會被使用到。請求乙個網頁的時候，伺服器通過這個引數就可以知道這個請求是由哪種瀏覽器傳送的。如果我們是通過爬蟲傳送請求，那麼我們的user-agent就是python，這對於那些有反爬蟲機制的**來說，可以輕易的判斷你這個請求是爬蟲。因此我們要經常設定這個值為一些瀏覽器的值，來偽裝我們的爬蟲。

cookie：http協議是無狀態的。也就是同乙個人傳送了兩次請求，伺服器沒有能力知道這兩個請求是否來自同乙個人。因此這時候就用cookie來做標識。一般如果想要做登入後才能訪問的**，那麼就需要傳送cookie資訊了。

爬蟲基礎概念
1.通過ua識別爬蟲有些爬蟲的ua是特殊的，與正常瀏覽器的不一樣，可通過識別特徵ua，直接封掉爬蟲請求 2.設定ip訪問頻率，如果超過一定頻率，則封掉爬蟲請求 3.彈出驗證碼如果輸入正確的驗證碼，則放行，如果沒有輸入，則拉入禁止一段時間，如果超過禁爬時間，再次觸發驗證碼，則拉入黑名單。當然根據具...

Python 爬蟲概念基礎
通過編寫的程式，模擬瀏覽器，然後通過網際網路抓取資料分過程爬蟲在使用中的分類通用爬蟲抓取系統的重要主城部分，抓取的是整張頁面的資料。聚焦爬蟲建立在通用爬蟲的基礎上，抓取的是頁面中特定的內容。增量式爬蟲檢測中資料更新的情況，只會抓取中最新更新的資料。反爬機制各個通過制定相應的策略或技...

python爬蟲之基礎概念篇
最近在學爬蟲，把學習過程做個記錄，也方便自己以後檢視。一基礎概念篇爬蟲在使用場景中的分類通用爬蟲抓取系統重要組成部分。抓取的是一整張頁面資料。聚焦爬蟲是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。增量式爬蟲檢測中資料更新的情況。只會抓取中最新更新出來的資料。robots...

爬蟲基礎概念

爬蟲基礎概念

Python 爬蟲 概念基礎

python爬蟲之基礎概念篇

相關推薦

Python 爬蟲概念基礎