python爬蟲之 入門基礎

2022-06-21 17:48:13 字數 1352 閱讀 7070

可以參考我之前學習的時候**的一篇文章一次完整的http事務過程–超詳細

2.還需要了解一下http的請求方式

有興趣的同學可以去查一下http的八種請求方法,這裡呢主要說下get請求和post請求,這兩種在以後學習中會用到的比較多。

get請求:get方法用於使用給定的uri從給定伺服器中檢索資訊,即從指定資源中請求資料。我們輸入**訪問**一般就是get請求。[做運維的小年輕]使用get方法的請求應該只是檢索資料,並且不應對資料產生其他影響。

優點:比較便捷

缺點:由於是明文傳輸,所以安全性比較低,另外引數長度有限制。

post請求:post請求通常是使用來提交html的表單,表單中的資料傳輸到伺服器,由伺服器對這些資料處理。我們平常執行登入操作的那一下基本上都是post請求。

關於get請求和post請求區別優缺點這裡推薦一篇博文:http get 和 post 請求的優缺點、區別以及誤區

下面說一下headers中的request headers(請求頭資訊),

accept:指定客戶端能夠接收的內容型別,圖中text/html表示要請求返回文字格式的資料

accept-encoding:指定瀏覽器可以支援的web伺服器返回內容壓縮編碼型別,圖中gzip表示支援gzip格式的壓縮檔案

accept-language:瀏覽器可接受的語言 圖中 zh-cn表示接受中文

cookie:是伺服器傳送到瀏覽器並儲存在本地的一小塊資料,儲存在header中,它會在瀏覽器下次向同一伺服器再發起請求時被攜帶併發送到伺服器上,通常,它用於告知服務端兩個請求是否來自同一瀏覽器,如保持使用者的登入狀態。

host:

user-agent:

包含的是發出請求的使用者資訊,客戶機的軟體環境瀏覽器型別等

response header 和request headers對應,如下圖

了解完這些呢,就來看下爬蟲吧

爬蟲通俗來說,就是使用**模擬使用者,批量傳送網路請求,批量的獲取資料

1.通用爬蟲:搜尋引擎的爬蟲

優勢:開放性很好,速度比較快

2.聚焦爬蟲:全稱聚焦網路爬蟲,又稱為主題網路爬蟲

python爬蟲入門 之基礎概念

anaconda3 5.0.0 windows x86.exe anaconda3 5.0.0 macosx x86 64.sh anaconda3 5.0.0 linux ppc64le.sh anaconda3 5.0.0 linux x86.sh 推薦鏈結位址 anaconda是乙個整合環境 ...

Python爬蟲入門二之爬蟲基礎了解

靜覓 python爬蟲入門二之爬蟲基礎了解 爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超...

Python爬蟲入門二之爬蟲基礎了解

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...