爬蟲第二天學習工具

1urllib.request模組

方法//需要新增cookie和data或者headers時候

//需要先收集乙個響應物件】

關鍵字引數); ///因為urlopen()不支援重構

1 urllib.request.urlopen(**（需要新增cookie和data或者headers時候需要放乙個響應物件）)

2 response.read() ------>返回乙個位元組流

2 response.read().decode(『utf-8』) ------>返回乙個字串

響應物件的方法

response.read() —>讀取伺服器響應的內容

response.getcode—>返回http的響應碼

response.geturl---->返回實際資料的url(防止重定向)

2urllinb.parse模組

urlencode(字典)-------->返回鍵=值(十六進製制)&下乙個鍵=值(十六進製制)

quote(字串) (這個⾥⾯的引數是個字串)–>把字串轉換為十六進製制返回

3requests

url =
'**'
# formdata 裡面的資料
data =
requests.post(url,data=data)

5 設定**ip 就是更改請求ip位址防止ip被封

使⽤requests新增**只需要在請求⽅法中(get/post)傳遞proxies引數就

可以了6 cookie 和ip一樣新增引數就可以

7 ssl證書不信任**

res = requests.get(url, verify=false)

verify=false 的意思是跳過ssl認證

爬蟲學習第二天

概念乙個基於網路請求的模組，作用就是模擬瀏覽器發起請求編碼流程制定url 進行請求的傳送獲取響應資料爬取到的資料持久化儲存制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...

爬蟲學習第二天

全稱網路爬蟲排除標準。作用告知網路爬蟲哪些頁面可以爬取，哪些不可以。形式在網路根目錄下的robots.txt檔案。ex.檢視京東的robots.txt檔案爬蟲應該自動識別robots.txt檔案，再進行內容爬取。顯示這個商品的資訊 import requests url try r requ...

爬蟲第二天

作用網路使用者去取得網路信任 1.突破自身ip限制，去訪問一些不能訪問的站點 2.提高網路速度，服務通過有比較大的硬碟快取區，當外界資訊訪問通過後，將資訊儲存在緩衝區，其他使用者訪問相同資訊，直接在緩衝區拿 3.隱藏真實ip，對於爬蟲來說為了隱藏自身ip，防止自身ip被封鎖爬蟲分類 1.ftp...

爬蟲第二天學習工具

爬蟲學習第二天

爬蟲學習第二天

爬蟲第二天

相關推薦