爬蟲第二天學習工具

2021-10-16 22:21:16 字數 939 閱讀 6346

1urllib.request模組

方法//需要新增cookie和data或者headers時候

//需要先收集乙個響應物件】

關鍵字引數); ///因為urlopen()不支援重構

1 urllib.request.urlopen(**(需要新增cookie和data或者headers時候需要放乙個響應物件))

2 response.read() ------>返回乙個位元組流

2 response.read().decode(『utf-8』) ------>返回乙個字串

響應物件的方法

response.read() —>讀取伺服器響應的內容

response.getcode—>返回http的響應碼

response.geturl---->返回實際資料的url(防止重定向)

2urllinb.parse模組

urlencode(字典)-------->返回 鍵=值(十六進製制)&下乙個鍵=值(十六進製制)

quote(字串) (這個⾥⾯的引數是個字串)–>把字串轉換為十六進製制返回

3requests

url =

'**'

# formdata 裡面的資料

data =

requests.post(url,data=data)

5 設定**ip 就是更改請求ip位址防止ip被封

使⽤requests新增**只需要在請求⽅法中(get/post)傳遞proxies引數就

可以了6 cookie 和ip一樣 新增引數就可以

7 ssl證書不信任**

res = requests.get(url, verify=false)

verify=false 的意思是跳過ssl認證

爬蟲學習第二天

概念 乙個基於網路請求的模組,作用就是模擬瀏覽器發起請求 編碼流程 制定url 進行請求的傳送 獲取響應資料 爬取到的資料 持久化儲存 制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...

爬蟲學習第二天

全稱網路爬蟲排除標準。作用 告知網路爬蟲哪些頁面可以爬取,哪些不可以。形式 在網路根目錄下的robots.txt檔案。ex.檢視京東 的robots.txt檔案 爬蟲應該自動識別robots.txt檔案,再進行內容爬取。顯示這個商品的資訊 import requests url try r requ...

爬蟲第二天

作用 網路使用者去取得網路信任 1.突破自身ip限制,去訪問一些不能訪問的站點 2.提高網路速度,服務通過有比較大的硬碟快取區,當外界資訊訪問通過後,將資訊儲存在緩衝區,其他使用者訪問相同資訊,直接在緩衝區拿 3.隱藏真實ip,對於爬蟲來說為了隱藏自身ip,防止自身ip被封鎖 爬蟲 分類 1.ftp...