Python學習之爬蟲02 urllib庫學習

2021-09-10 01:42:57 字數 2756 閱讀 9237

爬取豆瓣閱讀的所有出版社

#出版社爬取

urlretrieve()urlretrieve是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.

清除爬蟲產生的快取。

urlcleanup是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.

使用:直接呼叫,但是看不到實際的輸出

import urllib.request

urllib.request.urlcleanup(

)

info()可以提示當前爬取的相應的情況

info是urllib庫下的request下面的乙個方法,所以在使用的時候記得加上request.

import urllib.request

#看網頁相應的簡介資訊info()

getcode()輸出當前的狀態碼(訪問成功,訪問失敗,訪問失敗的原因等等)(正常是200,失敗時500,還有一些其他的,比如301等等,反正處理200,都是失敗的)

import urllib.request

#返回網頁爬取的狀態碼getcode()

geturl()獲取當前訪問的網頁的url

import urllib.request

#獲取當前訪問的網頁的url,geturl()

由於網路速度或者對方伺服器的問題,我們爬取乙個網頁的時候都需要時間,如果我們訪問乙個網頁長時間未響應,那麼我們的系統就會判斷網頁開啟超時。(平常的時候我們開啟網頁也有這種現象)。

根據不同**的響應速度,我們對不同**設定超時時間,比如說反應快的我設定timeout為2秒,反應慢的我設定timeout為100秒(只是舉例)。

#超時設定

import urllib.request

for i in

range(0

,100):

try:

file

=urllib.request.urlopen(

"",timeout=1)

print

(len

(file

.read(

).decode(

"utf-8"))

)except exception as err:

print

("出現異常"

爬蟲 Python爬蟲學習筆記之Urllib庫

1.urllib.request開啟和讀取url 2.urllib.error包含urllib.request各種錯誤的模組 3.urllib.parse解析url 4.urllib.robotparse解析 robots.txt檔案 傳送get請求 引入urlopen庫 用於開啟網頁 from u...

Python爬蟲02 請求模組

七 json資料 response.text 返回unicode格式的資料 str response.content 返回位元組流資料 二進位制 response.content.decode utf 8 手動進行解碼 response.url 返回url response.encode 編碼 im...

Python學習之爬蟲基礎

第0步 獲取資料 通過requests庫來獲取資料 requests.get 用法 import requests 引入requests庫 res requests.get url requests.get是在呼叫requests庫中的get 方法,它向伺服器傳送了乙個請求,括號裡的引數是你需要的資...