Python Requests庫的爬取效能分析

2021-09-20 05:37:51 字數 848 閱讀 9583

「任意」找個url,測試一下成功爬取100次網頁的時間。(某些**對於連續爬取頁面將採取遮蔽ip的策略,所以,要避開這類**。)

import requests

import time

def gethtmltext(url):

try: # try except:用於異常處理

r = requests.get(url, timeout=30) # get到** timeout=30:如果get時間超過30s,則停止等待響應

r.raise_for_status() # 檢測是否連線成功

return r.text

except:

return '執行異常'

if __name__ == "__main__": # python 模擬的程式入口

url = ''

totaltime = 0

for i in range(100):

starttime = time.perf_counter()

gethtmltext(url)

endtime = time.perf_counter()

print('第次爬取,用時秒'.format(i+1, endtime-starttime))

totaltime=totaltime+endtime-starttime

print('總共用時秒'.format(totaltime))

網路爬蟲有風險,爬取資料需謹慎

離線安裝python requests庫

requests 2.19.1 certifi required 2017.4.17,installed 2018.4.16 ca認證模組 chardet required 3.1.0,3.0.2,installed 3.0.4 通用字元編碼檢測器模組 idna required 2.8,2.5,i...

python Requests庫入門(一)

1 搜尋cmd,以管理員的身份執行 2 輸入pip install requests 截圖所示便代表已安裝好 3 開啟idle進行簡單測試 import requests r requests.get r.status code 200 此時返回值狀態碼應是200,200表示訪問成功 下面繼續 r....

python requests庫的使用

如果auth使用不通過的話,可以再header加入cookie header data request請求 response requests.request get url,params params,headers headers,auth auth session 請求 session req...