爬取網路基本框架

2022-08-26 12:42:09 字數 2108 閱讀 7367

0x00 理解requests庫的異常

requests庫的異常:

0x01 爬取網頁的通用框架

import

requests

defgethtmltext(url):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

#如果狀態碼不是200,引發httperror異常

return

r.text

except

:

return

"產生異常"if

__name__ == "

__main__":

url = "

********

"print(gethtmltext(url))

例項1:對狗東某網頁的簡單爬取

首先對網頁進行基本的判斷,通過status_code、encoding方法檢視網頁

接著就是按照之前給的框架,將修改url進行爬取

#如果狀態碼不是200,引發httperror異常

return r.text[:1000]

except

:

return

"產生異常"if

__name__ == "

__main__":

url = "

"print(gethtmltext(url))

例項3:爬取

import

requests

import

osurl = "

"root = "

d://pics//

"path = root + url.split('

/')[-1] #

擷取檔案原名

try:

ifnot os.path.exists(root): #

判斷根目錄是否存在,不存在就建立新的根目錄

os.mkdir(root)

ifnot os.path.exists(path): #

r =requests.get(url)

with open(path, 'wb

') as f:

f.write(r.content)

f.close()

print("

seccess")

else

:

print("

exist")

except

:

print("

fail

")

import

requests

url = "

"try

: r = requests.get(url + "

202.204.80.112")

r.raise_for_status()

print(r.text[:5000])

except

:

print("

fail

")

python requests網路爬取

1.京東商品頁面的爬取 import requests url try r requests.get url r.raise for status print r.encoding print r.text 1000 except print 爬取失敗 2.亞馬遜商品頁面的爬取 import req...

scrapy框架全站資料爬取

每個 都有很多頁碼,將 中某板塊下的全部頁碼對應的頁面資料進行爬取 實現方式有兩種 1 將所有頁面的url新增到start urls列表 不推薦 2 自行手動進行請求傳送 推薦 yield scrapy.request url,callback callback專門用做於資料解析 下面我們介紹第二種...

MATLAB 爬取網路資料

by hpc zy 以優酷為例 url 資料所在 重點內容 sourcefile webread url 獲取所有資料 disp sourcefile 顯示資料 去除空白字元 選用 輸入對應的 正規表示式 進行檢索 expr data regexp sourcefile,expr,match tok...