爬蟲實戰 3初學Python網路爬蟲(5個例項)

2021-10-16 05:08:39 字數 2388 閱讀 9766

要爬取的頁面為:

**如下:

import requests

defgethtmltext

(url)

:try

: r = requests.get(url, timeout=30)

r.raise_for_status(

)# 如果狀態不是200,引發httperror異常

print

(r.status_code)

print

(r.encoding)

return r.text

except

:print

('爬取失敗'

)if __name__ ==

"__main__"

: url =

""print

(gethtmltext(url)[:

1000

])

結果為:

200

ascii

需要登入京東,待解決的問題

第一次需要marketplace apis ,需要修改r.request.headers

import requests

defgethtmltext

(url)

:try

: kv =

r = requests.get(url, headers=kv, timeout=30)

# print(r.request.headers)

r.raise_for_status(

)# 如果狀態不是200,引發httperror異常

return r.text

except

:print

('爬取失敗'

)if __name__ ==

"__main__"

: url =

""print

(gethtmltext(url)

)

import requests

defgethtmltext

(url)

:try

: kv =

r = requests.get(url, params=kv, timeout=30)

print

(r.status_code)

r.raise_for_status(

)# 如果狀態不是200,引發httperror異常

return r.text

except

:print

('爬取失敗'

)if __name__ ==

"__main__"

: url =

""print

(len

(gethtmltext(url)

))

這裡的url應該為"或"

這個**請動手敲一下,第一次爬qaq

import requests

import os

defgethtmltext

(url)

:try

: r = requests.get(url, timeout=30)

print

(r.status_code)

r.raise_for_status(

)# 如果狀態不是200,引發httperror異常

return r

except

:print

('爬取失敗'

)if __name__ ==

"__main__"

: url =

""root =

path = root + url.split(

'/')[-

1]# 在root新建3321d6673eb82c94d08e1b80e8344166.jpg

ifnot os.path.exists(root)

: os.mkdir(root)

ifnot os.path.exists(path)

: r = gethtmltext(url)

with

open

(path,

'wb'

)as f:

f.write(r.content)

f.close(

)print

('檔案儲存成功'

)else

:print

('檔案已存在'

)

爬取失敗,可能需要校園網或者需要登陸

mooc第一周網路爬蟲之規則完畢

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python實戰 網路爬蟲

學習網路爬蟲的目的 1,可以私人定製乙個搜尋引擎,可以深層次的了解搜尋引擎的工作原理。2,大資料時代,要進行資料分析,首先要有資料來源,學習爬蟲,可以讓我們獲取更多的資料。3,從業人員可以可好的利用爬蟲,了解其原理,更加優化你的程式。網路爬蟲的組成 網路爬蟲由控制節點,爬蟲節點,資源庫構成 爬蟲的型...