python網路爬蟲學習筆記

2021-09-23 20:35:38 字數 2428 閱讀 6458

爬取網頁的通用**框架

網路爬蟲的盜亦有道

requests爬取例項

自動爬取html頁面;自動網路請求提交

主要方法

說明requests.request()

構造乙個請求

requests.get()

獲取html網頁的主要方法,對應於http的get

requests.head()

獲取html網頁頭資訊的方法,對應於http的head

requests.post()

向html網頁提交post請求的方法,對應於http的post

requests.put()

向html網頁提交put請求的方法,對應於http的put

requests.patch()

向html網頁提交區域性修改請求的方法,對應於http的patch

requests.delete()

向html網頁提交刪除請求的方法,對應於http的delete

# 構造乙個向伺服器請求資源的request物件,並返回乙個包含伺服器資源的response物件r

r = requests.get(url)

defget

(url, params=

none

,**kwargs)

:"""sends a get request.

:param url: url for the new :class:`request` object.

:param params: (optional) dictionary or bytes to be sent in the query string

:param \*\* kwargs: optional arguments that ``request`` takes.

:return: :class:`response ` object

:rtype: requests.response

"""kwargs.setdefualt(

'allow_redirects'

,true

)return request(

'get'

, url, params=params,

**kwargs)

引數

說明url

擬獲取頁面的url鏈結

params

url中的額外引數,字典或位元組流格式,optional

**kwargs

12個控制訪問的引數

屬性說明

r.status_code

http請求的返回狀態,200表示連線成功, 404表示失敗

r.headers

訪問頁面的頭部資訊

r.text

http響應內容的字串形式,即url對應的頁面內容

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式(備選編碼方式)

r.content

http相應內容的二進位制形式

由於網路連線有風險,requests.get(url)不一定能成功獲取網頁資源,因此異常處理很重要。

異常說明

requests.connectionerror

網路連線錯誤異常,如dns查詢失敗,拒絕連線

http 錯誤異常

requests.urlrequired

url缺失異常

requests.toomany redirects

超過最大重定向次數,產生重定向異常

requests.connecttimeout

連線遠端伺服器超時異常

requests.timeout

請求url超時,產生超時異常

r.raise_for_status()

如果不是200, 產生異常requests.httperror

import requests

defgethtmltext

(url)

:try

: r = requests.get(url, timeout=30)

r.raise_for_status(

) return r.text

except

:return

"exception occurred!"

if __name__ ==

"__main__"

: url =

""print

(gethtmltext(url)

)

網路爬蟲 python學習筆記

pip install requestsr requests.get url r requests.get url,params none,kwargs request其實只有乙個方法 request 有兩個物件 import request r requests.get print r.statu...

Python(學習筆記 網路爬蟲)

這篇呢作為學習筆記吧,應該不是太官方的 那就開始吧,不太正式,就不注重格式了 一 引言 首先我們應該想這麼個問題,學python的目的是什麼,最近我們開了python這門課,有好多同學的學習方法我感覺出了問題,有的同學問我怎麼學,說實在我也不知道,因為我也是新手,c語言也是剛及格,菜雞一枚。但是就我...

Python之網路爬蟲學習筆記

大資料時代資料獲取的方式 1 企業生產的使用者資料 大型網際網路公司有海量使用者,所以他們積累資料有天然的優勢 有資料意識的中小企業,也開始積累資料。2 資料管理諮詢公司 通常這樣的公司有很龐大的資料採集團隊,一般會通過市場調研 問卷調查 固定的樣本檢測和各行各業的公司進行合作 專家對話 資料積累很...