python網路爬蟲學習筆記

爬取網頁的通用**框架

網路爬蟲的盜亦有道

requests爬取例項

自動爬取html頁面；自動網路請求提交

主要方法

說明requests.request()

構造乙個請求

requests.get()

獲取html網頁的主要方法，對應於http的get

requests.head()

獲取html網頁頭資訊的方法，對應於http的head

requests.post()

向html網頁提交post請求的方法，對應於http的post

requests.put()

向html網頁提交put請求的方法，對應於http的put

requests.patch()

向html網頁提交區域性修改請求的方法，對應於http的patch

requests.delete()

向html網頁提交刪除請求的方法，對應於http的delete

# 構造乙個向伺服器請求資源的request物件，並返回乙個包含伺服器資源的response物件r
r = requests.get(url)
defget
(url, params=
none
,**kwargs)
:"""sends a get request.
:param url： url for the new :class:`request` object.
:param params: (optional) dictionary or bytes to be sent in the query string
:param \*\* kwargs: optional arguments that ``request`` takes.
:return: :class:`response ` object
:rtype: requests.response
"""kwargs.setdefualt(
'allow_redirects'
,true
)return request(
'get'
, url, params=params,
**kwargs)

引數

說明url

擬獲取頁面的url鏈結

params

url中的額外引數，字典或位元組流格式，optional

**kwargs

12個控制訪問的引數

屬性說明

r.status_code

http請求的返回狀態，200表示連線成功， 404表示失敗

r.headers

訪問頁面的頭部資訊

r.text

http響應內容的字串形式，即url對應的頁面內容

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式（備選編碼方式）

r.content

http相應內容的二進位制形式

由於網路連線有風險，requests.get(url)不一定能成功獲取網頁資源，因此異常處理很重要。

異常說明

requests.connectionerror

網路連線錯誤異常，如dns查詢失敗，拒絕連線

http 錯誤異常

requests.urlrequired

url缺失異常

requests.toomany redirects

超過最大重定向次數，產生重定向異常

requests.connecttimeout

連線遠端伺服器超時異常

requests.timeout

請求url超時，產生超時異常

r.raise_for_status()

如果不是200，產生異常requests.httperror

import requests
defgethtmltext
(url)
:try
: r = requests.get(url, timeout=30)
r.raise_for_status(
) return r.text
except
:return
"exception occurred!"
if __name__ ==
"__main__"
: url =
""print
(gethtmltext(url)
)

網路爬蟲 python學習筆記

pip install requestsr requests.get url r requests.get url,params none,kwargs request其實只有乙個方法 request 有兩個物件 import request r requests.get print r.statu...

Python（學習筆記網路爬蟲）

這篇呢作為學習筆記吧，應該不是太官方的那就開始吧，不太正式，就不注重格式了一引言首先我們應該想這麼個問題，學python的目的是什麼，最近我們開了python這門課，有好多同學的學習方法我感覺出了問題，有的同學問我怎麼學，說實在我也不知道，因為我也是新手，c語言也是剛及格，菜雞一枚。但是就我...

Python之網路爬蟲學習筆記

大資料時代資料獲取的方式 1 企業生產的使用者資料大型網際網路公司有海量使用者，所以他們積累資料有天然的優勢有資料意識的中小企業，也開始積累資料。2 資料管理諮詢公司通常這樣的公司有很龐大的資料採集團隊，一般會通過市場調研問卷調查固定的樣本檢測和各行各業的公司進行合作專家對話資料積累很...

python網路爬蟲學習筆記

網路爬蟲 python學習筆記

Python（學習筆記 網路爬蟲）

Python之網路爬蟲學習筆記

相關推薦

Python（學習筆記網路爬蟲）