爬蟲流程複習3

2022-06-19 12:03:11 字數 3696 閱讀 5857

111.requests.get 方法的流程

r = requests.get('

').content.decode('

utf-8')

從狀態碼到 二進位製碼到 utf-8編碼

112.對 soup 物件進行美化

html =soup.prettify()

113.將內容 string 化

html.xpath(

'string(//*[@id="cnblogs_post_body"])')

114.獲取屬性

soup.p[

'name']

115.巢狀選擇

soup.head.title.string

116.獲取父節點和祖孫節點

soup.a.parent

list(enumerate(soup.a.parents))

117.獲取兄弟節點

soup.a.next_siblings

list(enumerate(soup.a.next_siblings))

soup.a.previous_siblings

list(enumerate(soup.a.previous_siblings))

118.按照特定值查詢標籤

查詢 id 為 list-1的標籤

soup.find_all(attrs=)

soup.find_all(id='

list-1')

119.返回父節點

find_parents()返回所有祖先節點

find_parent()返回直接父節點

120.返回後面兄弟節點

find_next_siblings()返回後面所有兄弟節點

find_next_sibling()返回後面第乙個兄弟節點。

121.返回前面兄弟節點

find_previous_siblings()返回前面所有兄弟節點

find_previous_sibling()返回前面第乙個兄弟節點。

122.返回節點後符合條件的節點

find_all_next()返回節點後所有符合條件的節點

find_next()返回第乙個符合條件的節點

123.返回節點前符合條件的節點

find_all_previous()返回節點前所有符合條件的節點

find_previous()返回第乙個符合條件的節點

124.requests 的請求方式

requests.post(url)

requests.put(url)

requests.delete(url)

requests.head(url)

requests.options(url)

125.get請求

response =requests.get(url)

print

(response.text)

126.解析 json

response.json()

json.loads(response.text)

127.傳送 post 請求

response = requests.post(url, data=data, headers=headers)

response.json()

128.檔案上傳

在 post 方法內部新增引數 files 字典引數

import

requests

files =

response = requests.post("

", files=files)

print

(response.text)

129.獲取 cookie

response.cookie

返回值是 字典物件

for key, value in

response.cookies.items():

print(key + '

=' +value)

130.模擬登入

requests.get(

'')response = requests.get('

')131.帶有 session 的登入

s =requests.session()

s.get(

'')response = s.get('

')132.證書驗證

urllib3.disable_warnings()

response = requests.get('

', verify=false)

response = requests.get('

', cert=('

/path/server.crt

', '

/path/key'))

133.超時設定

from requests.exceptions import

readtimeout

response = requests.get("

", timeout = 0.5)

response = urllib.request.urlopen(url, timeout=1)

134.認證設定

))135.異常處理

超時 readtimeout

連線出錯 connectionerror

錯誤 requestexception

136.url 解析

137.合併 url

爬蟲流程複習

爬取資料之後 新聞聚合閱讀器 最漂亮美女網 圖書 對比網 python技術文章大全 設定爬蟲終端 url 管理器判斷爬取網頁鏈結 流程 排程器詢問 url 管理器,是否存在要爬取的 url url 管理器返回 是或否 排程器 從 url 管理器中 取出乙個 url url 管理器 將 url 傳遞給...

考研複習流程

這個階段就是打基礎 打基礎 打基礎。不要想著去做試卷刷題,先把基礎知識點掌握好。英語多背單詞多閱讀,數學學好知識點,做基礎鞏固習題,政治大致過一遍,對理解性的知識點先理解,不用急著背誦。專業課也是看書為主。6月底,大家需要過一遍基礎,結束第一輪複習。可以考慮全年營或者也有體驗營可以了解下。暑假這一段...

爬蟲學習 爬蟲基本流程

標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...