1 5 爬蟲入門

內網需要認證

auth = (user, pwd)
reponse = request.get(url, auth=auth)

proxy

url = ""
headers = 
# 新增**
proxy = 
response = requests.get(urlurl,headers=headers,proxies=proxy)
print(status_code)

ssl

url = ""
headers = 
#因為https由第三方ca認證
#但是12306是https，但他不是ca證書，他救濟頒布了證書
#結局方法，直接告訴 web忽略證書訪問，新增verify
response = requests.get(url, headers=headers，verify=false)
data = respoonse.content.decode() 
#request.exceptions.sslerror:httpsconnectpool()

cookie(要麼是字典，要麼是cookiejar)

請求資料的url
url = " *** "
#cookie字串
cookies = " ... "
#需要字典
cookies = 
#或者cook_dict = {}
cookies_list = cookies.split('; ')
for cookie in cookies_list:
cook_dict[cookie.split('=')[0]] = cookie.split('=')[1]
#或者 列表推導式子
cook_dict = 
response = requests.get(url,headers=headers,cookies=cookies)
date = response.text

session 他可以自動儲存cookie == cookiejar

session = requests.session（）
# **登入，登入成功後帶著有效cookie請求資料和cookiejar累死
login_url=""
form_data = 
login_response = session.post(login_url,data=form_data，headers=headers)
data=session.get(url,headers=headers).content.decode()

form_data傳的引數需要進行測試。

##資料解析

html就是用來展示資料，由標籤組成

xml是資料互動格式，是json的前身 xml>json ，key=value

###正則

\ 轉義字元 . 匹配換行符(\n)以外所有字元 ^ 匹配字串開頭在集合（）表示非，取反 ^a a開頭 $ 結束 ? 匹配前面子表示式0次或一次非貪婪模式貪婪模式從開頭匹配到結尾 * 匹配前邊子表示式0或多次 .* + 至少一次 () 分組表示式的開始到結束 | 或新增修飾符匹配換行符 re.s 忽略大小寫 re.i match方法，是否匹配成功，從頭開始，匹配一次 search 從任意位置，匹配一次 findall 查詢符合正則的內容 sub 替換字串

split 拆封

1 5 爬蟲入門

15 爬蟲資料入庫

python爬蟲入門簡單爬蟲

Python爬蟲入門

1 5 爬蟲入門

15 爬蟲資料入庫

python爬蟲入門簡單爬蟲

Python爬蟲入門

相關推薦