1 5 爬蟲入門

2021-09-14 02:29:31 字數 1919 閱讀 3472

內網需要認證

auth = (user, pwd)

reponse = request.get(url, auth=auth)

proxy

url = ""

headers =

# 新增**

proxy =

response = requests.get(urlurl,headers=headers,proxies=proxy)

print(status_code)

ssl

url = ""

headers =

#因為https由第三方ca認證

#但是12306是https,但他不是ca證書,他救濟頒布了證書

#結局方法,直接告訴 web忽略證書訪問,新增verify

response = requests.get(url, headers=headers,verify=false)

data = respoonse.content.decode()

#request.exceptions.sslerror:httpsconnectpool()

cookie(要麼是字典,要麼是cookiejar)

請求資料的url

url = " *** "

#cookie字串

cookies = " ... "

#需要字典

cookies =

#或者cook_dict = {}

cookies_list = cookies.split('; ')

for cookie in cookies_list:

cook_dict[cookie.split('=')[0]] = cookie.split('=')[1]

#或者 列表推導式子

cook_dict =

response = requests.get(url,headers=headers,cookies=cookies)

date = response.text

session 他可以自動儲存cookie == cookiejar

session = requests.session()

# **登入,登入成功後帶著有效cookie請求資料和cookiejar累死

login_url=""

form_data =

login_response = session.post(login_url,data=form_data,headers=headers)

data=session.get(url,headers=headers).content.decode()

form_data傳的引數需要進行測試。

##資料解析

html就是用來展示資料,由標籤組成

xml是資料互動格式,是json的前身 xml>json ,key=value

###正則

\ 轉義字元

. 匹配換行符(\n)以外所有字元

^ 匹配字串開頭 在集合()表示非,取反

^a a開頭

$ 結束

? 匹配前面子表示式0次或一次 非貪婪模式

貪婪模式 從開頭匹配到結尾

* 匹配前邊子表示式0或多次

.* + 至少一次

() 分組表示式的開始到結束

| 或新增修飾符

匹配換行符 re.s

忽略大小寫 re.i

match方法,是否匹配成功,從頭開始,匹配一次

search 從任意位置,匹配一次

findall 查詢符合正則的內容

sub 替換字串

split 拆封

15 爬蟲資料入庫

python連線mysql資料庫 資料插入操作 資料更新操作 資料查詢操作 查詢分頁實現 連線資料庫 db pymysql.connect host 127.0.0.1 user root password root database mysql connection print db 所有的操作都...

python爬蟲入門簡單爬蟲

coding utf 8 from bs4 import beautifulsoup,soupstrainer from threading import lock,thread import sys,time,os from urlparse import urlparse,urljoin fro...

Python爬蟲入門

今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...