Python3 爬蟲學習筆記(三)正規表示式

2021-09-02 02:15:10 字數 928 閱讀 7123

單字元.

任意乙個字元(除\n)

列舉的乙個字元

\d數字(0-9)

\d非數字

\s空白、空格、tab

\s非空

\w單詞字元(a-z,a-z,0-9,_)

\w非單詞字元

多字元*

0-∞+

1-∞?

0或1m

m-∞m-n

邊界^

開頭$結尾\b

單詞邊界

\b非單詞邊界

分組|

左右任意乙個

(ab)

乙個分組

\num

引用 num 分組匹配到的字串

(?p)

分組起別名

(?p=name)

引用 name 分組匹配到的字串

import re

re.match(正則,字串)      #從字串開始位置匹配

re.searth(正則,字串)     #查詢第乙個

re.findall(正則,字串)    #全部

re.sub(正則,替換字串,原字串)    #替換

re.sub(正則,函式名,原字串)        #函式返回值替換

re.split(正則,字串)               #正則分割字串,返回列表

+?      關閉貪婪模式

例:分隔單詞

s = hello world ha ha

re.split(r" +",s)

re.findall(r"\b[a-za-z]+\b",s)

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

python3爬蟲筆記

請求 並提取 資料的 自動化 程式 發起請求 獲取響應內容 解析文字內容 儲存資料 1.瀏覽器傳送資訊給該 所在的伺服器,這個過程叫做http request。2.服務收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應的處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。...

Python3爬蟲學習筆記0 0 綜述

歡迎捧場,博主前一段時間零零碎碎地學習了一些python爬蟲的知識,現在把一些學習內容整理出來,水平有限,難免出現錯誤,希望大家能夠批評指正,謝謝。該系列部落格的內容參照 崔慶才 靜覓的部落格內容完成,謝謝授權。python 版本 3.5 預備知識 python基礎,http協議,正規表示式,url...