python爬蟲第二步 正規表示式的學習

2021-10-06 15:36:01 字數 2282 閱讀 3217

注釋都在**裡,請直接品嚐

#匯入正規表示式的包

import re

# . 點 匹配單個任意字元

arr = re.findall(".ood", "i say good not food");

print("\.:",end="");

print(arr);

# 中括號中的內容會被逐一匹配

arr = re.findall("[gf]ood" , "boy good and food girl");

print(":",end="");

print(arr)

#\d 單個數字匹配 \d\d連續匹配連個數字 依次類推

arr = re.findall("\d" , "i am 18 , you 100");

print("\d:",end="");

print(arr);

arr = re.findall("\d\d" , "i am 18 , you 100");

print("\d\d:",end="");

print(arr);

#\w [0-9a-za-z_] 匹配中闊號內的內容

arr = re.findall("\w" , "i am 124");

print("\w:",end="");

print(arr);

arr = re.findall("\w\w" , "i am 124");

print("\w\w:",end="");

print(arr);

#\s 匹配空白字元 空格 tab鍵

arr = re.findall("\s" , "i am superman ");

print("\s:" , end="");

print(arr);

#直接匹配一組字串

arr = re.findall("am" , "i am superman");

print("直接匹配:" , end="");

print(arr);

# | 分割符的應用 匹配兩個不同的字串

arr = re.findall("good|food" , "hello good food");

print("| :" , end="");

print(arr);

# *號 匹配左鄰字元出現0次或者多次

arr = re.findall("ka*k|he*oll*l" , "kaaaaak heeeeeolll");

print("* :" , end="");

print(arr);

# +號 左鄰字元出現一次或者多次

arr = re.findall("ka+k" , "kakkkkk kk");

print("+ :" , end="");

print(arr);

# ?號 左鄰字元出現0次或則1次

arr = re.findall("ka?k" , "kakkkkk kk");

print("? :" , end="");

print(arr);

# {}號 定義左鄰字元出現的次數

arr = re.findall("god" , "a superman you are a good boy");

print("{} :" , end="");

print(arr);

# ^ 匹配是否某個字元或字串開頭

arr = re.findall("^i like" , "i like goole");

print(" ^ :" , end="");

print(arr);

#$ 匹配是否以某字元或字串結尾

arr = re.findall("man$" , "a a a superman");

print("$ :" , end="");

print(arr);

#() 分組儲存 \數字 第乙個\為轉義 (huang)\\1\\1 => (huanghuanghuang) 三個huang連起來匹配

arr = re.search("(huang)\\1\\1" , "huanghuanghuang hdshuahuang");

print("() :" , end="");

print(arr.group());

執行結果:

第三步爬網頁,近期將發出。。。。。。。。

python學習第二步

函式的呼叫 以絕對值函式abs 為例,可以直接從python的官方 檢視文件,也可以從互動介面利用help abs 檢視。常用或不好記函式 持續更新 hex 函式 將乙個整數轉換為十六進製制表示的字串。函式的定義 定義乙個函式要使用def語句,函式返回值用return語句返回。ep def my a...

爬蟲第二步 解析資料(1)

html是用來描述網頁構成的一種語言,全稱為 hyper text markup language,也叫做超文字標記語言 標記語言內容主要包括 文字及格式 大小 顏色 位置 右擊網頁 檢視源 或按ctrl u可以檢視當前網頁的原始碼 由於使用爬蟲訪問資源,需要我們替代瀏覽器來解析網頁內容,因此能夠讀...

Python學習之第二步

第一步安裝好了python軟體之後,就要開始正式的學習了 一 python的資料型別 1.python變數 python變數有兩個特徵 1 變數無需生命即可直接賦值 對乙個不存在的變數賦值就相當於定義了乙個新變數 2 變數的資料型別可以動態改變。使用print 函式輸出變數。2.python識別符號...