編寫正規表示式

2021-10-25 05:19:09 字數 1172 閱讀 2965

是不是感覺有點無從下手?別慌,慢慢來。通過對比網頁和網頁**我們確認資訊特徵。

房產名稱

急降60萬  急賣全款客戶來 寶山二村好位置
複製該資訊,到html檔案中通過ctrl+f查詢該資訊,然後認真檢視「房產名稱」前後的字元特徵:

前面的字元特徵:

;"  >
後面的字元特徵:

現在對照房產名稱前後的字元特徵編寫正規表示式,同時給「房產名稱」進行分組命名(?p.*?):

;"  >(?p.*?)
注意: .*?在爬取網頁時經常會用到,表示匹配任意內容任意數量直到遇到後面的字元特徵結束)

房型

前面的字元特徵:

span>
後面的字元特徵:

如法炮製,提取「房型」資訊並進行分組命名(?p.*?):

span>(?p.*?)
注意: 在房產名稱和房型之間有大段網頁**,我們可以寫.*?對應該段**表示跳過。

面積

前面的字元特徵:

後面的字元特徵:

如法炮製,提取「面積」資訊並進行分組命名(?p.*?):

(?p.*?)總價

現在就剩最後一項「總價」資訊,繼續查詢該資訊前後的字元特徵:

前面的字元特徵:

後面的字元特徵:

<
如法炮製,提取「總價」資訊並進行分組命名(?p.*?):

(?p.*?)<

現在提取網頁資料四項資訊的正規表示式均已寫好,注意每一項資訊之間間隔了很多的網頁**,我們可以用.*?對應該段**表示跳過。讓我們現在把4段資訊連起來,寫出完整的正規表示式:

rex = ';"  >(?p.*?) .*?span>(?p.*?).*?(?p.*?) (?p.*?)<'

Linux正規表示式 編寫正規表示式

為了所有實用化的用途,你可以通過使用程式產生正確的結果。然而,並不意味著程式總是如你所願的那樣正確地工作。多數情況下,如果程式不能產生想要的輸出,可以斷定真正的問題 排除輸入或語法錯誤 在於如何描述想要的東西。換句話說,應該考慮糾正問題的地方是描述想要的結果的表示式。表示式不完整或者公式表示得不正確...

正規表示式 正規表示式 總結

非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數 正浮點數正則式 英文本串 a za z...

正規表示式 表示式

網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 號碼 x x x...