資料提取之re

2022-04-29 03:45:06 字數 774 閱讀 8799

貪婪模式

.+ .*:匹配任意字元

非貪婪模式

.+? .*?

^:以...開頭

$:以...結尾

轉義

str='hello'

ret=re.match('h',str)

print(ret.group()) # 結果為h

#group() 會輸出完成的匹配結果

#group(1) 會輸出完整匹配中--用第1個()括起來的字串

分組:使用()的方式

1:group()和group(0)是一樣的,都是返回完整的匹配內容

2:groups() :返回的是裡面的子組,索引從1開始

3:group(1) :返回的第乙個子組,同上

pattern='.*(\$\d+).*(\$\d+)'

ret=re.match(pattern,str)

print(ret.groups()) # ('$10', '$11')

print(ret.group(1)) # $10

print(ret.group(1,2)) # ('$10', '$11')

修飾符號:

re.i 使匹配對大小寫不敏感

re.s 使.匹配包括換行符在內的所有內容

pattern='.*(\$\d+).*(\$\d+)'

ret=re.match(pattern,str,re.s)

資料提取之 lxml

xpath資料提取時 先分組 再提取 2.1 lxml模組入門 1.匯入lxml 的 etree 庫 匯入沒有提示不代表不能用 from lxml import etree2.利用etree.html 將字串轉化為element物件,element物件具有xpath的方法,該方法返回結果為列表。中t...

資料提取之XPATH

2.資料提取 xpath語法和 lxml模組 xpath是一門在xml和html文件中查詢資訊的語言 原本設計適用於xml的,但xml和html兩者的語法極為相似,所以也可以使用html 谷歌瀏覽器下是xpath 火狐瀏覽器下是try xpath 360瀏覽器下也相容xpath,使用時需要開啟開發者...

Linux文字資料提取之head,tail例項詳解

提取開頭或結尾數行 顯示標準輸入前n 條記錄,或者命令列檔案列表的每乙個的前n 條記錄 head n n file s head n file s awk fnr n file s sed e nq file s sed nq file s 例項 gz fieldyang test awk fnr ...