資料提取之re

貪婪模式 .+ .*:匹配任意字元非貪婪模式 .+? .*? ^:以...開頭 $：以...結尾

轉義

str='hello'
ret=re.match('h',str)
print(ret.group()) # 結果為h
#group() 會輸出完成的匹配結果
#group(1) 會輸出完整匹配中--用第1個()括起來的字串
分組：使用()的方式
1:group()和group(0)是一樣的，都是返回完整的匹配內容
2:groups() :返回的是裡面的子組，索引從1開始
3:group(1) :返回的第乙個子組，同上
pattern='.*(\$\d+).*(\$\d+)'
ret=re.match(pattern,str)
print(ret.groups()) # ('$10', '$11')
print(ret.group(1)) # $10
print(ret.group(1,2)) # ('$10', '$11')
修飾符號:
re.i 使匹配對大小寫不敏感
re.s 使.匹配包括換行符在內的所有內容
pattern='.*(\$\d+).*(\$\d+)'
ret=re.match(pattern,str,re.s)

資料提取之 lxml

xpath資料提取時先分組再提取 2.1 lxml模組入門 1.匯入lxml 的 etree 庫匯入沒有提示不代表不能用 from lxml import etree2.利用etree.html 將字串轉化為element物件，element物件具有xpath的方法，該方法返回結果為列表。中t...

資料提取之XPATH

2.資料提取 xpath語法和 lxml模組 xpath是一門在xml和html文件中查詢資訊的語言原本設計適用於xml的，但xml和html兩者的語法極為相似，所以也可以使用html 谷歌瀏覽器下是xpath 火狐瀏覽器下是try xpath 360瀏覽器下也相容xpath，使用時需要開啟開發者...

Linux文字資料提取之head,tail例項詳解

提取開頭或結尾數行顯示標準輸入前n 條記錄，或者命令列檔案列表的每乙個的前n 條記錄 head n n file s head n file s awk fnr n file s sed e nq file s sed nq file s 例項 gz fieldyang test awk fnr ...

資料提取之re

資料提取之 lxml

資料提取之XPATH

Linux文字資料提取之head,tail例項詳解

相關推薦