python針對不定分隔符切割提取字串

2021-08-08 15:55:56 字數 504 閱讀 3035

問題:我們需要在散沙一般的資料中提取出字元,分隔符不止乙個,而且還有不少空格,比如:

原字串如下:

'asd  ff gg; asd , foo|     og '
我們需要刪除上面的,;|分隔符和多餘空格,提取出:

['asd', 'ff', 'gg', 'asd', 'foo', 'og']
這種一般用於處理日誌或者網頁資料提取,一般而言,這種資料中需要的資料分布規律性不是太強,而且比較散。

處理結果如下:

import re

line = 'asd ff gg; asd , foo| og '

data = re.split(r'[;,|\s]\s*',line)

for i in data:

if i == '':

data.remove(i)

print(data)

go多分隔符切割字串

若急於解決問題,可直接使用 go get t github.com jialanli lacia utils 該庫類似常用功能一應俱全哦.該功能可使用預設字元來進行多個分割,也可自定義字元集合進行分割 lacia.splitbymanystrwith p1,p2 引數1為指定字串 引數2為自定義的要...

Hive的列分隔符和行分隔符

在建立hive表時,預設行分隔符 a 列分隔符 n 這兩項也是可以設定的。在實際開發中,一般預設使用預設的分隔符,當然有些場景下也會自定義分隔符。spark hive use test db 建立外部表 create external table test tb user id bigint com...

awk linux 分隔 awk多分隔符

awk的 f引數可以指定新的分隔符,有些時候可能需求指定多個分隔符,比如下面的內容 root n1 netstat an grep estab udp 0 0 192.168.1.120 35570 212.47.249.141 123 established udp 0 0 192.168.1.1...