文字資料處理彙總

2021-10-25 12:38:34 字數 1060 閱讀 7311

1.匹配中文

曾經看到說\w+可以,但親測無效。

轉向編碼的形式:[\u4e00-\u9fa5]也不行,只能是:[\u4e00-\u9fcc]+

2.不匹配某個字串

中間不包含str1((?!pattern).)*str2

開頭不包含^((?!pattern).)*str

結尾不包含str1.*[^?嗎]$ 或者str1[^?嗎]*$

3.零寬斷言

1.正向肯定預查(?=pattern)

非獲取匹配,在任何匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如,「windows(?=95|98|nt|2000)」能匹配「windows2000」中的「windows」,但不能匹配「windows3.1」中的「windows」。預查不消耗字元,也就是說,在乙個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。

2、正向否定預查(?!pattern)

非獲取匹配,在任何不匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如「windows(?!95|98|nt|2000)」能匹配「windows3.1」中的「windows」,但不能匹配「windows2000」中的「windows」。

3、反向肯定預查(?<=pattern)

非獲取匹配,與正向肯定預查類似,只是方向相反。例如,「(?<=95|98|nt|2000)windows」能匹配「2000windows」中的「windows」,但不能匹配「3.1windows」中的「windows」。

4、反向否定預查(?非獲取匹配,與正向否定預查類似,只是方向相反。例如「(?

Pandas文字資料處理與時間序列

字元文字 pandas提供了一組字串函式,可以方便地對字串資料進行操作。最重要的是,這些函式忽略nan值。以下的這些方法幾乎都支援python內建的字串函式。pandas的一些方法都支援正規表示式,比如下面的replace 可以多多嘗試 xyx。函式名描述 lower 將series index中的...

python處理文字資料

處理文字資料,主要是通過seris的str訪問。遇到nan時不做任何處理,保留結果為nan,遇到數字全部處理為nan。str是seris的方法,dataframe不能直接使用,但是通過索引選擇dataframe中的某一行或者某一列,結果為seris,然後就可以使用了。例如定義乙個seris和data...

python中基本資料處理

def function a,b if a 0 b 0 return 只做夜班 elif a 0 b 0 return 只做白班 elif a 0 b 0 return 未做單 else return 混合 function x.夜間上班時長,x.日間上班時長 axis 1 例 有某工廠工人上班時間...