python中基本資料處理

2021-08-27 08:34:30 字數 907 閱讀 8127

def

function

(a,b):

if (a > 0) & (b == 0):

return

"只做夜班"

elif (a == 0) & (b > 0):

return

"只做白班"

elif (a == 0) & (b == 0):

return

"未做單"

else:

return

"混合"

function(x.夜間上班時長,

x.日間上班時長),axis = 1)

例:有某工廠工人上班時間的總時長,我們要根據上班總時長對工人進行分層,資料以分鐘登記

具體分層規則:

1、0小時–未做單;

2、0-5小時(不含5小時)–兼職;

3、5-10小時(含5小時,不含10小時)–休閒;

4、10-12(含10小時,不含12小時)–全職;

5、12小時以上(含12小時)–勤奮。

bins = [min(data['上班時長'])-1,0,300,600,720,max(data['上班時長'])+1]

labels = ['未做單','兼職','休閒','全職','勤奮']

data['全職情況'] = pd.cut(data['上班時長'],

bins,labels=labels)

例:有兩個資料框,乙個是司機的做單資料,乙個是包含司機的車牌資訊,我們需要將司機的做單資料中合併上車牌號。

彙總 = pd.merge(a,b[['司機id','車牌號']],

left_on='id',right_on='id',how='left')

資料處理中需要知道的基本資料知識

1 資料型別 定量 定性 和其它特性。資料型別決定可以使用何種工具和技術來分析資料。新的應用領域和新的資料型別推動新的資料探勘研究。2 資料質量 注重理解和提高資料質量,將改進分析結果的質量,大多數時候好的資料比好的演算法更重要。通常的資料質量問題 存在雜訊和離群點 資料遺漏 不一致和重複 資料有偏...

文字資料處理彙總

1.匹配中文 曾經看到說 w 可以,但親測無效。轉向編碼的形式 u4e00 u9fa5 也不行,只能是 u4e00 u9fcc 2.不匹配某個字串 中間不包含str1 pattern str2 開頭不包含 pattern str 結尾不包含str1.嗎 或者str1 嗎 3.零寬斷言 1.正向肯定預...

分析Python處理基本資料《三》

先貼上 6 該文字裡,輸出在每一天發表tweets最多的使用者 dateline by user for line in lines dateline line keys created at split 0 username line keys username if dateline by us...