Excel常用公式 資料清洗類

2021-08-19 18:45:30 字數 1707 閱讀 7892

資料清洗是為了解決資料質量問題,「髒資料」一般有以下三種型別:

1、殘缺資料

這一類資料主要是一些應該有的資訊缺失,如**商的名稱、分公司的名稱、客戶的區域資訊缺失、業務系統中主表與明細表不能匹配等。對於這一類資料過濾出來,按缺失的內容分別寫入不同excel檔案向客戶提交,要求在規定的時間內補全。補全後才寫入資料倉儲。

2、錯誤資料

這一類錯誤產生的原因是業務系統不夠健全,在接收輸入後沒有進行判斷直接寫入後台資料庫造成的,比如數值資料輸成全角數字字元、字串資料後面有乙個回車操作、日期格式不正確、日期越界等。這一類資料也要分類,對於類似於全形字符、資料前後有不可見字元的問題,只能通過寫sql語句的方式找出來,然後要求客戶在業務系統修正之後抽取。日期格式不正確的或者是日期越界的這一類錯誤會導致etl執行失敗,這一類錯誤需要去業務系統資料庫用sql的方式挑出來,交給業務主管部門要求限期修正,修正之後再抽取。

3、重複資料

對於這一類資料——特別是維表中會出現這種情況——將重複資料記錄的所有字段匯出來,讓客戶確認並整理。

資料清洗是乙個反覆的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對於是否過濾,是否修正一般要求客戶確認,對於過濾掉的資料,寫入excel檔案或者將過濾資料寫入資料表,在etl開發的初期可以每天向業務單位傳送過濾資料的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證資料的依據。資料清洗需要注意的是不要將有用的資料過濾掉,對於每個過濾規則認真進行驗證,並要使用者確認。

功能:去除單元格兩端的空格。

語法:=trim(text)

text指要移除空格的文字或者單元格名稱

說明:此方法只能刪除字串首尾的空格,而不能刪除字串中間的空格!因為英文單詞之間的空格是必須的,excel不會去除這種空格!

2、clean

有時文字值包含起始空格、 尾隨或多個嵌入的空格字元 (unicode 字符集值 32 和 160) 或非列印字元 (unicode 字符集值 0 到 31、 127、 129、 141、 143、 144 和 157)。這些字元進行排序、 篩選或搜尋時,有時會導致意外的結果。

功能:刪除文字中所有不能列印的字元。 

語法:=clean(text)

clean 函式語法具有以下引數:

text,必需。要從中刪除非列印字元的任何工作表資訊。

功能:連線單元格內的內容

語法:= concatenate(text1, [text2], ...)

說明:concatenate能夠連線的引數最多只有30個,而&則沒有限制。

功能:提取字串中間的字串

語法:= mid(text, start_num, num_chars)

如果繼續想從出生年月裡提取年份,則需要用到left函式。

功能:提取字串左邊的字串

語法:= left(text, [num_chars])

與left類似,如果想從出生年月裡提取月日,則需要用到right函式。

功能:提取字串右邊的字串

語法:=right(text,[num_chars])

功能:替換字串中的連續幾個字元或者某個字元

語法:= replace(old_text, start_num, num_chars, new_text)

也可以利用substitute實現。

功能:替換字串中的連續幾個字元或者某個字元

語法:=substitute(text, old_text, new_text, [instance_num])

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...

資料清洗技術 Excel資料清洗

1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...

excel 常用公式

四捨五入 round 數値,位數 向上進製 ceiling 1.771,0.01 1.78 固定列 a4 e 2 查詢個數 countif g12 j12,引用其他sheet頁的單元格 a1 計算i2到i83中內容等於f90的內容,且h2到h83內容為空的個數 countifs i 2 i 83,f...