excel資料清洗 資料清洗excel

2021-10-11 08:25:52 字數 2661 閱讀 7690

資料清洗與加工

目的:獲得具備準確性、完整性和一致性符合分析質量的資料。

資料處理第一步:資料清洗

(1)資料去重

方式1:刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作:【資料】選項卡下的【刪除重複值】按鈕

方式2:排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將資料內容相同的放在一起,可以辨認出哪些需要刪除的。

操作:比如要刪除員工姓名列。右擊員工姓名的任一單元格--【排序】--【公升序】選項,之後可以通過快速找到重複資料判斷是否要刪除

方式3:條件格式刪除重複項。適用於難以判斷是否存在重複值的列,比如商品編碼。

選中a列--【開始】--【條件格式】--【突出顯示單元格規則】--【重複值】,

選中重複值後,可以進行行的刪除。

(2)處理空值

步驟1:尋找空值。操作:【開始】--【查詢和選擇】--【定位條件】--【空值】

步驟2:處理空值。替換空值—可以採用平均值進行替換,也可以採用資料**回歸法進行補充資料(適用於連續時間段內的銷量資料有預設值);刪除空值,適用於樣本數量較多時;人工經過核查進行填寫。

其中:一次性批量補充空值,比如採用平均值替換

操作:定位空值後,保證空值處於選中狀態—輸入平均值—【ctrl+enter】組合鍵

(3)檢查資料邏輯

方式1:通過函式檢查邏輯值。可以在需要判別邏輯是否正確的列旁邊新增一列邏輯是否正確的判斷列,比如判別性別列的輸入值是否正確,可以採用if函式和or函式結合進行判斷。

方式2:通過條件格式檢查邏輯值。【開始】--【條件格式】--【突出單元格規則】選項,可以進行數值、文字檢查,而且還可以建立新的規則進行判別,方式較為方便。

(4)檢查格式

步驟1:格式檢查方法—選中資料,右擊設定單元格格式,可以看到當前單元格內容的格式

步驟2:格式修改—日期格式,通過分列可以完成統一。【資料】-【資料工具】-【分列】--【固定寬度】--【日期】下拉框選擇【ymd】選項,可以將格式統一。

資料處理第二步:資料加工

(1) 資料計算—簡單計算、常用函式計算

(2) 資料轉化—為方便分析進行行列的轉換、為保證同一列的統計口徑相同可以採用查詢和替換。

(3) 資料分類—採用vlookup函式可以實現資料分類,首先設定條件區域,目的是告訴函式以什麼依據為資料進行分組;其次是通過vlookup函式實現分組,借助相對引用和絕對引用實現資料的快速填充。

(4) 資料重組。

資料拆分:

方式1分隔符拆分.適用於資料列沒有統一的字元寬度,但是有固定的分隔符號,比如以空格作為分隔符。

方式2固定寬度拆分.適用於有固定的字元寬度,比如身份證號。

資料合併:

方式1:連線符「&」

方式2:將資料轉成文字格式,採用函式text(b3,」0.0%」)表示將b3單元格轉換成文字格式,並且顯示為帶一位小數的百分數。

方式3:concateane函式—將單元格資料連線成文字。

資料抽取:

從1列資料中抽取:採用left、right等文字函式

從多列資料中抽取:一般採用vlookup函式

案例資料分析:

表1購買商品資料分析:

1. 年度銷售資料概況分析

2.2023年和2023年上半年和下半年銷量對比分析

上半年銷售資料對比分析,可以看出2023年上半年整體增幅緩慢,資料變化並不特別明顯。而2023年整體呈現明顯的上公升趨勢,增幅較快。從兩者對比增加幅度比可以得到2023年銷量遠高於2023年,其中3月份和5月份作出了較大貢獻,因此可以進一步分析增加3月份和5月份銷量激增的相關因素。

從下半年銷售資料對比分析可以看出,2023年下半年和2023年下半年(11月份除外)整體增幅平穩,2023年下半年整體銷量遠高於2023年主要在於8月、9月、10月和11月,尤其是11月較2023年11月銷量增幅高達416%,因此也可以進行回歸分析,**驅動銷量大幅度增長的相關因子。

表2嬰兒出生資訊分析:

(1)首先對錶2的字段進行清洗,刪除gender=2的值;轉換出生日期格式;

(2)資料加工。根據表2的字段userid與表1進行匹配,採用vlookup函式得到相應使用者購買日期,並採用days函式得到出生日期與購買日期之間的天數之差,並換算成購買時嬰兒的年齡,這裡只考慮嬰兒出生後才進行購買的使用者。

(3)資料分析。

嬰兒年齡與購買數量,採用vba將各年齡段嬰兒用品購買數量進行統計,得到結果如下:

購買數量和商品種類分析:

採用資料透視表對使用者購買數量與商品id二級分類進行分析,其中id號為50008168和50014815的銷售量最高,其次是id為28號的商品,針對該部分目標使用者,在其瀏覽網頁時可以多放置相關商品的資訊,增加互補品的銷售量,或者進行打折****銷售等。當然,影響使用者購買行為的因素還有很多,仍需要更具體的**分析以完善相關決策。

資料清洗技術 Excel資料清洗

1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

Excel常用公式 資料清洗類

資料清洗是為了解決資料質量問題,髒資料 一般有以下三種型別 1 殘缺資料 這一類資料主要是一些應該有的資訊缺失,如 商的名稱 分公司的名稱 客戶的區域資訊缺失 業務系統中主表與明細表不能匹配等。對於這一類資料過濾出來,按缺失的內容分別寫入不同excel檔案向客戶提交,要求在規定的時間內補全。補全後才...