資料清洗技術 Excel資料清洗

2021-10-12 04:54:27 字數 743 閱讀 6514

1、了解 excel 的基本功能和用途

2、掌握 excel 資料清洗的基本步驟

3、了解 excel 資料清洗的方法

4、掌握 excel 常用的資料分析函式

5、掌握 excel 資料清洗常用的函式

作業系統:windows xp/7/8/10…

excel版本:2007/2019…

jdk版本:1.7.0

kettle版本:4.4.0

mysql版本:8.0

實驗內容:

現有乙個企業招聘職位資訊的資料集,約有 5000條資料,客戶提出需要了解資料分析師崗位情況,包括崗位分布和特點、能力要求、工資和薪酬等。由於資料集沒有經過處理,所以表中的資料還很不規範,含有大量資料重複、缺失、單列資料粒度過大等問題,因此,在進行資料分析前,需要進行資料清洗操作,以使資料規範化。

實驗步驟:

1、資料預覽

拿到資料後,不要急著動手處理,先對資料集做總體的觀察。如圖 1-1 所示,可以看到,資料集表頭由城市、公司名稱、公司編號、公司福利、公司規模、經營區域、經營範圍、教育程度、職位編號、職位名稱、薪水和工作年限要求等屬性組成。

資料整體較為規整,但通過初步觀察,該資料集主要存在如下問題:

(1)資料缺失

(2)資料不一致

(3)存在「髒」資料

(4)資料不規範

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

Excel常用公式 資料清洗類

資料清洗是為了解決資料質量問題,髒資料 一般有以下三種型別 1 殘缺資料 這一類資料主要是一些應該有的資訊缺失,如 商的名稱 分公司的名稱 客戶的區域資訊缺失 業務系統中主表與明細表不能匹配等。對於這一類資料過濾出來,按缺失的內容分別寫入不同excel檔案向客戶提交,要求在規定的時間內補全。補全後才...