《誰說菜鳥不會資料分析》 學習筆記二 缺失資料處理

2021-09-02 12:10:19 字數 1148 閱讀 3041

可接受的情況是缺失值在10%以下

缺失值是指資料集中某個或某些屬性的值是不完全的。

缺失值產生的原因多種多樣,主要分成機械原因和人為原因。

機械原因是由於資料收集或儲存失敗造成的資料缺失。比如資料儲存的失敗、儲存器損壞、機械故障導致

某段時間資料未能收集等。

人為原因是由於人的主觀失誤、歷史侷限或有意隱瞞造成的資料缺失,比如,在市場調查中被訪人拒絕透露

相關問題的答案,或對問題的回答是無效的,抑或資料錄入人員失誤漏錄了資料。

在資料表中,缺失值最常見的表現形式就是空值或者錯誤標示符。

如何快速找到所有的缺失值:

1:定位輸入:開始--編輯--定位條件或者直接用快捷鍵ctrl+g,彈出「定位」對話方塊,定位條件--空值--確定

處理缺失值的四種方法:

方法一:用乙個樣本統計量的值代替缺失值,最典型的做法就是使用該變數的樣本平均值代替缺失值,

這種方法是在實際操作中比較常見的實用方法。

方法二:用乙個統計模型計算出來的值去代替缺失值。常使用的模型有回歸模型、判別模型等,

不過這得用專業的資料分析軟體才行

方法三:將有缺失值的記錄刪除,不過可能會造成樣本量的減少

方法四:將有缺失值的記錄保留,僅在相應的分析中做必要的排除。當調查的樣本量比較大,

缺失值的數量又不是很多,而且變數之間也不存在高度相關的情況下,採用這種方式處理缺失值

比較可行。

2:ctrl+enter

ctrl+enter,在不連續的區域中同時輸入同乙個資料或公式時很好用

按住ctrl,選中多個不連續的單元格,鬆開ctrl,在最後乙個單元格中資料內容:「小白」,同時按下

ctrl+enter,剛選中的多個不連續的單元格都變成相同的內容「小白」。

ctrl+enter和定位查詢搭配使用,當用f5或ctrl+g定位方式定位到空白單元格之後,可以輸入你想要輸入的資料,再按下ctrl+enter,所有的空白單元格都會變成你要的樣子。

3:查詢替換

當缺失值是以錯誤標示符形式出現的時候,可以採用第二種方法--替換查詢。

ctrl+f  查詢  ctrl+h  替換  ctrl+g  快速定位

《誰說菜鳥不會資料分析》學習筆記

1.明確目的與思路 先決條件 提供方向 2.資料收集 資料庫 其他媒介 3.資料處理 清洗 轉化 提取 計算 4.資料分析 統計分析 資料探勘 5.資料展現 圖表 文字 6.報告撰寫 框架清晰 明確結論 提出建議 pest political,economical,social,technologi...

《誰說菜鳥不會資料分析》 學習筆記六 資料分析

資料分析的三大作用及其對應的三大基本方法 對比分析法 是指將兩個或兩個以上的資料進行比較,分析它們的差異,從而揭示這些資料所代表的事物 發展變化情況和規律性。特點 可以非常直觀的看出事務某方面的變化或差異,並且可以準確 量化地表現出這種變化或差距是多少 分類 靜態比較和動態比較 靜態比較是在同一時間...

《誰說菜鳥不會資料分析》 讀書筆記二

5 資料分析方法 1 對比分析法 靜態比較 動態比較 靜態 同一時間條件下對不同總體指標的比較,如不同部門 不同地區 不同國家的比較。也稱為橫比 動態 同一總體條件下對不同時期指標數值的比較,也叫縱比。a.實踐運用 對比分析常用的維度 與目標對比 完成值,目標 不同時期對比 環比 同級部門 單位 地...