資料分析與挖掘學習歷程3

2021-09-13 11:55:49 字數 422 閱讀 3206

先做描述性統計,分析離群點

如果資料服從正態分佈,則距離平均值3之外的值出現概率為p<=0.003,為極小概率事件

異常值通常被定義為ql-1.5iqr或大於qu+1.5iqr的值

ql稱為下四分位數,表示全部觀察值中有四分之一資料比他小

qu稱為上四分位數,表示全部觀察值中有四分之一資料比他大

iqr稱為四分位數間距,是qu-ql,為樣本的一半

資料不一致性是指資料的矛盾性與不相容性,類似於乙個人有兩個身份證號碼

定性資料分析

畫扇形圖和條形圖分析

對比分析

週期性分析

觀察資料是否有週期性變化

貢獻度分析

原理:帕累託法則,二八定律,通過繪圖觀察

統計量分析

離中趨勢度量

相關性分析

資料分析與挖掘

學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...

資料分析與挖掘

1 概述 1.1 使用者研究縱覽 使用者研究可以從定性分析和定量分析兩個不同的維度展開 定性分析是從小規模的資料樣本中發現新事物的方法,主要應用於使用者體驗調查 定量分析是用大資料量的樣本來測試和證明某些事情的方法,主要應用於使用者行為資料分析。1.2 資料分析與挖掘流程規範 資料分析與挖掘型系統建...

資料分析與挖掘

用於資料分析的 olap 系統的主要特點就是資料量非常大,併發訪問不多,但每次訪問所需要檢索的資料量都比較多,而且資料訪問相對較為集中,沒有什麼比較明顯的活躍資料概念。olap 即聯機分析處理,是資料倉儲的核心部心,所謂資料倉儲是對於大量已經由 oltp 形成的資料的一種分析型的資料庫,用於處理商業...