第六講 資料分析基本概念

2021-09-06 21:53:17 字數 1381 閱讀 2046

基於資料倉儲,經過資料探勘,得到商業價值的過程。

是資料庫的公升級概念,通過資料庫技術來儲存資料,將原有的多個資料來源中的資料進行彙總、整理得到,資料在進入資料倉儲前,必須消除資料中的不一致性。

資料探勘的核心包括分類、聚類、**、關聯分析等任務。

可以將一類事物的多個屬性資訊定義為元資料,即描述其它資料的資料。使資訊的描述和分類實現結構化。

資料元是最小的資料單元。

資料探勘的英文解釋叫kdd(knowledge discovery in database ),即資料庫中的知識發現。

分類通過訓練集得到分類模型,然後用這個模型對其他資料進行分類。

聚類通過相似度對資料聚類成幾個類別,用聚類做資料劃分。

**通過當前和歷史資料來**未來趨勢。

關聯分析

在資料中發現關聯原則。

資料預處理中,進行:資料清洗、資料整合,以及資料變換。

資料清洗

去除重複資料、干擾資料以及填補缺失值

資料整合

將多個資料來源中的資料存放在乙個統一的資料儲存中。

資料變換

將資料轉換成適合資料探勘的形式。

資料後處理是將模型**的結果進行進一步處理後再匯出。

(我把原專欄的性別換了一下,嘿嘿)

比如,有兩個男生同時追你。

商業智慧型會告訴你哪個更適合你。

資料倉儲中存放了兩個男生的相關資訊。每個男生的資料有單獨的資料夾,裡面包含姓名、生日、身高、愛好等資訊,這些具體的資訊就是資料元,加起來叫做元資料

資料探勘會幫助你確定接受誰,整理資料,使用各種演算法,幫你決策。可能用到分類演算法。理工男、正太、陽光型等等。如果認識的男生很多,可以用聚類演算法,將他們分成多個群組,再對每個群組的特性進行了解。關聯分析法會告訴你他們經常和誰在一起。

然鵝,像我們這中高冷的小仙女,以上假設並不實際。咳咳,把場景換成在相親的時候。。。

由於資料**比較多,可能多個大媽給你推薦了同乙個男生,就需要資料清洗,進行去重,把不同大媽推薦的男孩資訊合成乙個,叫做資料整合,不同渠道獲得的同一類資料的單位可能不同,比如身高單位是公尺,還是厘公尺,就需要進行資料變換

最後進行資料視覺化,可以直觀地顯示結果。

資料分析實戰(6 7) 資料分析 使用者畫像基本概念

商業智慧型 bi 資料倉儲 dw 資料探勘 dm 三者之間的關係開頭中的百貨商店利用資料 使用者購物行為屬於商業智慧型,他們積累的顧客的消費行為習慣會儲存在資料倉儲中,通過對個體進行消費行為分析總結出來的規律屬於資料探勘。如果說網際網路的上半場是粗狂運營,因為有流量紅利不需要考慮細節。那麼在下半場,...

六 git基本概念

一套內容定址的檔案系統 已修改 modified 已暫存 staged 已提交 commit 工作目錄 暫存區域 版本庫 倉庫 工作區下的檔案狀態 未被追蹤 untracked 被追蹤 tracked 什麼是索引 儲存了乙個tree物件所有資訊的二進位制檔案 裡面有很多條目,分別指向不同blob,t...

python資料分析與演算法之一 基本概念

如何形象化的理解演算法?意義 什麼是演算法分析?引例 a b c 1000 a 2 b 2 c 2 a,b,c均為自然數 求出a,b,c可能的組合?法一 for a in range 0,1001 for b in range 0,1001 for c in range 0,1001 if a b ...