資料探勘 (一)資料獲取

2022-03-22 00:40:26 字數 706 閱讀 7131

1)資料倉儲

全部事實的記錄(必須是全面的、完備的、盡可能詳細的);

可以方便的以不同維度抽取和整理資料(資料是拿來用的,一般乙個特定的場景不會使用全部的資料,資料倉儲非常豐富,必須根據不同的應用調取相應的資料,這些被抽取和整理的資料稱為資料集市-dw);

1、資料庫 vs 倉庫

資料庫面向業務儲存,需要保證高頻繁、快速讀寫、資料結構精簡,主要為使用者提供精緻的體驗;

倉庫面向主題儲存,是根據乙個個主題進行儲存的;(主題:較高層次上對分析物件資料的乙個完整並且一直的描述;如,一次購買行為,包含時間、商品、金額、使用者等各個維度的資訊)

資料庫針對應用(為使用者提供資料上的支援與服務,此過程稱為「oltp」——聯機事務處理),倉庫針對分析(倉庫進行全面和詳細的記錄,一般就是用來分析的,此過程稱為「olap」——聯機分析處理);

資料庫組織規範,倉庫可能冗餘,相對變化大,資料量大(倉庫幾乎每時每刻都在記錄);

2)監測與抓取

3)填寫、埋點、日誌

日誌和資料倉儲有共同的作用,日誌更加精簡,也可以在出現故障時幫助定位問題;

以檔案形式記錄資料,一般也需要統計到倉庫中,進行統一的分析;

日誌分前端日誌和後端日誌:

# 後端日誌,伺服器裡的日誌,可以直接進行處理;

4)計算

一 資料探勘基礎

資料探勘的任務 分類與 聚類分析,關聯規則,時序模式,偏差檢測,智慧型排序 資料探勘的建模過程 1.定義挖掘目標 2.資料採集,取樣 隨機抽樣,分層抽樣,等距抽樣,分類抽樣,起始順序抽樣 3.資料探索 異常值分析 缺失值分析 相關性分析 週期性分析,有無明顯規律和趨勢 4.資料預處理 降維處理,缺失...

資料探勘實戰(一) 資料分析

資料集準備 status表示標籤,但是它作為乙個特徵維度混入到特徵列表中,要先將它找出來賦給標籤,並按照約定規則將資料分為訓練集和測試集 import pandas as pd from sklearn.model selection import train test split data pd....

資料探勘 實驗一 資料探勘軟體環境搭建與使用

1 輸出 9 9 乘法口訣表。分析 分行與列考慮,共9行9列,i控制行,j控制列。for i in range 1,10 for j in range 1,i 1 print format i,j,i j end print 2 獲取 100 以內的質數。分析 質數 prime number 又稱素...