資料分析與挖掘

2022-07-19 03:48:09 字數 1500 閱讀 1974

學習&實戰記錄

實戰專案1:智取樂食

從大量資料(包括文字)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供**性決策支援的方法、工具和過程,就是資料探勘

資料探勘的基本任務包括利用分類**、聚類分析、關聯規則、時序模式、偏差檢驗、智慧型推薦等方法,提取資料中蘊含的價值。

1. 定義挖掘目標

例:針對餐飲行業的資料探勘應用,可定義如下挖掘目標。

實現動態菜品智慧型推薦。

對餐飲客戶進行細分,實現精準營銷。

基於菜品歷史銷售情況,綜合外部因素(節假日、氣候、競爭對手等),對菜品銷量進行趨勢**。

基於餐飲大資料,對潛在顧客口味偏好進行分析,便於及時進行菜式調整。

2. 資料取樣

抽取資料的的標準,一是相關性、二是可靠性、三是有效性

3. 資料探索

當拿到乙個樣本資料集後,ta是否達到了我們原來設想的要求;樣本中有沒有什麼明顯的規律和趨勢;有沒有從未設想的資料狀態;屬性之間有什麼相關性;ta們可區分成怎樣的類別等,這都是要探索的內容。

挖掘模型的質量不會超過抽取樣本的質量。資料探索和預處理的目的是為了保證樣本資料的質量,從而為保證模型質量打下基礎。

4. 資料預處理

由於取樣資料中常常包含許多含有雜訊、不完整、甚至不一致的資料,對資料探勘所設計的資料物件必須進行預處理。

資料預處理主要包括:資料篩選、資料變數轉換、缺失值處理、壞資料處理、資料標準化、主成分分析、屬性選擇、資料規約等。

5. 挖掘建模

樣本抽取完成後,接下來要考慮的問題是:本次建模屬於資料探勘應用中的哪類問題(分類、聚類、關聯規則、時序模式或智慧型推薦)選用哪種演算法進行模型構建?

這一步是資料探勘工作的核心環節。針對餐飲行業的資料探勘應用,挖掘建模主要包括:

基於關聯規則演算法的動態菜品智慧型推薦

基於聚類演算法的餐飲客戶價值分析

基於分類與**演算法的菜品銷量**

以菜品銷量為例,模型構建是對菜品歷史銷量,綜合考慮了節假日、氣候和競爭對手等取樣資料軌跡的概括,ta反應的是取樣資料內部結構的一般特徵,並於該取樣資料的具體結構基本吻合。模型的具體化就是菜品銷量**公式,公式可以產生與觀測值有相似結構的輸出,這就是**值。

6. 模型評價

建模過程中會得出一系列分析結果,模型評價的目的之一就是從這些模型中自動找出最好的模型,另外就是要根據業務對模型進行解釋和應用。

to be filed

to be filed

to be filed

參考 書籍&**&部落格

《python資料分析與挖掘實戰》張良均 王路等著

資料分析與挖掘

1 概述 1.1 使用者研究縱覽 使用者研究可以從定性分析和定量分析兩個不同的維度展開 定性分析是從小規模的資料樣本中發現新事物的方法,主要應用於使用者體驗調查 定量分析是用大資料量的樣本來測試和證明某些事情的方法,主要應用於使用者行為資料分析。1.2 資料分析與挖掘流程規範 資料分析與挖掘型系統建...

資料分析與挖掘

用於資料分析的 olap 系統的主要特點就是資料量非常大,併發訪問不多,但每次訪問所需要檢索的資料量都比較多,而且資料訪問相對較為集中,沒有什麼比較明顯的活躍資料概念。olap 即聯機分析處理,是資料倉儲的核心部心,所謂資料倉儲是對於大量已經由 oltp 形成的資料的一種分析型的資料庫,用於處理商業...

資料分析與資料探勘

一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...