資料建模簡介

資料分析建模需要先明確業務需求，然後選擇是描述型分析還是 **型分析。

如果分析的目的是描述目標行為模式，就採用描述型資料分析，描述型分析就考慮關聯規則、序列規則、聚類等模型。

如果是**型資料分析，就是量化未來一段時間內，某個事件的發生概率。有兩大**分析模型，分類** 和回歸**。

分類與回歸

分類：是通過已有的訓練樣本去訓練得到乙個最優模型，再利用這個模型將輸入對映為相應的輸出，對輸出進行簡單的判斷從而實現分類的目的，也就具有了對未知資料進行分類的能力。

回歸：是基於觀測資料建立變數間適當的依賴關係，以分析資料內在的規律，得到響應的判斷。並可用於預報、控制等問題。

應用：信用卡申請人風險評估、**公司業務增長量、**房價，未來的天氣情況等

原理：回歸：用屬性的歷史資料 **未來趨勢。演算法首先假設一些已知型別的函式可以匹配目標資料，然後分析匹配後的誤差，確定乙個與目標資料匹配程度最好的函式。回歸是對真實值的一種逼近**。

分類：將資料對映到預先定義的群組或類。演算法要求基於資料特徵值來定義類別，把具有某些特徵的資料項對映到給定的某個類別上。分類並沒有逼近的概念，最終正確結果只有乙個。在機器學習方法裡，分類屬於監督學習。

區別：分類模型採用離散**值，回歸模型採用連續的**值。

聚類聚類：就是將相似的事物聚集在一起，不相似的事物劃分到不同的類別的過程。

聚類分析：又稱群分析，它是研究（樣品或指標）分類問題的一種統計分析方法，同時也是資料探勘的乙個重要演算法。

應用：根據症狀歸納特定疾病、發現信用卡高階使用者、根據上網行為對客戶分群從而進行精確營銷等。

原理：在沒有給定劃分類的情況下，根據資訊相似度進行資訊聚類。

聚類的輸入是一組未被標記的資料，根據樣本特徵的距離或相似度進行劃分。劃分原則是保持最大的組內相似性和最小的組間相似性。

不同於分類，聚類事先沒有任何訓練樣本，直接對資料進行建模。聚類分析的目標，就是在相似的基礎上收集資料來分類。在機器學習方法裡，聚類屬於無監督學習。

時序模型

不管在哪個領域中（如金融學、經濟學、生態學、神經科學、物理學等），時間序列（time series）資料都是一種重要的結構化資料形式。在多個時間點觀察或測量到的任何事物，都可以形成一段時間序列。時間序列大多都是固定頻率的，資料點將根據某種規律定期出現。

應用：下個季度的商品銷量或庫存量是多少？明天用電量是多少？今天的北京地鐵13號線的**情況？

原理：描述基於時間或其他序列的經常發生的規律或趨勢，並對其建模。與回歸一樣，用已知的資料**未來的值，但這些資料的區別是變數所處時間的不同。重點考察資料之間在時間維度上的關聯性。