資料建模簡介

2021-10-17 23:07:26 字數 1283 閱讀 4474

資料分析建模需要先明確業務需求,然後選擇是 描述型分析 還是 **型分析。

如果分析的目的是描述目標行為模式,就採用描述型資料分析,描述型分析就考慮 關聯規則、 序列規則、 聚類 等模型。

如果是**型資料分析,就是量化未來一段時間內,某個事件的發生概率。有兩大**分析模型, 分類** 和 回歸**。

分類與回歸

分類:是通過已有的訓練樣本去訓練得到乙個最優模型,再利用這個模型將輸入對映為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的,也就具有了對未知資料進行分類的能力。

回歸:是基於觀測資料建立變數間適當的依賴關係,以分析資料內在的規律,得到響應的判斷。並可用於預報、控制等問題。

應用:信用卡申請人風險評估、**公司業務增長量、**房價,未來的天氣情況等

原理:回歸:用屬性的 歷史資料 **未來趨勢。演算法首先假設一些已知型別的函式可以匹配目標資料,然後分析匹配後的誤差,確定乙個與目標資料匹配程度最好的函式。回歸是對真實值的一種 逼近**。

分類:將資料對映到 預先定義的 群組或類。演算法要求基於資料 特徵值 來定義類別,把具有某些特徵的資料項對映到給定的某個類別上。分類並沒有逼近的概念,最終正確結果只有乙個。 在機器學習方法裡,分類屬於監督學習。

區別:分類模型採用 離散**值,回歸模型採用 連續的**值。

聚類聚類:就是將相似的事物聚集在一起,不相似的事物劃分到不同的類別的過程。

聚類分析:又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是資料探勘的乙個重要演算法。

應用:根據症狀歸納特定疾病、發現信用卡高階使用者、根據上網行為對客戶分群從而進行精確營銷等。

原理:在沒有給定劃分類的情況下,根據資訊相似度進行資訊聚類。

聚類的輸入是一組 未被標記的資料,根據樣本特徵的距離或相似度進行劃分。劃分原則是保持最大的組內相似性和最小的組間相似性。

不同於分類,聚類事先 沒有任何訓練樣本,直接對資料進行建模。聚類分析的目標,就是在相似的基礎上收集資料來分類。 在機器學習方法裡,聚類屬於無監督學習。

時序模型

不管在哪個領域中(如金融學、經濟學、生態學、神經科學、物理學等),時間序列(time series)資料都是一種重要的結構化資料形式。在多個時間點觀察或測量到的任何事物,都可以形成一段時間序列。時間序列大多都是固定頻率的,資料點將根據某種規律定期出現。

應用:下個季度的商品銷量或庫存量是多少?明天用電量是多少?今天的北京地鐵13號線的**情況?

原理:描述 基於時間或其他序列的 經常發生的規律或趨勢,並對其建模。 與回歸一樣,用已知的資料**未來的值,但這些資料的區別是 變數所處時間的不同。重點考察資料之間在 時間維度上的關聯性。

1 數學建模簡介

數學建模就是通過計算得到的結果來解釋實際問題,並接受實際的檢驗,來建立數學模型的全過程.當需要從定量的角度分析和研究乙個實際問題時,人們就要在深入調查研究 了解物件資訊 作出簡化假設 分析內在規律等工作的基礎上,用數學的符號和語言作表述來建立數學模型.數學建模是在20世紀60和70年代進入一些西方國...

統一建模語言簡介

uml基礎 統一建模語言簡介 內容 一些背景知識 用例圖 類圖 序列圖 狀態圖活 元件圖 部署圖 結束語備註 參考資料 rational 專區中還有 所有文章 donald bell ibm rational 2004 年 3 月 回顧20世紀晚期 準確地說是1997年,omg組織 object m...

統一建模語言簡介

uml符號集只是一種語言而不是一種方法學。這點很重要,既然uml不是一種方法學,它就不需要特定的工件。最常用的uml圖包括 用例圖 類圖 序列圖 狀態圖 順序圖 元件圖和部署圖。下面將使用jude來進行說明 b 用例圖 b 用例圖描述了系統系統的乙個功能單元,橢圓表示用例,人表示角色。img b 類...