建模技術與統計分析

建模技術

建模方法基於使用的使用，即解決特定問題的指示資訊順序。使用特定的演算法可建立這種型別的模型。有三種主要的建模技術類別，ibm® spss® modeler 為每種類別提供了一些示例：分類

關聯細分（有時稱為「聚類」）

分類模型使用乙個或多個輸入欄位的值來**乙個或多個輸出（或目標）欄位的值。這些技術的一些示例包括：決策樹（c&r 樹、quest、chaid 和 c5.0 演算法）、回歸（線性、logistic、廣義線性和 cox 回歸演算法）、神經網路、支援向量機和貝葉斯網路。

關聯模型查詢您資料中的模式，其中乙個或多個實體（如事件、購買或屬性）與乙個或多個其他實體相關聯。這些模型構建定義這些關係的規則集。資料中的字段可以作為輸入和目標。您可以手動查詢這些關聯，但關聯規則演算法可以更快速地完成，並能探索更多複雜的模式。apriori 和 carma 模型是使用此類演算法的示例。另一種型別的關聯模型是序列檢測模型，後者可以在按時間建立結構的資料中查詢順序模式。

細分模型將資料劃分為具有類似輸入字段模式的記錄段或聚類。細分模型只對輸入字段感興趣，沒有輸出或目標欄位的概念。細分模型的示例為 kohonen 網路、k-means 聚類、二階聚類和異常檢測等。

演算法概括

優缺點k-means

每次從類中求均值作為中心點

用到了em的思想

目標是最小化sum of squared error

要求預設k值

易受噪音和離異點的影響

對不規則形狀的類聚類效果不好

不保證全域性最優

k-means++

目標是找到k個合理的初始種子點給k-means。

1. 隨機挑個隨機點當「種子點」

2. 對於每個點，計算其和最近的「種子點」的距離d(x)並儲存，然後把這些距離加起來得到sum(d(x))。

3. 再取乙個隨機值，用權重的方式來取計算下乙個「種子點」。這個演算法的實現是，先取乙個能落在sum(d(x))中的隨機值random，然後用random -= d(x)，直到其<=0，此時的點就是下乙個「種子點」。

4. 重複2和3直到k個中心被選出來

5. 利用這k個初始的聚類中心來執行標準的k-means演算法

k-modes

k-means演算法的擴充套件

對於分型別資料，用mode求中心點

k-prototypes

結合了k-means和k-modes

k-medoids

每次從類中找乙個具體的點來做中心點。目標是最小化absolute error。

pam是一種典型的k-medoids實現。

對噪音和離異點不那麼敏感

然而計算量大很多

clara

先抽樣，再用pam

對於大資料比pam好點

主要是看sample的效果

clarans

每次隨機的抓乙個medoid跟一般點，然後判斷，這兩者如果替換的話，能不能減小absolute-error

融合了pam和clara兩者的優點，是第乙個用於空間資料庫的聚類演算法

建模技術與統計分析

數學建模統計分析

r語言與統計分析考試題 R語言與統計分析第四章答案

統計分析的體會

建模技術與統計分析

數學建模 統計分析

r語言與統計分析考試題 R語言與統計分析第四章答案

統計分析的體會

相關推薦

數學建模統計分析