判別三連之二 Spark 分布式實現距離判別分析

2021-09-11 12:19:13 字數 946 閱讀 3021

設有兩個總體g1,g2,從第乙個總體抽取n個樣本,從第二個總體中抽取m個樣本,每個樣本都有p個測量指標。取任一樣本實測指標為x=(x1,x2,……xp)』,分別計算x到兩個總體的距離d1,d2,按距離最近準則判別歸類。

距離計算公式(馬氏距離):

判別公式:

某商場從市場隨機抽取20中品牌的電視機進行調查,其中13中暢銷,7種滯銷。按照電視機的質量評分、功能評分、**手機資料。其中「1」表示暢銷,「2」表示滯銷,根據該樣本建立判別函式,對以後的新樣本進行評測。

然後按照公式進行計算

def main(args: array[string]): unit = )

.reducebykey((d1, d2) => )

.map(tp => )

val covmbroad = sc.broadcast(covmatrix.collect())

// 定義判別函式

def dfunction(vec: seq[double]) = )

.minby(_._1)

._2}

val ngudf = udf((vec: seq[double]) => dfunction(vec))

val predictions = irisfeatrus

.withcolumn("ng", ngudf($"features"))

predictions.show(truncate = false)

spark.stop()

}

判別三連之三 Spark 分布式實現貝葉斯判別

假 設事 件b1,b2.bn是 樣本空間 的乙個 分割,且 他們各自 的概率為 p b1 p b2 p bn 假設事件 b 1,b 2.b n 是樣本空間 的乙個分割,且他們各自的概率為p b 1 p b 2 p b n 假設事件b1 b2 bn 是 樣本空間 的乙個 分割,且 他們各自 的概率為 ...

Spark學習筆記(二) 彈性分布式資料集RDDs

在閱讀很多的spark簡介中,都及多的提到rdds這個名詞。官方文件指出 spark 核心的概念是 resilient distributed dataset rdd 乙個可並行操作的有容錯機制的資料集合。這句話說明rdd的本質是集合,這個集合帶有並行操作和容錯機制。官方文件指出有兩種方式建立rdd...

分布式事務之二階段提交 三階段提交

分布式系統中的每個節點都能知道自己的事物是成功還是失敗,但是不知道其他節點的操作結果。要保證多個節點的事務性,就需要乙個中間者來協調這些機器,由中間者來決定事物的提交。2pc和3pc應運而生。過程如下 中間者向每個節點傳送事物請求 每個節點執行事物操作,將undo和redo記錄下來,並將自己的執行結...