判別三連之二 Spark 分布式實現距離判別分析

2021-09-11 12:19:13 字數 946 閱讀 3021

設有兩個總體g1，g2，從第乙個總體抽取n個樣本，從第二個總體中抽取m個樣本，每個樣本都有p個測量指標。取任一樣本實測指標為x=(x1,x2,……xp)』，分別計算x到兩個總體的距離d1，d2,按距離最近準則判別歸類。

距離計算公式（馬氏距離）：

判別公式：

某商場從市場隨機抽取20中品牌的電視機進行調查，其中13中暢銷，7種滯銷。按照電視機的質量評分、功能評分、**手機資料。其中「1」表示暢銷，「2」表示滯銷，根據該樣本建立判別函式，對以後的新樣本進行評測。

然後按照公式進行計算

def main(args: array[string]): unit = )
.reducebykey((d1, d2) => )
.map(tp => )
val covmbroad = sc.broadcast(covmatrix.collect())
// 定義判別函式
def dfunction(vec: seq[double]) = )
.minby(_._1)
._2}
val ngudf = udf((vec: seq[double]) => dfunction(vec))
val predictions = irisfeatrus
.withcolumn("ng", ngudf($"features"))
predictions.show(truncate = false)
spark.stop()
}

判別三連之三 Spark 分布式實現貝葉斯判別

假設事件b1,b2.bn是樣本空間的乙個分割，且他們各自的概率為 p b1 p b2 p bn 假設事件 b 1,b 2.b n 是樣本空間的乙個分割，且他們各自的概率為p b 1 p b 2 p b n 假設事件b1 b2 bn 是樣本空間的乙個分割，且他們各自的概率為 ...

Spark學習筆記（二）彈性分布式資料集RDDs

在閱讀很多的spark簡介中，都及多的提到rdds這個名詞。官方文件指出 spark 核心的概念是 resilient distributed dataset rdd 乙個可並行操作的有容錯機制的資料集合。這句話說明rdd的本質是集合，這個集合帶有並行操作和容錯機制。官方文件指出有兩種方式建立rdd...

分布式事務之二階段提交三階段提交

分布式系統中的每個節點都能知道自己的事物是成功還是失敗，但是不知道其他節點的操作結果。要保證多個節點的事務性，就需要乙個中間者來協調這些機器，由中間者來決定事物的提交。2pc和3pc應運而生。過程如下中間者向每個節點傳送事物請求每個節點執行事物操作，將undo和redo記錄下來，並將自己的執行結...