spark 實現百分位數計算

2021-09-22 22:52:13 字數 831 閱讀 7164

spark實現百分位數計算

二.自定義 spark core 計算百分位數方法 當做工具使用

具體**實現:

/*** 計算 分位數 的分段值

** @param data : rdd

* @param tile : 分位數

* @return 分段值

*/def computepercentile(data: rdd[double], tile: double): double = else }}}

else 0引數解釋:

data :rdd[(double)] 需要計算分位數的 rdd,

tile: double 具體計算的分位數(20,40,60===》20%,40%。。。)

返回值:返回該rdd 的百分位數的 分段值

例如:val segment_arr = array(utils.computepercentile(mratiordd, 20),

utils.computepercentile(mratiordd, 40),

utils.computepercentile(mratiordd, 60),

utils.computepercentile(mratiordd, 80),

utils.computepercentile(mratiordd, 100)

)返回 乙個分段值的 陣列:

0.4295004004115095

0.6420823735288389

0.8625984512540754

1.0974667335218444

4.533219776740614

利用python 計算百分位數實現資料分箱

百分位數,如果將一組資料從小到大排序,並計算相應的累計百分位,則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為 一組n個觀測值按數值大小排列。如,處於p 位置的值稱第p百分位數。因為百分位數是採用等分的方式劃分資料,因此也可用此方法進行等頻分箱。import pandas as pd ...

python 計算動態時點的百分位數

說明 1.動態時點 每次計算的資料框為截止於當前行的資料,即累計行 多次計算 2.靜態時點 當前時間 計算的資料框為所有行 一次計算 test pd.dataframe np.random.randint 1,10,size 10 columns value 生成 1,10 的隨機整數 test p...

r計算百分位數 微專題 蛋白質結構的計算規律

1 有關蛋白質結構的計算規律 1 假設氨基酸的平均相對分子質量為a,由n個氨基酸分別形成1條鏈狀多肽或m條鏈狀多肽 肽鍵數 脫去水分子數 氨基酸數 肽鏈數 蛋白質相對分子質量的計算按照反應前後質量守恆定律計算 形成肽鏈數 形成肽鍵數 脫去水分子數 蛋白質相對分子質量 n 1n 1 na 18 n 1...