spark 稠密向量和稀疏向量

2022-08-29 18:24:10 字數 530 閱讀 5898

spark mlib的本地向量有兩種:

densevctor   :稠密向量   其建立方式   vector.dense(資料)

sparsevector :稀疏向量   其建立方式有兩種:

方法一:vector.sparse(向量長度,索引陣列,與索引陣列所對應的數值陣列)

方法二:vector.sparse(向量長度,(索引,數值),(索引,數值),(索引,數值),...(索引,數值))

示例:比如向量(1,0,3,4)的建立有三種方法:

稠密向量:直接vectors.dense(1,0,3,4)

稀疏向量:

方法一:vector.sparse(4,(0,2,3),(1,3,4))  (0,2,3)

表示該向量的第0個,第2個,第3個位置,(1,3,4) 表示(0,2,3)位置對應的數值分別為1,3,4

方法二:vector.sparse(4,(0,1),(2,3),(3,4))

(0,1)就是(索引,數值)的形式。位置0的數值為1, 位置2的數值為3,位置3的數值為4。

Spark稀疏向量和稠密向量

旁邊的小伙一副生無可戀的表情 這是為什麼?我的 和之前寫的一樣,而且都是從官網copy的,結果怎麼是這樣子啊,我只是用向量彙編將多列轉為一列 val va new vectorassembler setinputcols array age sign province code lowest usa...

spark 密集向量和稀疏向量

1 概念 稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的區別 密集向量的值就是乙個普通的double陣列 而稀疏向量由兩個並列的 陣列indices和values組成 例如 向量 1.0,0.0,1.0,3.0 用密集格式表示為 1.0,0.0,1.0,3.0 用稀疏格式表示為 4,0,...

Spark ML 之 稀疏和稠密向量

密集 1.0,0.0,3.0 其和一般的陣列無異 稀疏 3,0,2 1.0,3.0 其表示的含義 元素的個數,元素的下標,元素下標對應的值 比如這裡 元素個數為 3個 序號0 對應的值為1.0,需要2對應的值為3.0 其他下標的數值為0 val vd vectors.dense 2,5,8 prin...