MLlib基本概念2018 4 27

2021-08-19 10:31:01 字數 1812 閱讀 7534

學習mllib的基本資料型別的種類與用法

如何組合利用這些基本資料型別去進行一些統計量的計算 這是資料分析挖掘的基本內容

mllib基本資料型別

localvector本地向量集:

分為兩種: 稀疏型資料集spares   密集型資料集dense    只支援整型資料浮點型資料因為mllib的目的就是進行數值計算

labeled point 向量標籤:

labeled point是建立向量標籤的靜態類,features用於顯示列印標記點所代表的資料內容 ,label用於顯示標記數

local matrix 本地矩陣:

matries.dense方法

distributed matrix 分布式矩陣:

採用分布式矩陣進行儲存往往是資料量非常大的,提供了四種分布式矩陣儲存形式  均由支援長整型的行列數和雙精度浮點型的資料內容組成,此處介紹最常用的3種

行矩陣帶有行索引的行矩陣

座標矩陣

塊矩陣行矩陣rowmatrix

可以理解為行矩陣就是乙個巨大的特徵向量的集合, 每一行就是乙個具有相同格式的特徵向量資料  

帶有索引的行矩陣indexedrowmatrix

為了方便在系統的除錯的過程中對行矩陣的內容進行觀察和顯示  引入  帶有行索引的行矩陣

座標矩陣coordinatematrix:

座標矩陣是一種帶有座標標記的矩陣,其中的每乙個具體資料都有一組座標進行標記   一般用於資料比較多且資料較為分散的情形

import org.apache.spark.

import org.apache.spark.mllib.linalg.

import org.apache.spark.mllib.regression.labeledpoint

import org.apache.spark.mllib.linalg.

import org.apache.spark.mllib.linalg.distributed.rowmatrix

import org.apache.spark.mllib.linalg.distributed.

import org.apache.spark.mllib.linalg.distributed.

object mllibdatastructure

}

mllib數理統計基本概念

基本統計量  在mllib中,統計量的計算主要用到statistics類庫

colstats  以為基礎計算統計量:

統計量基本資料

count    max    mean   norml1   norml2   numnonzeros   variance

距離計算

歐幾里得距離 l2範數     曼哈頓距離  l1範數

chisqtest  對資料集內的資料進行皮爾遜距離計算

關係的統計指標稱為相關係數。對兩組資料間的相似程度進行定量化分析。常用的是皮爾遜相關係數(mllib中預設)。

corr 對兩個資料集進行相關係數計算

分層抽樣

假設檢驗

卡方檢驗

顯著性差異指標  

隨機數randomrdds

MLlib資料統計基本概念

備註 kimi.txt中的內容如下 12 34 5一.求資料的均值和標準差 計算均值 println summary.variance 計算標準差 程式結果 3.0 2.5 二.距離計算 1.歐幾里得距離 norml1 指在m維空間中兩個點之間的真實距離,或者向量的自然長度 即該點到原點的距離 2....

基本概念 C 基本概念

由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...

基本概念 數控系統基本概念

第一章 基本概念 數控工具機cnc是一種按事先編制好的加工零件程式進行加工的高效 自動化加工裝置。是 computer numerical control machine tools 的簡稱。數控工具機較好地解決了複雜 精密 小批量 多品種的零件加工問題,是一種柔性的 高效能的自動化工具機。西門子系...