SAS9 技術 SPD引擎

2021-03-31 08:56:31 字數 2434 閱讀 5480

簡介:spd引擎

spd(scalable performance data )是設計用於高效能資料傳送,它之所以能達到快速的資料傳送是由於按特定的格式組織資料,以最大限度的利用多cpu實現並行輸入/輸出功能

spd引擎使用多執行緒並行的快速讀取資料,但相應的os必須支援容許執行緒執行在現有的任意cpu上,雖然該功能是spde最重要的功能,但這種功能的是來自於sas的資料儲存的結構組織方面的支援,這種資料組織方式容許多執行緒、並行處理i/0任務的能力

然它是不能替代預設的sas base引擎的,spde為大資料量的高速處理提供了一種選擇,特別是在讀寫數百萬記錄的時候,並且還有某些os是不容許大於2gb的檔案存在,其主要表現在以下方面:

支援上gb的資料

在多cpu機器上具有可量測性

並行where處理

並行裝載

並行index建立

並行資料傳送

固有的排序在by時

spde可執行於unix 、windows、z/os(只在zfs檔案系統上) 和openvms alpha(只在 ods-5檔案系統上)上

利用**p(symmetric multiprocessing)機器

spde技術是充分建立在**p機器上的,乙個**p機器有多個cpu且os支援執行緒,一般來說,它具有多個控制器和多個磁碟裝置,每個磁碟裝置對應乙個控制器,當spde讀資料是,它執行乙個或多個執行緒在每乙個cpu上,這些執行緒並行的從多個磁碟裝置上讀取資料,這種讀取很有可能是通過多cpu操控的

例如:乙個完美的系統,其有5個cpu和10個磁碟裝置,在進行資料讀取時要比單cpu機器會快上5倍以上,除了多執行緒i/0外,**p機器還能支援多執行緒應用,如sort過程

如何利用spde組織sas資料

因為spde是為高效能資料處理,故資料集的物理儲存上是跟base sas的的資料儲存是不同的,後者是用單一檔案儲存資料集,其包含了資料和資料的相關描述資訊,而spde是採用了分開的檔案用來儲存資料和資料描述資訊,另外,如果資料集是被索引,則將會為每乙個索引產生2個index檔案,這4種檔案型別可被稱為spde元件檔案,每一種型別的檔案都有它自己的副檔名

另外,每乙個元件檔案可以乙個或多個物理檔案組成,故它可以跨越多個卷但在引用時是作為乙個邏輯檔案,例如:spde能建立許多物理檔案,但引用時可以當作乙個單一的檔案

描述性資料元件跟實際資料元件是不同的,表現在以下2方面:

1。你能為實際資料元件指定乙個固定長度的分割槽尺寸,用partsize選項指定,然而,你是不能控制描述性資料元件的分割槽尺寸的

2。資料元件檔案可以建立在不同的路徑上,但描述性資料只能建立在乙個單一路徑下,直到路徑的儲存空間已滿,才會使用下乙個路徑

元資料元件檔案

其擴充套件名為.mdf,通常乙個spde資料集只有乙個mdf檔案

索引元件檔案

如果乙個檔案被索引,spde將會產生2個索引元件檔案為每乙個索引,hbx副檔名的檔案包含了全域性的索引,而.idx檔案則包含了分段的索引

資料元件檔案    

乙個資料元件檔案可被幾個或多個檔案組成,勝於單一乙個檔案,每乙個檔案的是固定長度的,這個長度在建立資料集時指定

特別的,分割槽尺寸的大小會影響你應用的執行效能,因為每乙個檔案是被乙個執行緒讀的

比較base sas 引擎和spd引擎 

2者有很多相同處,2者都是用sas 資料庫儲存資料;sas庫是乙個包含多個檔案和目錄的東西,然而,spde庫下的東西能存在在不同路徑下,你可已在使用libname句法是指定一些資料儲存的細節

乙個spde庫包含資料檔案,元資料檔案,索引檔案,

注意的是spde庫是不支援目錄,檢視,mddb或者其他檔案的

spde檔案操作空間

spde檔案操作空間是用於spde操作時所需要的額外的空間,如沒有指定會使用預設的,但當你操作大資料量的資料時,可能預設的空間不足夠大,因此,你可以用spdeutilloc選項來指定spde檔案操作空間

臨時資料集儲存

通過temp選項指定,如下

libname user spde '/mydata' temp=yes;

data a; x=1;

run;

proc print data=a;  

(注:user選項的使用使得在引用時只需使用一級名字)     

2者的其他異同處

【feature】 【spd engine】 【base sas engine 】

分割槽資料集 yes no

並行where優化 yes no

最低鎖定級別 成員級別 記錄級別

不同請求同時訪問給出的資料集 唯讀 讀寫

支援sas/share no yes

sas by時自動排序 yes no

目錄支援 no yes

檢視支援 no yes

mddb支援 no yes

完整性約束 no yes

變數數 多於32767

記錄數 2的63次方-1 2的32次方-1(32位機器上)      

我的SAS菜鳥之路9

線性回歸的分析思路 2.準備工作 自變數變換 3.單因素分析 4.多因素分析 5.模型評價 模型對實際資料的擬合效果評價 6.模型診斷 共線性診斷指標 異常點診斷 高槓桿點 強影響點 7.模型修飾及在評價 8.建立模型 簡單散點圖 proc sgplot scatter x y run 偏殘差圖 p...

9 SystemVerilog語言編寫SPI接收

1 章節目錄 2 fpga簡介 3 systemverilog簡介 4 systemverilog語言編寫spi接收 5 本節結束 fpga field programmable gate array 是在pal gal等可程式設計器件的基礎上進一步發展的產物。它是作為專用積體電路 asic 領域中...

XSL FO 高階技術9

結束語 第 1 頁 共3 頁 本系列的兩篇教程 以及姊妹篇 html to fo 參考指南 已討論了有關用 fop 構建 pdf 檔案的許多不同技術和主題。到目前為止,您應該清楚地了解 xsl fo 標準和 fop 工具的功能多麼強大。在這個由兩部分組成的教程中,您已經看過許多示例,而且 fop 軟...