什麼是稀疏資料?什麼是池化?

2021-08-15 03:11:17 字數 3408 閱讀 5850

一、稀疏資料

在資料庫中,稀疏資料是指在二維表中含有大量空值的資料;即稀疏資料是指,在資料集中絕大多數數值缺失或者為零的資料。稀疏資料絕對不是無用資料,只不過是資訊不完全,通過適當的手段是可以挖掘出大量有用資訊。

稀疏資料是指,資料框中絕大多數數值缺失或者為零的資料。在現代社會中,隨著資訊的**式增長,資料量也呈現出**式增長,資料形式也越來越多樣化。在資料探勘領域,常常要面對海量的複雜型資料。其中,稀疏資料這一特殊形式的資料正在越來越為人們所注意。

稀疏資料絕對不是無用資料,只不過是資訊不完全,通過適當的手段是可以挖掘出大量有用資訊的。然而在一些情況下,資料的稀疏程度甚至會達到 95%以上,這使得傳統的統計方法不適於處理此類資料。 

由於調查不當產生的稀疏資料

這種稀疏資料常見於問卷調查和**調查中,如果問卷問題設定不當,過於繁雜難懂,就會導致被調查者產生厭煩心理,草草回答幾個問題了事。然而已經回答的問題又是有效問卷的一部分,不能做遺棄處理,假若這種問卷大量出現,那麼就會出現稀疏資料。

由於天然限制產生的稀疏資料

這種稀疏資料常見於電子商務領域,例如**網、沃爾瑪等網購**或超市中。由於每個客戶客觀上不可能把所有商品購買一遍,所以他們的客戶購買記錄必然只是對海量商品中一小部分的記錄。這樣,客戶購買記錄必然是乙個稀疏資料。

文字挖掘中產生的稀疏資料

醫學造影成像領域

現代醫學常常要借助 ct、b 超、核磁等手段造影成像,作為判斷病情的重要手段。其中 ct 成像是由若干射線源與接收器來採集資料,在實際應用中,受到裝置、病人條件等限制,常常不能做到全角度掃瞄,故而在成像演算法上也常常要面對稀疏資料。

目前針對稀疏資料的另乙個研究方向就是對稀疏資料的聚類與降維。稀疏資料不同於一般資料,它的維度常常極其巨大,並且由於大量的缺失值的存在,使得資料資訊極端不完整,常見的降維方法例如主成分、因子分析等無法在此上應用。

針對這一情況,很多學者開始研究探索一些其他的方法來解決這一問題。謝寧新在他發表的文章中,提出利用二進位制數來計算稀疏相似度,進而進行聚類。他首先引用了稀疏特徵的二進位製碼概念,通過設定乙個閾值 b,將稀疏矩陣中大於 b 的數用1 表示,小於 b 的用 0 表示,將稀疏矩陣轉換成了二進位製碼矩陣。然後採用二進位制數的布林 and 運算,計算 u1and u2,其中 u1和 u2分別表示兩個樣本的二進位製碼序列。and 具體的運算規則是,若兩條序列中,同一位置的二進位製碼同為 1,則返回數值 1;否則返回數值 0。最後計算 u1and u2中數字 1 的個數,將之作為兩樣本的相關性。並進而將相關性顯著大的樣本聚為一類。

該二進位製碼演算法在一定程度上克服了稀疏資料計算相似度的困難,並且有著運算速度極高的特點,但是應用侷限較大。將資料轉換成二進位製碼本身會損失大量資訊,對於高度稀疏的資料來說,人為地損失到本就很稀少很珍貴的資料資訊,並不是乙個明智的選擇。

此外,趙雅琴等人的研究中,給出了稀疏相似度、等價關係相似度、廣義等價關係等概念。他們也同樣是首先將稀疏資料進行二進位製碼的轉換,然後利用不同專案間的稀疏相似度和等價關係,得出初始等價類,然後再對初始等價關係利用等價關係相似度進行修正,從而使聚類結果更為合理。

在資料探勘領域裡也常常有一些演算法概念被借鑑過來,有學者提出了一種改進的區域性線性嵌入演算法(locally linear embedding),通過一種非線性對映,在不改變原始資料空間流形的前提下,將高維樣本對映到低維空間中去。針對於稀疏資料,他採用一種聯合區域性線性嵌入(united locally linear embedding),並通過實驗表明了良好的降維效果。

稀疏訊號是指絕大多數元素為 0 的訊號, 與同樣長度的普通訊號相比, 它包含的資訊較少。 因此, 稀疏訊號可以充分地壓縮, 從而節約儲存空間, 減少傳輸量。近年來, 資料的稀疏性在壓縮感測、訊號/影象處理、大資料分析與處理、機器學習和統計推斷等領域受到廣泛關注並獲得了成功的應用。 資料恢復是指將遭到干擾或者破壞的資料還原成真實資料。 資料被干擾或破壞的原因有很多, 如儲存和傳輸介質的影響、測量儀器與觀測過程產生的誤差以及外界雜訊的干擾等等。 資料恢復問題廣泛存在, 例如, 稀疏訊號壓縮感測問題 (compressed sensing problem,簡稱 cs 問題);低秩矩陣完整化問題 (matrix completion problem, 簡稱 mc 問題); 基於全變差正則化 (total-variation based regularization) 的影象恢復問題(image reconstruction problem, 簡稱 tvir 問題)。 上述三類問題的共同特點是需要恢復的資料具有某種稀疏結構, 因此稱為稀疏資料恢復問題。 稀疏資料恢復問題的數學規劃模型一般具有特殊結構, 如目標函式的可分性、向量的稀疏性、矩陣的低秩性等。 如何高效地從病態的線性反問題中唯一且穩健地恢復出特定的資訊是許多學者長期以來致力於研究的重要課題。 

稀疏資料廣泛存在於各種應用場景中,如:在分布式管理系統condor中使用者可以自己定義新的屬性,因此,在乙個資料集中很多屬性幾乎都是空值;同時,稀疏資料還大量存在於電子商務的應用中,每位商家都可以定義自己商品或者訂單特有的屬性,從而使得資料有成千上萬的屬性值,如中有5000個屬性,但是對於每個元組,這些屬性值幾乎都是空值;在醫學、地球科學等領域,存在著大量的稀疏資料。

二、池化

於儲存而言,池化的概念並不陌生。可以說,儲存池化概念的提出不始於儲存虛擬化技術,在儲存從伺服器直聯儲存到以san或者nas為代表的網路儲存的發展過程中,就提出了池化的概念。

借助池化,網路儲存可以有效提公升儲存的利用率。因此,從直聯儲存向網路儲存的發展過程,從技術上看,就是乙個磁碟池化的過程。jbod也好,raid也好,以及san和nas都是借助池化來提公升磁碟的利用率。如今,儲存虛擬化技術不可避免的又提出了池化。那麼,此池化與彼池化有什麼區別呢?

為什麼網路儲存池化之外,還需要乙個儲存虛擬化的池化呢?換句話說,是不是san或者nas的網路儲存不夠徹底。對此,ibm儲存架構師馬靜指出,資訊化不斷發展,在使用者資訊化應用過程中,在不同時期會有不同的需求,引入不同的應用系統。與此同時,產品技術的發展,不同時期也會有所不同,兩者結合,就造成了不同的應用系統並存,造成所謂資訊孤島。儲存也是這樣,針對不同應用而設計的多套san、nas系統並存,造成所謂儲存的資訊孤島。那麼,不同的san、nas系統之間,其儲存資源是無法進行共享。

對於多套網路儲存系統並存,中國民航計算機資訊中心生產排程部負責人戚前方指出,從企業發展的角度,san的出現就是企業需求的表現。如果純粹從理論的角度,用乙個san所構建的網路儲存系統支撐企業所有應用系統的儲存需求,這是有可能的。但從實際情況看,這是非常困難的。戚前方指出,目前很多企業都存在著多套san系統並存,不同san系統利用率不同,但是又沒有辦法讓多個san系統之間形成資源聯動。戚前方表示,作為使用者他非常需要能夠靈活調配儲存資源的解決方案。

用一套san系統來整合企業儲存,從技術上也有很大難度。有人指出,一來san儲存目前還沒有完全乙個通用的標準,各家主流廠商所生產的san系統,雖有標準但所遵循程度不一,沒有做到完全的標準化。還有一方面,各家管理平台不一樣,因此用san來滿足儲存資源池化,實現儲存資源的靈活調配,幾乎不可行。這也是儲存虛擬化技術產生和發展的原因。

什麼是池化技術

池化技術 pool 是一種很常見的程式設計技巧,在請求量大時能明顯優化應用效能,降低系統頻繁建連的資源開銷。我們日常工作中常見的有資料庫連線池 執行緒池 物件池等,它們的特點都是將 昂貴的 費時的 的資源維護在乙個特定的 池子 中,規定其最小連線數 最大連線數 阻塞佇列等配置,方便進行統一管理和復用...

什麼是執行緒池

假設有一段 你希望非同步執行它,是不是要寫出這樣的 new thread r start 這種寫法當然可以完成功能,可是你這樣寫,老王這樣寫,老張也這樣寫,程式中到處都是這樣建立執行緒的方法,需要寫乙個統一的工具類讓大家呼叫 1 新執行緒 直接建立乙個新執行緒執行 2class flashexecu...

什麼是伺服器池化

1 什麼是伺服器 我們知道,伺服器是一種特定的計算機,它通常作為網路的乙個節點為來自網路不同地方的客戶提供某種特定的服務 這裡的 服務 其實就是乙個具有特定功能的能持續執行的電腦程式。傳統意義上的伺服器概念通常和物理意義上的計算機相等同。在具有多工處理能力的現代作業系統下,一台計算機通常可以同時提供...