高速外存體系下的高維索引標準思路列表

現有的外存體系是ddr記憶體+磁碟二級儲存結構。磁碟的優點是廉價，在存放大資料背景下的海量資料時擴充容量的代價容易承受。

但是，資料管理的其他操作就有些蛋疼了，很多基本的操作都發現無法避免乙個瓶頸：內外存間的通訊(jeffrey scott vitter)

基於快閃儲存器的高速外存(ssd)沒有隨機i/o，這對很多enn(exact nearest neighbor)搜尋方法是福音。典型的，va-file, fnn等一眾將遍歷作為演算法搜尋框架的方法會收益。這些方法在通過近似計算留下候選集後需要載入原始向量（資料點）精煉出enn，當候選集內的點往往不是連續的，於是形成了隨機i/o，這也成為了其一大短板。現在這一短板沒了，weber在98年的觀點又一次煥發出威力：高維空間中任何基於聚類的方法其效能都將衰減到不如線性掃瞄。

不過，沒有了對隨機i/o的擔憂不代表沒有了對i/o的擔憂。沒有了醒目的隨機i/o，新體系下的高維索引在解決enn的時候考量的各項效能的反而都變得無法忽視，主要有以下幾個：載入的候選點的個數、載入的其他資料的規模、昂貴計算的次數（主要是距離度量）、其他輔助量的計算量（例如，adaptive distance bound, hb中的lower bound計算）。

除此之外，可能還會加上記憶體開銷。

從這個角度，va-file如果放在外存，整個va-file載入進入記憶體也會伴有一定量的i/o，而聚類的一些方法索引結構體量很小，並且要載入的資料都是隨需（計算出要載入的下乙個聚類）載入的。並且聚類的方法並沒有損失什麼（原本外存技術的提高也不應對演算法產生***）只不過也沒有得到太多的促進而已。聚類方法本身的優勢依舊存在，例如hb中自適應的邊界相對於其他邊界的優勢。

現在，定義高維和大規模，綜合審視enn搜尋方法的表現是否已經盡如人意？可以做乙個綜述的評價。不顧答案應該不太積極。

進一步提公升enn搜尋演算法效能的著手點在**？

高速外存體系下的高維索引標準思路列表

實用的高速高轉降檔技術

高效能高可用的分布式架構體系

高維度下的資料科學線性空間（下）

高速外存體系下的高維索引標準 思路列表

實用的高速高轉降檔技術

高效能 高可用的分布式架構體系

高維度下的資料科學 線性空間（下）

相關推薦

高速外存體系下的高維索引標準思路列表

高效能高可用的分布式架構體系

高維度下的資料科學線性空間（下）