近似最近鄰搜尋的QALSH方法 閱讀筆記

2021-08-19 20:30:50 字數 933 閱讀 3924

lsh和它的變體是解決高維歐氏空間下c-近似最近鄰(c-ann)搜尋問題的著名索引方法。傳統上,lsh函式在某種意義上是以未知查詢的方式構建,即在任何查詢到達之前劃分桶。然而,距離乙個查詢越近的目標可能被劃分在不同的桶中是令人不快的。由於利用yi遺忘查詢桶劃分,針對外存的最先進的lsh方案,即c2lsh和lsb森林,整數近似比率僅為c>=2。

在這篇文章中,我們介紹了乙個新穎的概念,即查詢感知桶劃分,利用乙個給定查詢作為桶的「錨」。因此,乙個查詢感知函式是外加查詢感知劃分的隨機投影,移除了傳統查詢健忘的lsh函式的隨機偏移。顯著地,查詢感知劃分很容易被實現,以便保證查詢效能。我們提出了乙個查詢感知方法稱為qalsh,來解決外存的c-ann搜尋問題。我們的理論研究表明,qalsh能夠保證查詢質量。感知雜湊函式使得qalsh能夠滿足近似比率c>1。大量實驗表明,qalsh超越了c2lsh和lsb森林,尤其在高維空間。特別是,通過c<2的比率,qalsh能夠實現更好的查詢效率。

現有的方法如lsh等...the seminal work.

![這裡寫描述](

根據上述問題引出query-aware lsh函式,受...的激勵,我們提出了..

the rest of this *****組織如下:...

在這篇文章中,我們引入乙個新穎的概念感知雜湊函式,因而提出乙個新穎的lsh方案qalsh, for高維歐氏空間的c-ann搜尋。乙個感知查詢雜湊函式是乙個外加感知查詢桶劃分的隨機投影。該函式無需隨機偏移,那在傳統lsh函式中是乙個前提。感知查詢lsh函式也能使qalsh執行在任意近似比率c>1。作為對照,最先進的lsh方案如c2lsh和lsb-森林值用於c>=2。我們的理論分析和表明qalsh實現了c-ann搜尋的乙個質量保證。我們也提出了乙個自動方式決定qalsh中的桶寬w。四個真實資料集上的實驗結果表明,qalsh能夠超越c2lsh和lsb-森林,尤其在高維空間。

最近鄰搜尋和近似最近鄰搜尋(NN和ANN)和庫

這樣查詢返回的前k個向量並不一定是最相似的k個向量,衡量ann演算法好不好的乙個依據是召回,每次ann請求返回的k個結果與使用暴力查詢的k個結果去比較,如果完全一致,說明是最好的。因為省了搜尋時間卻沒有影響效果。目前的ann演算法有基於圖 hnswlib 的,基於樹 pysparnn 的,基於雜湊 ...

近似最近鄰演算法 annoy解析

annoy是高維空間求近似最近鄰的乙個開源庫。annoy構建一棵二叉樹,查詢時間為o logn annoy通過隨機挑選兩個點,並使用垂直於這個點的等距離超平面將集合劃分為兩部分。如圖所示,圖中灰色線是連線兩個點,超平面是加粗的黑線。按照這個方法在每個子集上迭代進行劃分。依此類推,直到每個集合最多剩餘...

最近鄰搜尋的若干種方法

kd樹是其下的經典演算法。一般而言,在空間維度比較低時,kd樹的查詢效能還是比較高效的 但當空間維度較高時,該方法會退化為暴力列舉,效能較差,這時一般會採用下面的雜湊方法或者向量量化方法。lsh locality sensitive hashing 是其下的代表演算法。文獻 7 是一篇非常好的lsh...