最近鄰搜尋和近似最近鄰搜尋（NN和ANN）和庫

這樣查詢返回的前k個向量並不一定是最相似的k個向量，衡量ann演算法好不好的乙個依據是召回，每次ann請求返回的k個結果與使用暴力查詢的k個結果去比較，如果完全一致，說明是最好的。因為省了搜尋時間卻沒有影響效果。

目前的ann演算法有基於圖（hnswlib ）的，基於樹(pysparnn)的，基於雜湊（nearpy這個庫）等，並且有很多關於ann演算法的實現，開源的很多，如annoy, faiss，nmslib, falconn,flann等。

更詳細的一些測試在這個**有資料作者比較了不同的距離度量方式及在不同資料集的效果。

我測試過的，一分為兩類：稀疏向量和非稀疏向量

首先：稀疏向量是指維度比較多，而且向量的很多元素是0，啁密向量指零元素較少，向量的維度也就幾十到幾百。

如果上萬維的一般是稀疏向量（一萬個詞語詞庫句子搜尋），這樣的pyspann最好。

其次是周密向量，那麼faiss應該記憶體和速度比較均衡。

faiss的安裝如下：

1 sudo apt-get install libopenblas-dev liblapack3 python-numpy python-dev

2 apt-get install libblas-dev libatlas-dev liblapack-dev

swig install

git clone

cd swig

sudo apt-get install automake

./autogen.sh

./configure

sudo apt-get install bison flex

make

sudo make install

這樣的演算法成千上百，對此進行評測

評測資料集如下

dataset

dimensions

train size

test size

neighbors

distance

download

deep1b

969,990,000

10,000

100angular

hdf5 (3.6gb)

fashion-mnist

78460,000

10,000

100euclidean

hdf5 (217mb)

gist

9601,000,000

1,000

100euclidean

hdf5 (3.6gb)

glove

251,183,514

10,000

100angular

hdf5 (121mb)

glove

501,183,514

10,000

100angular

hdf5 (235mb)

glove

1001,183,514

10,000

100angular

hdf5 (463mb)

glove

2001,183,514

10,000

100angular

hdf5 (918mb)

kosarak

27983

74,962

500100

jaccard

hdf5 (2.0gb)

mnist

78460,000

10,000

100euclidean

hdf5 (217mb)

nytimes

256290,000

10,000

100angular

hdf5 (301mb)

sift

1281,000,000

10,000

100euclidean

hdf5 (501mb)

最近鄰搜尋和近似最近鄰搜尋（NN和ANN）和庫

近似最近鄰搜尋的QALSH方法閱讀筆記

最近鄰居搜尋壓縮儲存

面經筆記範圍搜尋最近鄰搜尋

最近鄰搜尋和近似最近鄰搜尋（NN和ANN）和庫

近似最近鄰搜尋的QALSH方法 閱讀筆記

最近鄰居搜尋 壓縮儲存

面經筆記 範圍搜尋 最近鄰搜尋

相關推薦

近似最近鄰搜尋的QALSH方法閱讀筆記

最近鄰居搜尋壓縮儲存

面經筆記範圍搜尋最近鄰搜尋