海量稠密向量相似度檢索工具

2021-10-07 07:47:55 字數 399 閱讀 9811

不管是做深度學習影象領域還是nlp領域或者推薦系統,最後embedding完的向量是海量高維稠密向量,在這些向量中查詢或者排序是乙個非常耗時的操作,下面提供幾個簡單高效的工具:

1、annoy:python環境下使用非常簡單,但是索引一旦建立就不能動態增加,增加item需要重新構建索引,在海量資料場景構建索引是非常耗時的,但檢索速度很快,百萬級別512維度在幾毫秒。

2、milvus:支援十億級別的向量規模,配置完可以像資料庫一樣連線使用,當然了也支援動態增加item

3、hnswlib:高效的向量檢索庫,python下使用也非常簡單,效能非常好,支援動態增加item

4、n2:

5、flexible clustering:

海量向量相似度檢索領域還有很多優秀的工具,感興趣可以都嘗試一下。。

計算向量相似度 余弦相似度

1.余弦相似度可用來計算兩個向量的相似程度 對於如何計算兩個向量的相似程度問題,可以把這它們想象成空間中的兩條線段,都是從原點 0,0,出發,指向不同的方向。兩條線段之間形成乙個夾角,如果夾角為0度,意味著方向相同 線段重合 如果夾角為90度,意味著形成直角,方向完全不相似 如果夾角為180度,意味...

特徵向量相似度和距離的計算

本文 1 2特徵向量相似度和距離的計算34 相似度 5 夾角余弦 6 相關係數 7 dice 8 jaccard910 距離11 明氏距離 12 歐氏距離 13 馬氏距離 14 jffreys matusita 距離 15 mahalanobis 距離,未實現,協方差矩陣 16 camberra 距...

向量之間的相似度和距離計算

特徵向量相似度和距離的計算 相似度 夾角余弦 相關係數 dice jaccard 距離 明氏距離 歐氏距離 馬氏距離 jffreys matusita 距離 mahalanobis 距離,未實現,協方差矩陣 camberra 距離 lance 距離,williams 距離 include inclu...