海量資料檢索的利器

2022-06-16 09:12:14 字數 984 閱讀 9674

檢索:解決的最大問題就是如何做到低延遲、快速匹配

採用區域性敏感雜湊:lsh

facebook的開源資料報:pysparnn

解決問題:稀疏資料的近鄰搜尋!

源****:

測試原始碼:

"""

test

"""import

osimport

pysparnn.cluster_index as ci

from sklearn.feature_extraction.text import

tfidfvectorizer

dir_path = os.path.dirname(os.path.abspath(__file__

))data =[

"你好 世界",

"哦 世界 在這裡",

"和 他 一起 玩",

"你 喜歡 玩 籃球",

]tv =tfidfvectorizer()

tv.fit(data)

#特徵向量

features_vec =tv.transform(data)

#建立搜尋索引

cp =ci.multiclusterindex(features_vec, data)

#搜尋帶有索引的

search_data =[

"哦 在這裡",

"我 喜歡 玩 足球"]

search_feature_vec =tv.transform(search_data)

#k是返回的個數,k_clusters代表聚類的個數

print(cp.search(search_feature_vec, k=1, k_clusters=2, return_distance=false))

返回結果:

希望能在實際的應用中幫到你! 

Data Retrieval 資料檢索

index 索引 定義 分類 1 結構化資料 固定格式 有限長度 應用 資料庫 元資料 2 非結構化資料 非定格式 非限長度 應用 磁碟檔案 查詢方式 1 結構化查詢 資料庫搜尋 2 非結構化查詢 a 順序掃瞄 b 全文檢索定義 根據使用者需求,從資料庫提取資料,生成資料表。資料表 可放回資料庫,也...

基本資料檢索

2016.11.28 二 基本資料檢索 select from table select 和 from 號是特殊符號,它表示所有的列,這句話的意思就是從 table 中查詢所有的列。在mysql和 oracle 中要求每句話的末尾要加乙個分號 但在 sqlserver 中不適用。2.1 查詢指定列 ...

SQLServer基礎的資料檢索

use 公司 select from 員工 select 性別,生日 from 員工 select 性別 as gender,as前面為原本列名,後面為新列名 生日 birthday,空格用法與as類似 name 姓名 用法有點類似變數賦值,前面為新列名,後面為原有列 from 員工 select ...