minhash演算法詳解和LSH

2022-07-28 19:21:17 字數 1277 閱讀 5272

俄亥俄州立 演算法講義(非常詳細)

minhash性質 

任意k個元素中有乙個是排列pi下的minhash的概率為k/|x|

在|c1交c2|中選乙個才有可能是相同的minhash

b表示一共用20個band

r表示乙個band由r個數組成 如果兩個band的這r個數都相同,他們就會被對映到同乙個桶中

每一列是乙個簽名

每一行是乙個所有簽名的組合

b*r為產生簽名的hash函式個數

如果在乙個hash函式的作用下被對映到同乙個桶中,就作為乙個candidate pair 不管其他的hash函式作用下它們會如何對映

如果b很小 r很大 兩個簽名被hash到同乙個桶的概率很小 

r越大 就要滿足越多的元素均相同才會被hash到同乙個桶中 概率降低

如果jaccard similarity很大 幾乎所有的都會是false postive

如果jaccard similarity很小 幾乎不會有false postive

對比上下兩幅圖 直線上方的部分為原先應該被對映到一起卻未被對映到一起的元素

Min Hash和推薦系統

min hash和推薦系統 it癮 標籤 未分類 分享到 出處 前幾年看google news recommendation的那篇 對裡面提到的minhash的演算法基本沒有注意,因為之前的習慣都是只注意 的模型那塊,至於怎麼優化模型一般都只是掃一眼。不過最近看了大量的google 發現google...

文字去重之MinHash演算法

1.概述 跟simhash一樣,minhash也是lsh的一種,可以用來快速估算兩個集合的相似度。minhash由andrei broder提出,最初用於在搜尋引擎中檢測重複網頁。它也可以應用於大規模聚類問題。2.jaccard index 在介紹minhash之前,我們先介紹下jaccard in...

minhash演算法檢索相似文字 基於檢索的問答系統

實現架構 主要流程 建語料庫 首先建立乙個語料庫,即問題和答案的集合,乙個問題對應乙個答案 文字預處理 對輸入的問題進行分詞,拼寫糾錯,詞過濾word filter,去停用詞stopwords 文字表示成向量 詞向量技術word2vec,tf idf 文字相似度計算 余弦相似度,歐式距離 文字高效檢...