區域性敏感雜湊演算法

2021-10-19 09:37:42 字數 690 閱讀 8653

*該演算法是一種衡量文字相似度的演算法,下面介紹一下這個演算法的主要思想。

假設我們有三段文字:

1,我愛你中國。

2,我愛北京天安門。

3,我愛吃蘋果

一,分詞,形成如下矩陣:

文字 1 文字 2 文字 3

我 1 1 1

愛 1 1 1

你 1 0 0

中國 1 0 0

北京 0 1 0

天安門 0 1 0

吃 0 0 1

蘋果 0 0 1

二,將我們的向量分成n段,每一段通過hash函式計算出乙個值放入桶中。

分段的原因是,讓不同的文字有機會分到同乙個桶當中。

三,api寫法

val brpls =

new bucketedrandomprojectionlsh(

) brpls.setinputcol(

"features"

) brpls.setoutputcol(

"hashes"

)//桶個數

brpls.setbucketlength(

10.0

)val model = brpls.fit(train)

區域性敏感雜湊LSH

參考資料 簡單介紹 在茫茫人海中發現相似的你 區域性敏感雜湊 lsh 基本思想 區域性敏感雜湊的基本思想類似於一種空間域轉換思想,lsh演算法基於乙個假設,如果兩個文字在原有的資料空間是相似的,那麼分別經過雜湊函式轉換以後的它們也具有很高的相似度 相反,如果它們本身是不相似的,那麼經過轉換後它們應仍...

區域性敏感雜湊 原始LSH C 實現

之前專案中用到lsh演算法來做特徵檢索,對lsh演算法很好奇,最近看了lsh的 依照自己的理解,初步寫了lsh 測試效果不是特別理想,引數的選擇也基本靠嘗試,姑且先把 放上來,之後再改進吧 2016.01.24 include include include include using namesp...

區域性敏感雜湊之分層法與雜湊碼法

學到現在越來越感覺計算機網路 作業系統的重要性,組成原理到沒感覺出來,求推薦資料,我想要的是描述性解釋,教材不是我想要的,謝謝!感覺自己的知識很老舊,在沒有出國也沒去高水平大學的條件下,只能通過網路學習了,感謝。在檢索技術中,索引一直需要研究的核心技術。當下,索引技術主要分為三類 基於樹的索引技術 ...