海量資料相似性度量與聚類 LHS MinHash

寫本文的原因是近期在涉獵使用者畫像相關的無監督學習理論，剛好看到一篇運用lhs-minhash做使用者聚類的文章，卻講得過於籠統，對我這樣的萌新（菜雞）不太友好。於是我去搜尋了關於lhs-minhash和simhash的相關部落格，有的寫得非常不負責，甚至誤導了我，有的寫的比較詳細，但部分細節總感覺有點斷片，好像漏掉了什麼。同時，這些部落格的內容比較相似，原以為是互相借鑑的，後來發現它們都是複述stanford的大資料課程，又沒寫清楚。因此我也來總結一篇，只求我自己搞清楚lhs-minhash的原理和用途。因此，本篇文章的大部分內容將源於stanford課程（下稱課程）mining of massive datasets的第三章，有興趣的同學可以自行查閱。

對待社交網路中每天都在更新的千億級別的無標籤資料，傳統的聚類方法效率太低了，比方說kmeans，每個樣本都必須與所有候選中心計算相似度，才能進行歸類，因此演算法的時間複雜度是o(

nk) o(n

k)，其中k k

是聚類數，

n' role="presentation" style="position: relative;">n

n是樣本數（上千億），太奢侈了，根本無法實現日均多次滾動，無法上線或產品化。聚類的核心是「發現相似物品」，這與其他的一些問題是異曲同工的，比如社群檢測（community detection），海量資料查重等等。stanford課程中舉的例子就是海量網頁的查重，為了高效地解決這個問題，課程依次提出了「shingling」和「minhash」演算法，而針對資料量過大的問題，提出了「lsh hashing」，本文也將挑取其中的「minhash」和「lsh hashing」進行總結。ja

對於乙個網頁（或文章），我們可以用word2vec、用bow、用k-shingle來表達，這些方法無一例外地占用非常大的空間，使得文章本身的儲存就是乙個問題，更不要提文章之間的相似度運算了。如果將word看成特徵，那麼文章就是在乙個高維詞空間中的向量，對於這樣一種資料表達，很容易想到對它進行降維，minhash正是這麼乙個思路。為了講清楚minhash，首先要定義一種集合的矩陣表達。

假設全集為

，四個子集分別是 s1

= s1=

，s2= s2=

，s3= s3=

，s4= s4=

。則可以定義乙個叫「characteristic matrix」的矩陣c(

r,c)

c (r

,c)，矩陣的列對應乙個子集，矩陣的行對應全集裡的乙個元素，若第

c c

個子集中包含元素

r' role="presentation" style="position: relative;">rr，則

c(r,

c)=1

c (r

,c)=

1，否則c(

r,c)

=0c (r

,c)=

0，如下圖所示。為了方便理解，可以將characteristic matrix的行看成物品（product），列看成使用者（customer），該矩陣的意義即使用者的購買歷史列表。顯然，characteristic matrix是乙個極度稀疏的高維矩陣。

為了方便解釋，下面都把子集稱為「使用者」，把元素稱為「商品」好了。所謂「minhash」（最小雜湊），就是指將上面的characteristic matrix的行隨機打亂，然後取每一列中第乙個非零元素的行號作為該使用者的「minhash value」（最小雜湊值），進行

d d

次打亂產生

d' role="presentation" style="position: relative;">d

d個「minhash value」，構成該使用者的「minhash signature」（最小雜湊簽名）向量，由於簽名向量的維度通常遠低於商品個數，因此相當於做了降維。使用降維的特徵向量來衡量使用者之間的相似度。

以上是minhash的綜述，光這麼講很難理解，下面給出乙個例子。假設隨機打亂函式

h h

，將矩陣的行順序變成了be

adc' role="presentation" style="position: relative;">bea

dcbe

adc，如下圖所示，s1

1列的首個非零元素是

a a

，則用a' role="presentation" style="position: relative;">aa作為

s1s

1的簽名，即h(

s1)=

a h(s

1)=a

。同理，可以得到h(

之所以稱之為「minhash」，我認為，characteristic matrix的每一列都可以看作是對乙個使用者的雜湊化，不同的行排列方式能獲得不一樣的雜湊串，如果兩個使用者的購買列表足夠相似，那麼兩個雜湊串也將是很相似的。而「最小」體現在取「第乙個非零元素的所在行」。為什麼要費盡心思定義這樣乙個奇怪的雜湊值呢？

是由於乙個神奇的定理：兩個集合的minhash值相等的概率，等於這兩個集合的jaccard相似度。

首先證明該定理。現在我們拿s1

1和s2

2為例，為它們的characteristic matrix行的構成定義三種情況：

x x

，y' role="presentation" style="position: relative;">yy和

z z

。

海量資料相似性度量與聚類 LHS MinHash

相似性度量聚類

相似性度量聚類

聚類演算法概述1 相似性度量

海量資料相似性度量與聚類 LHS MinHash

相似性度量 聚類

相似性度量 聚類

聚類演算法概述1 相似性度量

相關推薦

相似性度量聚類

相似性度量聚類