中文單詞的表示以及相似度計算方法

詞的獨熱表示（one-hot representation）

給定乙個詞典：[我，是，計算機專業，的，學生]

1、求給定單詞的表示：

我：[1,0,0,0,0]

計算機專業：[0,0,1,0,0]

學生：[0,0,0,0,1]

每個單詞的長度是詞典的長度，詞典長度為5，對於詞典和第乙個單詞」我「來說，詞典中」我「出現，因此該位置為1，」是「沒有出現，該位置為0，「計算機專業」沒有出現，該位置為0，「的」沒有出現，該位置為0，「學生」沒有出現，該位置為0。因此單詞「我」的表示為[1,0,0,0,0]。

2、求給定句子的表示

給定乙個詞典：[我，去，打，籃球，又，逛街]

boolean representation --在表示時，只要詞典中的詞在句子**現，都標記為1，不管出現幾次。

s = 我去打籃球又去逛街：[1,1,1,1,1,1]

t = 我去打籃球：[1,1,1,1,0,0]

count representation--在表示時，需要標記詞典中的詞在句子**現的頻次，比如，「去」字，出現兩次，在相應位置標記為2.

s = 我去打籃球又去逛街:[1,2,1,1,1,1]

t = 我去逛街：[1,1,0,0,0,1]

詞的分布式表示（distributed representation）

相似度計算方法

假設s = （s1,s2,s3) , t = (t1,t2,t3)

歐式距離 = |s-t| = sqrt((s1-t1)^2+(s2-t2)^2+(s3-t3)^2) ，其值越小，說明兩個句子越相似。

使用boolean representation表示時，s和t句子的相似度為sqrt((1-1)^2+(1-1)^2+(1-1)^2+(1-0)^2+(1-0)^2) = sqrt(2)

余弦相似度 = s*t/(|s|*|t|) s*t是s和t的內積，余弦相似度值越大，說明兩個句子越相似。

使用boolean representation表示時，s和t句子的相似度為(1*1+1*1+1*1+1*1+1*0+1*0)/[sqrt((1)^2+(1)^2+(1)^2+(1)^2+(1)^2+(1)^2)*sqrt((1)^2+(1)^2+(1)^2+(1)^2+(0)^2+(0)^2)] = sqrt(2/3)

中文單詞的表示以及相似度計算方法

計算文字相似度最準的中文文字相似度計算工具

結巴分詞關鍵詞相似度中文文字相似度計算工具集

基於Map Reduce的相似度計算

中文單詞的表示以及相似度計算方法

計算文字相似度 最準的中文文字相似度計算工具

結巴分詞關鍵詞相似度 中文文字相似度計算工具集

基於Map Reduce的相似度計算

相關推薦

計算文字相似度最準的中文文字相似度計算工具

結巴分詞關鍵詞相似度中文文字相似度計算工具集