文字相似度計算總結篇

先留位

文字相似度概念：

sim(a,b)=logp(common(a,b))/logp(description(a,b))

其中, common(a,b)是a和b的共性資訊, description(a,b)是描述a和b的全部資訊, 公式表達出相似度與文字共性成正相關。

文字相似度計算方法分類如下：

該方法從字串匹配度出發, 以字串共現和重複程度為相似度的衡量標準。根據計算粒度不同, 可將方法分為基於字元(character-based)的方法和基於詞語(term-based)的方法。一類方法單純從字元或詞語的組成考慮相似度演算法, 如編輯距離、漢明距離、余弦相似度、dice係數、歐式距離; 另一類方法還加入了字元順序, 即字元組成和字元順序相同是字串相似的必要條件, 如最長公共子串(longest common substring, lcs)、jaro-winkler; 再一類方法採用集合思想, 將字串看作由詞語構成的集合, 詞語共現可用集合的交集計算, 如n-gram、jaccard、overlap coefficient。表1列出了主要方法, 其中sa、sb表示字串a、b。

文字相似度計算總結篇

計算文字相似度

文字相似度計算

計算文字相似度

文字相似度計算 總結篇

計算文字相似度

文字相似度計算

計算文字相似度

相關推薦

文字相似度計算總結篇