字串相似演算法之Soundex

2021-08-26 05:57:44 字數 392 閱讀 1038

soundex是一種語音演算法,利用英文的讀音計算近似值,通過由四個字元組成的**來評估兩個字串的相似性。

soundex字串格式為乙個字母加三個數字,生成規則如下:

提取字串的首字母作為soundex的第一位。

按照下表的規則,將剩餘的字元進行替換,如果有連續的相等數字,則只保留乙個,並去掉數字0。

a e h i o u w y

0b f p v

1c g j k q s x z

2d t3l

4m n5r

6如果結果超過4位則取前4位,不足4位向後補0。

soundex -> s005302 -> s532

algorithmic -> a4206030502 -> a426352 -> a426

字串相似度之編輯距離演算法

字串編輯距離 是一種字串之間相似度計算的方法。給定兩個字串s t,將s轉換成t所需要的刪除,插入,替換操作的數量就叫做s到t的編輯路徑。而最短的編輯路徑就叫做字串s和t的編輯距離。舉個例子 s eeba t abac 我們可以按照這樣的步驟轉變 1 將s中的第乙個e變成a 2 刪除s中的第二個e 3...

相似字串

題目描述 對於僅由小寫字母組成得字串a和b,如果,分別存在乙個小寫字母a到z的排列,使得a中所有字母a替換為排列得第乙個字母,所有字母b替換為排列得第二個字母.所有z替換為排列得最後乙個字母之後,a和b完全相同,那麼稱字串a和b相似,如abcc和xyaa。現在給定僅由小寫字母組成且長度不超過10 5...

java字串相似度演算法

按順序匹配的,如下 判斷兩個字串相似度,可設定level param strsource 原字串 param strcompared 比較字串 param level 評分閥值 param morecount 比較字串比原字串多多少個限制 return public staticboolean is...