python字串相似度對比

2021-10-05 13:32:49 字數 893 閱讀 5327

import difflib

def string_similar(s1, s2):

return difflib.sequencematcher(none, s1, s2).quick_ratio()

print(string_similar('愛爾眼科滬濱醫院', '滬濱愛爾眼科醫院'))

print(string_similar('北戴河阿那亞隱廬酒店', '北戴河阿那亞隱廬酒店'))

print(string_similar('北戴河阿那亞隱廬酒店', '北戴河阿那亞隱廬酒店式公寓'))

print(string_similar('安定區婦幼保健站', '定西市安定區婦幼保健站'))

print(string_similar('廣州市醫院', '廣東省中醫院'))

print(string_similar('北京北辰五洲皇冠國際酒店', '北京北辰洲際酒店'))

print(string_similar('北京釣魚台大酒店', '百時快捷酒店(北京西釣魚台地鐵站店)'))

print(string_similar('clubmed joyview北戴河**海岸度假村', 'club med joyview北戴河**海岸度假村'))

print(string_similar('張家口太舞滑雪小鎮太舞酒店', '張家口太舞滑雪小鎮雪麓居酒店'))

對比結果

1.0

1.00.8695652173913043

0.8421052631578947

0.5454545454545454

0.80.5384615384615384

0.9411764705882353

0.8148148148148148

Java 對比兩字串的相似度

編輯距離演算法,首先由 科學家levenshtein提出的,又叫levenshtein distance 主要用來計算從原串 s 轉換到目標串 t 所需要的最少的插入,刪除和替換的數目,在nlp中應用比較廣泛,同時也常用來計算你對原文所作的改動數 public class levenshtein e...

字串相似度

這個演算法 於網上,但忘記了出處,對其使使用了 issame封裝,然後用在了自己的網頁資料抓取 中。求解兩個字串的相似度int calculatestringdistance const string stra,const string strb intret c lena 1 lenb 1 for...

字串相似度

最近要對字串進行聚類,這些字串都是 的輸出,嘗試了幾種字串相似度度量的方法 levenshtein距離 字串核函式 lcs max len str1,str2 其中相似度用公式distance 1.0 similarity 1轉換為距離.使用層次聚類方法.下面是要聚類的字串 points aabbc...