文字聚類平移演算法的幾點問題

2021-04-12 12:06:35 字數 738 閱讀 8541

文字聚類平移演算法的幾點問題

文字處理,我的最愛---題記

大概乙個月前 10b lobster 也和我聊起過盧亮介紹過的平移演算法,

詳細的介紹可以看這裡:盧亮的blog

。記得當時第二天就看到了carrot2的發布,

carrot2 上使用了多種聚類的演算法。

有些人對平移演算法嗤之以鼻,比如這位。在我看來,乙個演算法有沒有效果,要看這個演算法的前提和假設,大炮打小鳥怎麼瞄也不帶勁兒。在文字處理領域中,比如,中文分詞,特別是文字聚類的演算法上從來沒有乙個演算法可以解決所有問題,很多解決方案都是採用多個演算法取長補短來達到綜合效果的。

昨天寫關於標籤和書籤的blog時想到,在改善新聞閱讀器的文章分類也許平移演算法用的上。週末便用了半天做了乙個單向移動的平移演算法。

平移演算法,要考慮這個演算法適用的範圍,這個是前提。我實現的平移演算法和盧亮的目的不同,類似於我的:未登入詞識別

在演算法的具體設計上,還需要考慮以下幾個問題:

1、視窗大小,視窗借用了tcp發包的視窗的概念,就是確認有效匹配的長度;

2、平移的方向。我下面例子只實現了單向移動;

3、效率問題,平移演算法涉及了大量的比較,找到乙個最短的比較邊界還挺重要;

下面是乙份平移演算法的原始結果,找出所有it公司的人名,感覺還可以。進一步處理後,就可以投入實際應用了:

怎麼樣感覺還可以吧。

我正在實現乙個新聞句子提取引擎,做好後放到新聞閱讀器裡,這樣檢視高燃語錄(2005-2006語錄)的時候,可能會更方便。

文字聚類平移演算法的幾點問題

文字聚類平移演算法的幾點問題 文字處理,我的最愛 題記 大概乙個月前 10b lobster 也和我聊起過盧亮介紹過的平移演算法,詳細的介紹可以看這裡 盧亮的blog 記得當時第二天就看到了carrot2的發布,carrot2 上使用了多種聚類的演算法。有些人對平移演算法嗤之以鼻,比如這位。在我看來...

文字挖掘之聚類演算法之CLARA聚類演算法

clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...

基本k mean聚類的文字聚類演算法原理和例子

基於質心的劃分方法是研究最多的演算法,包括k mean聚類演算法及其各種變體,這些變體依據初始簇的選擇,物件的劃分 相識度的計算方法 簇中心的計算方法不同而不同。基於質心的劃分方法將簇中所有物件的平均值看做簇的質心,根據乙個資料物件與簇質心的距離,將該物件賦予最近的簇。在這類方法中,需要給定劃分的簇...