分詞效果的評測演算法(原創)

2021-07-26 01:32:31 字數 1004 閱讀 7196

一、背景:菜鳥一枚,boss讓對不同的分詞工具進行測評,發現網上很多都是楊尚川同志的完美率計算法,boss不太滿意,只能自己寫了。

二、適用範圍:hanlp中的索引分詞不適用,其餘均可,ltp、nipir均可。

廢話不說,上演算法:

/**計算正確率的核心演算法*/

public class evaluationtools

resultbufferedreader.close();

standardbufferedreader.close();

return resultnum;

}/**根據每行的結果,計算分詞效果

* @param  resultline:分詞結果(行)

* @param  standardline:分詞標準答案(行)

* @param  resultnum:正確分詞的數量*/

public static void computeline(string resultline,string standardline,resultnum resultnum)

}            

passstandard+=standsrdstrings[i];

}standsrdstrings=null;

resultstrings=null;        

}public static void main(string args) throws ioexception    

}//用到的分級結果類

public class resultnum

}備註:

1、compute()中傳入經過分詞處理後,輸出的檔案,要求詞和詞之間適用空格分開

2、 string standardfilename="e:/nlp/中文分詞評測語料/616500/中文分詞評測測試+訓練語料/中文分詞評測測試語料(山西大學提供)/測試語料答案(ansi格式).txt";

為自己本地的答案文字的絕對路徑。

3、分詞效果:

答案文字:

指代消解評價指標 共指消解評測演算法

共指消解的評價方法和演算法非常重要,它不但可以給出不同系統之間效能優劣的指標,同時能為進一步提高系統效能指明方向。乙個好的用於評價共指消解效能的標準應該具備兩點一是辨別能力二是解釋能力。前者是指能夠判斷出系統共指關係消解處理好壞的能力後者是指具備對評價結果合理直觀解釋的能力。muc評測演算法 muc...

中文表示什麼 輕鬆搞懂中文分詞的評測

中文分詞指的是將一段文字拆分為一系列單詞的過程,這些單詞順序拼接後等於原文本。中文分詞操作是中文資訊處理的第一站,中文分詞效果的好壞直接影響後續自然語言處理任務。在中文分詞任務中,一般使用在標準資料集上詞語級別的精準率 召回率以及f1值來衡量分詞器的準確程度,這三種指標通常用於衡量分類器的準確程度。...

中文分詞的演算法與實現(結巴分詞)

結巴分詞支援三種分詞模式 1.精確模式,試圖將句子最精確的切開,適合文字分析 2.全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解釋歧義 3.搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。一 分詞 from future import un...