中文分詞評價指標

2021-08-31 22:13:04 字數 416 閱讀 1911

準確率(precision)和召回率(recall)

precision = 正確切分出的詞的數目/切分出的詞的總數

recall = 正確切分出的詞的數目/應切分出的詞的總數

綜合性能指標f-measure

fβ = (β2 + 1)*precision*recall/(β2*precision + recall)

β為權重因子,如果將準確率和召回率同等看待,取β = 1,就得到最常用的f1-measure

f1 = 2*precisiton*recall/(precision+recall)

未登入詞召回率(r_oov)和詞典中詞的召回率(r_iv)

r_oov = 正確切分出的未登入詞的數目/標準答案中未知詞的總數

r_iv = 正確切分出的已知詞的數目/標準答案中已知詞的總數

序列標註 9 中文分詞評價指標(續)

由於中文分詞還沒有形成乙個公認的分詞標準,服務於不同目的的分詞系統會對分詞單位有不同的要求,進而導致同一文字可能被不同的人劃分為幾種不同的分詞結果。為了能夠對各類分詞系統進行公正的評價,可以使用一種柔性的評測方案 1 而不是使用閉集測試方法的準確率,召回率等完全匹配的評測指標。具體的,我們首先將分詞...

中文分詞 中文分詞及其應用

一 中文分詞原理 中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類,分別是基於字串匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。一 基於字串匹配的分詞方法 基於字串匹配的分詞方法又稱機械分詞方法,它是按...

bilstm crf中文分詞 多標準中文分詞模型

這是復旦19年6月剛發的文章,初略看一遍,記筆記。chinese word segmentation簡稱cws 將多標準學習引入到cws,不同分詞標準語料共享common knowledge,能夠互相提公升 作者提到應該是第一次從頭開始訓練transformer做分詞任務,避免了rnn和cnn的長依...