中文分詞評價指標

準確率(precision)和召回率(recall)

precision = 正確切分出的詞的數目/切分出的詞的總數

recall = 正確切分出的詞的數目/應切分出的詞的總數

綜合性能指標f-measure

fβ = (β2 + 1)*precision*recall/(β2*precision + recall)

β為權重因子，如果將準確率和召回率同等看待，取β = 1，就得到最常用的f1-measure

f1 = 2*precisiton*recall/(precision+recall)

未登入詞召回率(r_oov)和詞典中詞的召回率(r_iv)

r_oov = 正確切分出的未登入詞的數目/標準答案中未知詞的總數

r_iv = 正確切分出的已知詞的數目/標準答案中已知詞的總數

序列標註 9 中文分詞評價指標（續）

由於中文分詞還沒有形成乙個公認的分詞標準，服務於不同目的的分詞系統會對分詞單位有不同的要求，進而導致同一文字可能被不同的人劃分為幾種不同的分詞結果。為了能夠對各類分詞系統進行公正的評價,可以使用一種柔性的評測方案 1 而不是使用閉集測試方法的準確率，召回率等完全匹配的評測指標。具體的，我們首先將分詞...

中文分詞中文分詞及其應用

一中文分詞原理中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類，分別是基於字串匹配的分詞方法基於理解的分詞方法和基於統計的分詞方法。一基於字串匹配的分詞方法基於字串匹配的分詞方法又稱機械分詞方法，它是按...

bilstm crf中文分詞多標準中文分詞模型

這是復旦19年6月剛發的文章，初略看一遍，記筆記。chinese word segmentation簡稱cws 將多標準學習引入到cws，不同分詞標準語料共享common knowledge，能夠互相提公升作者提到應該是第一次從頭開始訓練transformer做分詞任務，避免了rnn和cnn的長依...

中文分詞評價指標

序列標註 9 中文分詞評價指標（續）

中文分詞 中文分詞及其應用

bilstm crf中文分詞 多標準中文分詞模型

相關推薦

中文分詞中文分詞及其應用

bilstm crf中文分詞多標準中文分詞模型