《中文分詞演算法研究》

2021-07-06 08:42:37 字數 510 閱讀 4967

看完了才發現作者是經濟管理學院的。

這是篇08年的**。

目前國內外對於中文分詞的主要研究成果分為以下幾種:正向最大匹配法、反向最大匹配方法、分詞與詞性標註一體化方法、最佳匹配法、專家系統方法、最少分詞詞頻選擇方法、神經網路方法等。

ictclas( institute of computing technology, chinese lexical analysis system)是由中國科學院計算技術研究所研究的基於多層隱馬爾可夫模型hmm的漢語詞法分析系統。

查全率precision =分詞結果中切分正確的總詞數 / 分詞結果中的總詞數

查準率recall =分詞結果中切分正確的總詞數 / 標準文字中的總詞數

f1 = 2 ×precison ×recall / precison +recall

分詞速度=分詞檔案大小 / 分詞所用時間

根據這貨的實驗結果,ictclas的查全率

、查準率、f1比

正向最大匹配法的好,分詞速度慢了點。

中文分詞演算法

基於詞的頻度統計的分詞方法 基於知識理解的分詞方法 中文分詞演算法基本上可以分基於詞典的演算法 詞庫匹配以及基於詞頻的方法 將詞典中所有的詞按照從長到短的順序在文章中進行檢索,直至文章結束。效率比較低 漢字欄位與乙個 充分大 的詞典進行匹配,如果匹配成功,則識別出乙個詞。根據掃瞄方向的不同分為正向匹...

中文分詞演算法

中文分詞演算法現在一般分為三類 基於字串匹配,基於理解,基於統計的分詞。基於字串匹配分詞 機械分詞演算法。將待分的字串與乙個充分大的機器詞典中的詞條進行匹配。分為正向匹配和逆向匹配 最大長度匹配和最小長度匹配 單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有 正向最大匹配,逆向最大匹配,最少...

畢業研究進度之中文分詞

由於平時都要去實習實在抽不出時間去搞這個畢設的研究,所以趁著兩天週末的時間集中精力研讀中文分詞的相關文獻。中文分詞其實也是乙個被許多人做過的課題,並且網上可以隨便搜到不少開源的專案。好吧,經過一系列research,我在這裡總結下現在主流中文分詞的技術。首先我們要回答乙個問題,就是為什麼要進行中文分...