中文分詞的實現思路

2021-08-22 01:51:08 字數 439 閱讀 6643

在phpe.net論壇上給網友的回貼。

寫寫中文分詞的php實現思路(因為最近正在寫個專案,暫時不能提供源**,不過難度不大),雖然在各方面都還有待完善,但是整個流程還是比較完整的。

首先有關分詞的基礎知識:

分詞技術研究報告

中文搜尋引擎技術揭密:中文分詞

第二. 語料庫的準備

語料庫要加工為詞典,供php程式使用。

第三. 分詞演算法原理

最常用的是最大匹配法和最大概率法,為了加強精確度,避免歧義,可以結合多種演算法。多種演算法結合會導致速度下降,視專案要求採用。

第四. 分詞的php實現

原理見上面推薦的ppt幻燈片,只不過是用php載入詞典檔案,再實現字串的搜尋而已。目前來看,效果還是不錯的,但是效率不太高。沒有辦法,像php這種指令碼語言,要求不能太高。接下來試試先用c寫分詞部份,再用php呼叫,測試一下效率。

Spark Jieba實現中文分詞

本案例使用jieba分詞,jieba 是目前最好的 python 中文分詞元件,使用spark同樣也能實現中文分詞。實現步驟如下 com.huaban jieba analysis 1.0.2 8920397333 王錚亮 時間都去哪了 私人訂製 插曲 8920422333 影視 心上人啊快給我力量...

中文分詞的演算法與實現(結巴分詞)

結巴分詞支援三種分詞模式 1.精確模式,試圖將句子最精確的切開,適合文字分析 2.全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解釋歧義 3.搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。一 分詞 from future import un...

Clucene實現中文分詞搜尋

最近,一陣忙乎,終於在clucene 版本0.9.16 中實現了中文分詞搜尋。一些需要改動的地方如下 一 把專案設定為use unicode character set。因為使用ansi時,漢字存在與其他語言編碼重疊的問題,不能準確判斷是否為漢字。二 src clucene util misc.cp...