ICTCLAS分詞系統研究(三) 原子切分

2021-04-03 00:01:03 字數 642 閱讀 3044

ictclas分詞的第一步就是原子分詞。但在進行原子切分之前,首先要進行斷句處理。所謂斷句,就是根據分隔符、回車換行符等語句的分隔標誌,把源字串分隔成多個稍微簡單一點的短句,再進行分詞處理,最後再把各個分詞結果合起來,形成最終的分詞結果。

分成短句之後,即可進行原子分詞,所謂原子,是指該短句中不可分割的最小語素單位。乙個漢字、短句前後的開始結束標識字段、全形標點符號、連在一起的數字字母單位元組字元等。最後一種情況可以舉例說明,比如:三星shx-132型號的手機1元錢,則shx-132、1都是乙個原子,其它的每個漢字是乙個原子。

按照這種方式,通過簡單的漢字分割就形成了原子分詞的結果,並對每個原子單位進行詞性標註。npos=1表示是開始標記,npos=4表示結束標記,npos=0表示未識別詞。原子分割後的資料結構如下圖一所示:

圖一原子分詞後的例項如下圖二所示:

圖二經過原子分詞之後,下面即可進行初次分詞。參見分詞系統研究(四)。

ICTCLAS分詞系統研究(五) N最短路徑

ictclas和別的分司系統不一樣的地方就是於 n最短路徑分詞演算法。所謂n最短路徑其實就是最短路徑和最大路徑的折中,保留前n個最優路徑。這樣做的目的就是對這兩種方法取長補短,既能達到乙個比較理解的分詞不達意效果,又能保證分詞不達意速度。在此處,我們中國人的中庸思想被完美體現 在n 最短路徑求解之前...

DOS系統研究

這裡說的特指ms dos,一款由微軟從seattle computer products購買來的針對16位8086 8088系列處理器的作業系統。它隨著由16位的80x86處理器的桌面電腦的普及而成為曾經的主流作業系統,但是當更先進的處理器在桌面電腦中流行後,它的主流地位也讓位於其他更成熟的作業系統...

ACARS系統研究

1 概述 acars aircraftcommunication addressing reporting systems 飛機通訊定址報告系統,美國arinc公司開發,採用迴圈冗餘校驗碼 crc 進行校驗。航空器與地面站之間通過無線電或衛星傳輸短訊息 報文 的數字資料鏈系統。具有傳輸速度快 抗干擾...