中文分詞演算法

2021-07-06 04:07:31 字數 1085 閱讀 7019

基於詞的頻度統計的分詞方法

基於知識理解的分詞方法

中文分詞演算法基本上可以分基於詞典的演算法、詞庫匹配以及基於詞頻的方法

將詞典中所有的詞按照從長到短的順序在文章中進行檢索,直至文章結束。效率比較低

漢字欄位與乙個「充分大」的詞典進行匹配,如果匹配成功,則識別出乙個詞。根據掃瞄方向的不同分為正向匹配和逆向匹配。根據不同長度優先匹配的情況,分為最大(最長)匹配和最小(最短)匹配。

假定分詞詞典中的最長詞有i個漢字字元,則用被處理文件的當前字串中的前i個字作為匹配字段,查詢字典。若字典中存在這樣的乙個i字詞,則匹配成功,匹配欄位被作為乙個詞切分出來。如果詞典中找不到這樣的乙個i字詞,則匹配失敗,將匹配欄位中的最後乙個字去掉,對剩下的字串重新進行匹配處理…… 如此進行下去,直到匹配成功,即切分出乙個詞或剩餘字串的長度為零為止。這樣就完成了一輪匹配,然後取下乙個i字字串進行匹配處理,直到文件被掃瞄完為止。

逆向最大匹配法從被處理文件的末端開始匹配掃瞄,每次取最末端的2i個字元(i字字串)作為匹配字段,若匹配失敗,則去掉匹配欄位最前面的乙個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文件進行倒排處理,生成逆序文件。然後,根據逆序詞典,對逆序文件用正向最大匹配法處理即可。

將正向最大匹配法與逆向最大匹配法組合。先根據標點對文件進行粗切分,把文件分解成若干個句子,然後再對這些句子用正向最大匹配法和逆向最大匹配法進行掃瞄切分。如果兩種分詞方法得到的匹配結果相同,則認為分詞正確,否則,按最小集處理。

它不依靠詞典,而是將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是乙個詞。它首先切分出與詞表匹配的所有可能的詞,運用統計語言模型和決策演算法決定最優的切分結果。它的優點在於可以發現所有的切分歧義並且容易將新詞提取出來。

基於句法、語法分析,並結合語義分析,通過對上下文內容所提供資訊的分析對詞進行定界,它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性,難以將各種語言資訊組織成機器可直接讀取的形式。因此目前基於知識的分詞系統還處在試驗階段。

參考

中文分詞演算法

中文分詞演算法現在一般分為三類 基於字串匹配,基於理解,基於統計的分詞。基於字串匹配分詞 機械分詞演算法。將待分的字串與乙個充分大的機器詞典中的詞條進行匹配。分為正向匹配和逆向匹配 最大長度匹配和最小長度匹配 單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有 正向最大匹配,逆向最大匹配,最少...

《中文分詞演算法研究》

看完了才發現作者是經濟管理學院的。這是篇08年的 目前國內外對於中文分詞的主要研究成果分為以下幾種 正向最大匹配法 反向最大匹配方法 分詞與詞性標註一體化方法 最佳匹配法 專家系統方法 最少分詞詞頻選擇方法 神經網路方法等。ictclas institute of computing technol...

中文分詞演算法筆記

中文分詞基本演算法主要分類 基於詞典的方法 基於統計的方法 基於規則的方法 傳說中還有基於理解的 神經網路 專家系統,按下不表 1 基於詞典的方法 字串匹配,機械分詞方法 定義 按照一定策略將待分析的漢字串與乙個 大機器詞典 中的詞條進行匹配,若在詞典中找到某個字串,則匹配成功。按照掃瞄方向的不同 ...