現有的分詞演算法，主要分為哪三大類？

1、基於字串匹配的分詞方法

這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與乙個「充分大的」機器詞典中的詞條進行配，若在詞典中找到某個字串，則匹配成功（識別出乙個詞）。按照掃瞄方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；按照是否與詞性標註過程相結合，又可以分為單純分詞方法和分詞與標註相結合的一體化方法。常用的幾種機械分詞方法如下；

1）、正向最大匹配

2）、逆向最大匹配

3）、最少切分（使每一句中切出的詞數最小）

對於機械分詞方法，可以建立乙個一般的模型，形式地表示為asm(d,a,m)，即automatic segmentation model。其中，

d：匹配方向，+1表示正向，-1表示逆向；

a：每次匹配失敗後增加/減少字串長度（字元數），+1為增字，-1為減字；

m：最大/最小匹配標誌，+1為最大匹配，-1為最小匹配。

例如，asm(+, -, +)就是正向減字最大匹配法（即mm方法），asm(-, -, +)就是逆向減字最大匹配法(即rmm方法)，等等。對於現代漢語來說，只有m=+1是實用的方法。用這種模型可以對各種方法的複雜度進行比較，假設在詞典的匹配過程都使用順序查詢和相同的計首字索引查詢方法，則在不記首字索引查詢次數（最小為log《漢字總數》 » 12~14）和詞典讀入記憶體時間的情況下，對於典型的詞頻分布，減字匹配asm(d,-,m)的複雜度約為12.3次，增字匹配asm(d,+,m)的複雜度約為10.6。

另外，還可以證明，早期曾流行一時的「切分標誌字串」預處理方法是乙個毫無必要的技術，它增加了一遍掃瞄「切分標誌詞典」的時空複雜性，卻並沒有提高分詞精度，因為所謂的切分標誌其實都已經隱含在詞典之中，是對詞典功能的重複。實際上「切分標誌」也沒有標記歧義欄位的任何資訊。因此，在近來的分詞系統中，已經基本上廢棄了這種「切分標誌」預處理方法。

2、基於理解的分詞方法

通常的分析系統，都力圖在分詞階段消除所有歧義切分現象。而有些系統則在後續過程中來處理歧義切分問題，其分詞過程只是整個語言理解過程的一小部分。其基本思想就是在分詞的同時進行句法、語義分析，利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性，難以將各種語言資訊組織成機器可直接讀取的形式，因此目前基於理解的分詞系統還處在試驗階段。

3、基於統計的分詞方法

從形式上看，詞是穩定的字的組合，因此在上下文中，相鄰的字同時出現的次數越多，就越有可能構成乙個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計，計算它們的互現資訊。定義兩個字的互現資訊為：，其中是漢字x、y的相鄰共現概率，、分別是x、y在語料**現的概率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某乙個閾值時，便可認為此字組可能構成了乙個詞。這種方法只需對語料中的字組頻度進行統計，不需要切分詞典，因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的侷限性，會經常抽出一些共現頻度高、但並不是詞的常用字組，例如「這一」、「之一」、「有的」、「我的」、「許多的」等，並且對常用詞的識別精度差，時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統計方法識別一些新的詞，即將串頻統計和串匹配結合起來，既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視，均為前沿產業，多智時代專注於人工智慧和大資料的入門和科譜，在此為你推薦幾篇優質好文：

如何快速入門nlp自然語言處理概述

自然語言理解過程主要有哪些層次，各層次的功能是怎麼樣？

從語言學到深度學習nlp，一文概述自然語言處理

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

現有的分詞演算法，主要分為哪三大類？

雲計算建設，主要劃分為哪三個階段？

大資料學習根據應用目標，主要可以劃分為哪三個階段？

對於大資料採集系統，主要分為哪三類系統？

現有的分詞演算法，主要分為哪三大類？

雲計算建設，主要劃分為哪三個階段？

大資料學習根據應用目標，主要可以劃分為哪三個階段？

對於大資料採集系統，主要分為哪三類系統？

相關推薦