SEO的關鍵之中文分詞

中國的文字博大精深，不同的標點符號，不同的斷句就代表著不同的意思。所以，曾經有一位google的科學家說：「如果可以做好中文搜尋引擎，那麼我們就不怕任何語種的搜尋引擎研究了。」

最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的，一種基於「查字典」的分詞辦法。例如這個句子：「著名導演張藝謀說國慶節晚上將安排十萬人到***聯歡。」

用「查字典」的分詞方法，我們要做的就是把整個句子讀一遍，然後把字典裡有的詞都單獨標示出來，當遇到複合詞的時候(例如北京大學)，就找到最長的詞匹配。遇到不認識的字串就分割成單個文字。根據這樣的辦法，我們以上的文字可以切分為：

「著名 | 導演 | 張藝謀 | 說 | 國慶節 | 晚上 | 將 | 安排 | 十萬人 | 到 | *** | 聯歡」

目前，主流的分詞辦法有兩種，一種是基於統計模型的文書處理，另外一種是基於字串匹配的逆向最大匹配法。

基於統計模型的文書處理

從形式上看，詞是穩定的字的組合，因此在上下文中，相鄰的字同時出現的次數越多，就越有可能構成乙個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計，計算它們的互現資訊。定義兩個字的互現資訊，計算兩個漢字x、y的相鄰共現概率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某乙個閾值時，便可認為此字組可能構成了乙個詞。這種方法只需對語料中的字組頻度進行統計，不需要切分詞典，因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的侷限性，會經常抽出一些共現頻度高、但並不是詞的常用字組，例如「這一」、「之一」、「有的」、「我的」、「許多的」等，並且對常用詞的識別精度差，時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞，同時使用統計方法識別一些新的詞，即將串頻統計和串匹配結合起來，既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

一般來說，我們在seo中使用最多的分詞辦法就是基於字串匹配的逆向最大匹配法。這個辦法其實很簡單。我們以乙個簡單的例子來說明。

「瑞星一直以質量和服務開拓安全市場」。

如果這個句子我們以「查字典」的辦法正向切分的話，就會切分成下面的句子。

「瑞/星/一直/以/質量/和服/務/開拓/安全/市場」

SEO的關鍵之中文分詞

SEO的關鍵之中文分詞

維特比演算法之中文分詞

畢業研究進度之中文分詞

SEO的關鍵之中文分詞

SEO的關鍵之中文分詞

維特比演算法之中文分詞

畢業研究進度之中文分詞

相關推薦