網路營銷教程 SEO 第二章 搜尋引擎(第二節)

2022-02-25 05:13:44 字數 2326 閱讀 4329

第二節 搜尋引擎的中文分詞技術

中文自動分詞是網頁分析的基礎。在網頁分析的過程中,中文與英文的處理方式是不同的,這是因為中文資訊與英文資訊有乙個明顯的差別: 英文單詞之間有空格,而中文文字中詞與詞之間沒有分割符。這就要求在對中文網頁進行分析之前,先要將網頁中的句子切割成乙個個的詞的序列,這就是中文分詞。中文自動分詞涉及到許多自然語言處理技術和評價標準,在搜尋引擎中,我們主要關心中文自動分詞的速度和準確度。分詞準確性對搜尋引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對於搜尋引擎來說也是不可用的,因為搜尋引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜尋引擎內容更新的速度。因此,搜尋引擎對分詞的準確性和速度都提出了很高的要求。

目前,中文自動分詞比較成熟的技術是基於分詞詞典的機械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進行匹配。根據匹配策略的不同,機械分詞方法又有如下幾種演算法: 正向最大匹配演算法、逆向最大匹配演算法、最少分詞演算法等。這種方法的優點是分詞的速度快,準確度有一定的保證,但對未登入詞的處理效果較差。實驗結果表明: 正向最大匹配的錯誤率為1/169左右,逆向最大匹配的錯誤率為1/245左右。另一種比較常用的中文自動分詞方法是基於統計的分詞方法,這種方法是對語料中的字組頻度進行統計,不需要切分詞典,因此也稱為無詞典分詞方法。但該方法經常把不是詞的常用字組當成詞,對常用詞的識別精度較差,時空開銷也比較大。在搜尋引擎領域的實際應用中,一般將機械分詞方法與統計分詞方法相結合,先進行串匹配分詞,然後使用統計方法識別一些未登入的新詞,這樣既發揮了匹配分詞速度快、效率高的優勢,又利用了統計分詞中新詞自動識別和自動消除分詞歧義的特點。

分詞詞典是影響中文自動分詞的乙個重要因素,其規模一般在6萬條詞左右,詞典太大或太小都是不合適的; 辭典太小,有些詞切分不出來,辭典太大,切分過程中起義現象將大大增加,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴格的。對於不斷出現新詞的網路領域,僅僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導致分詞精度下降,一般的解決方法是使用輔助詞典,其規模在50萬詞條左右。另外,中文自動分詞的難點在於分詞歧義的處理和未登入詞的識別,如何處理這兩個問題一直是該領域研究的熱點。

1、歧義處理

歧義是指可能有兩種或者更多的切分方法。例如: 「表面的」這個片語,因為「表面」和「面的」都是詞,那麼這個短語就可以分成「表面+的」和「表+面的」。這種稱為交叉歧義。像這種交叉歧義十分常見,「化妝和服裝」可以分成「化妝+和+服裝」或者「化妝+和服+裝」。由於沒有人的知識去理解,計算機很難知道到底哪個方案正確。

交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必須根據整個句子來判斷了。

例如,在句子「這個門把手壞了」中,「把手」是個詞,但在句子「請把手拿開」中,「把手」就不是乙個詞; 在句子「將軍任命了一名中將」中,「中將」是個詞,但在句子「產量三年中將增長兩倍」中,「中將」就不再是詞。這些詞計算機又如何去識別?

即使交叉歧義和組合歧義計算機都能解決的話,在歧義中還有乙個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應該是詞、哪個應該不是詞。例如: 「桌球拍賣完了」,可以切分成「桌球+球拍+賣+完+了」、也可切分成「桌球+拍賣+完+了」,如果沒有上下文其他的句子,恐怕誰也不知道「拍賣」在這裡算不算乙個詞。

對歧義現象的處理方法一般採用類似於動態規劃的演算法將歧義問題的求解轉化為乙個優化問題的求解。在求解過程中,一般使用詞頻或概率等輔助資訊求得乙個最大可能的分詞結果,這個結果在某種意義下是最佳的。

2、 未登入詞處理

未登入詞就是分詞詞典中沒有的詞,也稱為新詞。最典型的是人名、地名、專業術語等。例如,人可以很容易理解句子「王軍虎去廣州了」中,「王軍虎」是個詞,因為是乙個人的名字,但要是讓計算機去識別就困難了。如果把「王軍虎」作為乙個詞收錄到字典中去,全世界有那麼多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如: 在句子「王軍虎頭虎腦」中的,「王軍虎」還能不能算詞?

未登入詞中除了人名以外,還有機構名、地名、產品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經常使用的詞,因此對於搜尋引擎來說,分詞系統中的新詞識別十分重要。目前,對未登入詞的處理一般採用統計的方法,首先從語料中統計出出現頻率較高的字組,然後按照某種規則把它們作為新詞新增到輔助詞典中。

目前,中文自動分詞技術在搜尋引擎中已經得到廣泛應用,分詞準確度已經達到96%以上,但是在對大規模網頁進行分析處理的時候,現有的中文自動分詞技術還存在許多不足,例如上面提到的歧義問題和未登入詞的處理問題等。因此,國內外的科研院校,如北大、清華、中科院、北京語言學院、東北大學、ibm研究院、微軟中國研究院等都一直關注並研究中文自動分詞技術,這主要是因為網路上的中文資訊越來越多,對網路上的中文資訊的處理必將成為乙個巨大的產業和廣闊的市場,存在無限的商機。但是,中文自動分詞技術要想更好地服務於網路中文資訊的處理並形成產品,還要在基礎研究方面和系統的整合方面做許多任務作。

網路營銷教程 SEO 第二章 搜尋引擎(第一節)

圖3搜尋引擎抓取網頁過程 一 蒐集器 四 檢索器 檢索器的功能是根據使用者的查詢在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種使用者相關性反饋機制。檢索器常用的資訊檢索模型有集合理論模型 代數模型 概率模型和混合模型等多種,可以查詢到文字資訊中的任意字詞,無...

《網路營銷教程 SEO》 第三章搜尋引擎營銷

網路營銷教程 seo 中國站長站 chinaz.com 獨家 發布。如有 或作他用,敬請聯絡該書權益人張棟偉。第一節 什麼叫搜尋引擎營銷 一 搜尋引擎營銷的定義 搜尋引擎營銷,是英文search engine marketing的翻譯,簡稱為sem。簡單來說,搜尋引擎營銷就是基於搜尋引擎平台的網路營...

網路營銷教程 SEO 第一章 網路營銷(下)

首先,我覺得有必要提出blog營銷的乙個基本原則,那就是文章的可讀性。這個原則很重要,如果脫離了這個原則,那寫出的文章就已經不是blog營銷所需求的了。在執行blog營銷過程中,blog上應該發表什麼型別的文章已經哪些人可以參與其中?如何把握blog營銷寫作的核心?很簡單,那就是立足於本行業。乙個企...