Spider抓取細節中文分詞的兩個核心步驟！

分詞是中文搜尋引擎中特有的技術。在英文中以單詞為單位，單詞之間會有空格，並且每個單詞都有特定的意思，計算機很容易理解英文語句的意思。但是中文以字為單位，只有將一句話中所有的字串聯起來才能表達乙個個完整的意思。計算機不能直接把中文分成單個字來理解，所以就需要引入中文分詞技術，把一句話切分成乙個個有意義的詞語來進行理解。比如把「我是乙個學生」切分成「我是/乙個/學生」。

搜尋引擎面對中文網頁時就是這樣，靠中文分詞來理解網頁所描述的內容。其實分詞技術的基礎就是擁有海量的有意義的詞庫(詞典)，搜尋引擎會使用自己強大的詞庫來對網頁內容進行拆分，或者是對內容進行機械切割，統計出出現次數最多的詞。通過分詞就可以使得搜尋引擎明白該網頁內容是與什麼相關的，這會直接決定該網頁出現在哪些詞的搜尋結果中，所以中文分詞在seo工作中也是需要潛心研究的。現在很多seo人員只是知道有這麼個技術，但是對這項技術具體是怎麼進行分詞的，以及中文分詞是怎麼運用到seo工作中的還無所知。

1.基於詞典匹配

這種分詞技術是使用搜尋引擎自己的詞典對網頁內容進行拆分。按照匹配方向的不同可以分為正向匹配和逆向匹配:按照不同長度優先匹配的不同可以分為最長匹配和最短匹配。常見的三種匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

不論使用什麼樣的匹配方式，都是使用搜尋引擎已有的詞典，對網頁內容進行拆分理解。這種分詞方式的準確度取決於詞典的完整性和更新情況。如果當- 個新詞出現時，搜尋引擎沒有及時把該詞加入到詞典中，那麼就會影響最終的分詞精度。尤其是在網路如此發達的今天，幾乎每天都有新詞出現。

2.基於統計

這種分詞技術不依靠詞典，而是對大量文字樣本進行分析，然後把相鄰出現次數比較多的幾個字當成一乙個詞來處理。基於統計的分詞方法在一定程度上解決了搜尋引擎詞典更新的問題，並且有利於消除歧義。

在當前的搜尋引擎中文分詞中多多少少都會存在著一些難題沒有解決，這可能是因為漢語真的太博大精深了，在當下計算機根本不可能完全理解。比如，網路上流傳的兩句話「以前喜歡乙個人，現在喜歡乙個人」「以前誰都看不上，現在誰都看不上」，有些人第一-眼看到這兩句話也不太理解，相信搜尋引擎在短期內也不會真正理解這兩句話。

Spider抓取細節中文分詞的兩個核心步驟！

中文分詞的方法

asp 的中文分詞

中文分詞基於字標註法的分詞

Spider抓取細節 中文分詞的兩個核心步驟！

中文分詞的方法

asp 的中文分詞

中文分詞 基於字標註法的分詞

相關推薦

Spider抓取細節中文分詞的兩個核心步驟！

中文分詞基於字標註法的分詞