Spider抓取細節 中文分詞的兩個核心步驟!

2021-09-13 14:50:31 字數 1004 閱讀 3273

分詞是中文搜尋引擎中特有的技術。在英文中以單詞為單位,單詞之間會有空格,並且每個單詞都有特定的意思,計算機很容易理解英文語句的意思。但是中文以字為單位,只有將一句話中所有的字串聯起來才能表達乙個個完整的意思。計算機不能直接把中文分成單個字來理解,所以就需要引入中文分詞技術,把一句話切分成乙個個有意義的詞語來進行理解。比如把「我是乙個學生」切分成「我是/乙個/學生」。

搜尋引擎面對中文網頁時就是這樣,靠中文分詞來理解網頁所描述的內容。其實分詞技術的基礎就是擁有海量的有意義的詞庫(詞典),搜尋引擎會使用自己強大的詞庫來對網頁內容進行拆分,或者是對內容進行機械切割,統計出出現次數最多的詞。通過分詞就可以使得搜尋引擎明白該網頁內容是與什麼相關的,這會直接決定該網頁出現在哪些詞的搜尋結果中,所以中文分詞在seo工作中也是需要潛心研究的。現在很多seo人員只是知道有這麼個技術,但是對這項技術具體是怎麼進行分詞的,以及中文分詞是怎麼運用到seo工作中的還無所知。

1.基於詞典匹配

這種分詞技術是使用搜尋引擎自己的詞典對網頁內容進行拆分。按照匹配方向的不同可以分為正向匹配和逆向匹配:按照不同長度優先匹配的不同可以分為最長匹配和最短匹配。常見的三種匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

不論使用什麼樣的匹配方式,都是使用搜尋引擎已有的詞典,對網頁內容進行拆分理解。這種分詞方式的準確度取決於詞典的完整性和更新情況。如果當- 個新詞出現時,搜尋引擎沒有及時把該詞加入到詞典中,那麼就會影響最終的分詞精度。尤其是在網路如此發達的今天,幾乎每天都有新詞出現。

2.基於統計

這種分詞技術不依靠詞典,而是對大量文字樣本進行分析,然後把相鄰出現次數比較多的幾個字當成一乙個詞來處理。基於統計的分詞方法在一定程度上解決了搜尋引擎詞典更新的問題,並且有利於消除歧義。

在當前的搜尋引擎中文分詞中多多少少都會存在著一些難題沒有解決, 這可能是因為漢語真的太博大精深了,在當下計算機根本不可能完全理解。比如,網路上流傳的兩句話「以前喜歡乙個人,現在喜歡乙個人」「以前誰都看不上, 現在誰都看不上」,有些人第一-眼看到這兩句話也不太理解,相信搜尋引擎在短期內也不會真正理解這兩句話。

中文分詞的方法

中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...

asp 的中文分詞

a程式設計客棧 日本是中國的乙個省 我們美麗中國的張家界!b 中國,我們,張家界,日本,美國,蘋果 b split b,a split a,for k 0 to ubound a s n fo程式設計客棧r i 0 to ubound b if instr a k b i 0 then s s in...

中文分詞 基於字標註法的分詞

中文分詞字標註通常有2 tag,4 tag和6 tag這幾種方法,其中4 tag方法最為常用。標註集是依據漢字 其中也有少量的非漢字字元 在漢語詞中的位置設計的。1.2 tag法 2 tag是一種最簡單的標註方法,標註集合為,其將詞首標記設計為b,而將詞的其他位置標記設計為i。例如詞語 重慶 的標註...