中文搜尋引擎技術揭密 中文分詞

2021-03-31 08:56:57 字數 675 閱讀 4065

)、中搜( http://.zhongsou.*** )等。目前在中文搜尋引擎領域,國內的搜尋引擎已經和國外的搜尋引擎效果上相差不遠。之所以能形成這樣的局面,有乙個重要的原因就在於中文和英文兩種語言自身的書寫方式不同,這其中對於計算機涉及的技術就是中文分詞。

什麼是中文分詞

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為:「我是乙個學生」。計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示乙個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是乙個學生,分詞的結果是:我 是 乙個 學生。

中文分詞和搜尋引擎

中文分詞到底對搜尋引擎有多大影響?對於搜尋引擎來說,最重要的並不是找到所有結果,因為在上百億的網頁中找到所有結果沒有太多的意義,沒有人能看得完,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜尋結果的相關度排序。筆者最近替朋友找一些關於日本和服的資料,在搜尋引擎上輸入「和服」,得到的結果就發現了很多問題。下面就以這個例子來說明分詞對搜尋結果的影響,在現有三個中文搜尋引擎上做測試,測試方法是直接在google( http://.google.***

)、中搜( http://.zhongsou.***

中文搜尋引擎技術揭密 中文分詞

中搜 http www.zhongsou.com 等。目前在中文搜尋引擎領域,國內的搜尋引擎已經和國外的搜尋引擎效果上相差不遠。之所以能形成這樣的局面,有乙個重要的原因就在於中文和英文兩種語言自身的書寫方式不同,這其中對於計算機涉及的技術就是中文分詞。什麼是中文分詞 眾所周知,英文是以詞為單位的,詞...

中文搜尋引擎技術揭密 中文分詞

什麼是中文分詞 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙...

中文搜尋引擎技術揭密 中文分詞

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙個詞。把中文的漢...