baidu分詞演算法分析之一

2021-04-29 21:55:19 字數 573 閱讀 2799

查詢處理以及分詞技術

隨著搜尋經濟的崛起,人們開始越加關注全球各大搜尋引擎的效能、技術和日流量。作為企業,會根據搜尋引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜尋引擎的效能和技術來選擇自己喜歡的引擎查詢資料;作為技術人員,會把有代表性的搜尋引擎作為研究物件. 搜尋引擎經濟的崛起,又一次向人們證明了網路所蘊藏的巨大商機。網路離開了搜尋將只剩下空洞雜亂的資料,以及大量等待去費力挖掘的金礦。

我們分兩個部分來講述:查詢處理/中文分詞.

一. 查詢處理

1. 假設使用者提交了不只乙個查詢串,比如」資訊檢索 理論 工具」.那麼搜尋引擎首先做的是根據分隔符比如空格,標點符號,將查詢串分割成若干子查詢串,比如上面的查詢就會被解析為:《資訊檢索,理論,工具》三個子字串;這個道理簡單,我們接著往下看.

接著該幹什麼呢?該考慮分詞的問題了.

二. 中文分詞

首先查詢專用詞典(人名,部分地名等),將專有名稱切出,剩下的部分採取雙向分詞策略,如果兩者切分結果相同,說明沒有歧義,直接輸出分詞結果.如果不一致,則輸出最短路徑的那個結果,如果長度相同,則選擇單字詞少的那一組切分結果.如果單字也相同,則選擇正向分詞結果..

SCWS分詞學習之一

scws 簡易中文分詞系統 scws 在概念上並無創新成分,採用的是自行採集的詞頻詞典,並輔以一定程度上的專有名稱 人名 地名 數字年代等規則集,經小範圍測試大概準確率在 90 95 之間,已能基本滿足一些中小型搜尋引擎 關鍵字提取等場合運用。scws 採用純 c 開發,以 unix like os...

百度分詞演算法分析

隨著搜尋經濟的崛起,人們開始越加關注全球各大搜尋引擎的效能 技術和日流量。作為企業,會根據搜尋引擎的知名度以及日流量來選擇是否要投放廣告等 作為普通網民,會根據搜尋引擎的效能和技術來選擇自己喜歡的引擎查詢資料 作為技術人員,會把有代表性的搜尋引擎作為研究物件。搜尋引擎經濟的崛起,又一次向人們證明了網...

分析函式之一

1.row number 的使用原表資訊 sql break on deptno skip 1 為效果更明顯,把不同部門的資料隔段顯示。sql select deptno,ename,sal 2from emp 3order by deptno,sal desc deptno ename sal 1...