中文搜尋引擎研究

2021-08-29 12:40:48 字數 3960 閱讀 1831

1.為什麼需要搜尋引擎?

什麼叫搜尋引擎呢?internet是乙個巨大的資訊資源寶庫,幾乎所有的internet使用者都希望寶庫中的資源越來越豐富,使之應有盡有。每天都有新的主機被連線到internet上,每天都有新的資訊資源被增加到internet中,使internet中的資訊以驚人的速度增長。然而internet中的資訊資源分散在無數臺主機之中,如果使用者想將所有主機中的資訊都做一番詳盡的考察,無異***撈針。那麼使用者如何在數百萬個**中快速有效地查詢到想要得到的資訊呢?這就要借助於internet中的搜尋引擎。

2.搜尋引擎使用的資訊檢索技術

目前搜尋引擎使用的資訊檢索技術主要有:robot技術、索引技術、翻譯技術、轉換技術、過濾技術、資料庫技術、結果處理技術等。

2.1robot技術

搜尋引擎通過蜘蛛機械人自動在選定的範圍內進行檢索,並將所檢索到的資訊自動標引匯入資料庫中

2.2翻譯技術

翻譯技術主要運用於跨語言搜尋引擎工作過程。如下:

使用者向系統提交檢索詞,形成乙個源語言的搜尋式,系統對搜尋式進行語言識別,識別出語種後,就對進行提問式的詞法分析和結構分析,然後把這個分析過的搜尋式翻譯成各種語言的搜尋式,最後把這一系列的搜尋式提交給系統進行檢索就可以了。

2.3轉換技術

轉換技術主要針對中文繁簡轉換出理。如下:

大陸與台灣、香港的文化背景不同,因此形成的一些詞彙方面的差異。例如:

大陸詞彙 錄影   智財權 磁碟   紐西蘭  柯林頓 矽谷  

台港詞彙 錄影   智財權 磁碟   紐西蘭  柯林頓  矽谷

搜尋引擎應該根據自動判別詞彙的繁簡編碼,轉成相對應的詞彙意思,然後進行檢索

2.4過濾技術

搜尋引擎通過「關鍵字過濾」等過濾技術對檢索到的資訊進行過濾、遮蔽。

2.5結果處理技術

結果處理技術主要是將檢索到查詢結果,進行去重、基本資訊提取、排序等操作。

3.搜尋引擎分類

3.1按資訊的組織方式

按照資訊的組織方式,一般把搜尋引擎分為目錄式分類搜尋引擎,機械人搜尋引擎,「混合型」搜尋引擎

(1)目錄式分類搜尋引擎

錄搜尋引擎是通過人工方式進行資源蒐集,且採取人工方式來進行**描述。

參照分類法的思路,按照主題建立分類索引,形成乙個樹形等級式的分類體系結構,建立起一套既可搜尋又可瀏覽的等級式主題分類目錄,以

因此搜尋範圍較小,查全率較低,對偏僻主題、新興學科、交叉學科不能很好地涵蓋,類目間的交叉又會導致重複和資源浪費。另外,由於數

據庫更新速度比較慢,站點本身的動態變化不能及時地反映到搜尋結果中,嚴重影響了查詢結果的時效性。

夠提供更為準確的查詢結果,但收集的內容卻非常有限

(2)機械人搜尋引擎

搜尋引擎機械人(robots), 或者說是爬行程式(crawlers)、蜘蛛程式(spiders)。

好的**排名標準及演算法,對**進行評估排名。

查全率,精確率

(3)「混合型」搜尋引擎

3.2按支援的語言進行分類

目前國內使用者使用的搜尋引擎主要有兩類:即英文引擎和中文引擎。

常用的英文搜尋引擎包括google、yahoo!、msn、infoseek等。

傳統中文引擎所採用的技術:

中文分詞技術;

索引技術;

繁簡轉換;

熱詞提取;

詞頻分析;

新詞發現;

更新頻率;

新一代中文搜尋引擎的技術特點:

海量級資料的精確搜尋;

智慧型資訊處理—基於語義理解的文字挖掘技術;

3.3垂直搜尋引擎和普通的網頁搜尋引擎

垂直搜尋是針對某乙個行業的專業搜尋引擎,是搜尋引擎的細分和延伸,是對網頁庫中的某類專門的資訊進行一次整合,定向分欄位抽取出需要的資料進行處理後再以某種形式返回給使用者。

垂直搜尋引擎和普通的網頁搜尋引擎的最大區別是對網頁資訊進行了結構化資訊抽取,也就是將網頁的非結構化資料抽取成特定的結構化資訊資料,好比網頁搜尋是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜尋是以結構化資料為最小單位。然後將這些資料儲存到資料庫,進行進一步的加工處理,如:去重、分類等,最後分詞、索引再以搜尋的方式滿足使用者的需求。

整個過程中,資料由非結構化資料抽取成結構化資料,經過深度加工處理後以非結構化的方式和結構化的方式返回給使用者。

垂直搜尋引擎的應用方向很多,比如企業庫搜尋、供求資訊搜尋引擎、購物搜尋、房產搜尋、人才搜尋、地圖搜尋、***搜尋、搜尋…

…幾乎各行各業各類資訊都可以進一步細化成各類的垂直搜尋引擎。

舉個例子來說明會更容易理解,比如購物搜尋引擎,整體流程大致如下:抓取網頁後,對網頁商品資訊進行抽取,抽取出商品名稱、**、簡介……甚至可以進一步將筆記本簡介細分成「品牌、型號、cpu、記憶體、硬碟、顯示屏、……」然後對資訊進行清洗、去重、分類、分析比較、資料探勘,最後通過分詞索引提供使用者搜尋、通過分析挖掘提供市場**報告。

垂直搜尋引擎大體上需要以下技術:

網頁結構化資訊抽取技術或元資料採集技術

分詞、索引

其他資訊處理技術

垂直搜尋引擎是相對通用搜尋引擎的資訊量大、查詢不準確、深度不夠等提出來的新的搜尋引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的資訊和相關服務。其特點就是「專、精、深」,且具有行業色彩,相比較通用搜尋引擎的海量資訊無序化,垂直搜尋引擎則顯得更加專注、具體和深入。

4.主流中文搜尋引擎簡介

4.1、google簡介

google的成功得益於其強大的功能和獨到的特點:

google檢索網頁數量達24億,搜尋引擎中排名第一;

google支援多達132種語言,包括簡體中文和正體中文;

google**只提供搜尋引擎功能,沒有花裡胡哨的累贅;

google速度極快,年初時據說有15000多台伺服器,200多條t3級寬頻;

google的專利網頁級別技術pagerank能夠提供準確率極高的搜尋結果;

google智慧型化的「手氣不錯」功能,提供可能最符合要求的**;

google的「網頁快照」功能,能從google伺服器裡直接取出快取的網頁。

google具有獨到的搜尋功能;

google具有強大的新聞組搜尋功能;

google具有二進位制檔案搜尋功能(pdf,doc,swf等);

google還有很多尚在開發階段的令人吃驚的設想和功能。

4.3、雅虎中國

雅虎在全球共有24個**,12種語言版本,其中雅虎中國**(www.yahoo.com.cn)於2023年9月正式開通,它是雅虎在全球的第20個**。

yahoo!目錄是乙個web資源的導航指南,包括14個主題大類的內容

支援中國使用者完成包括英文在內的38種語言搜尋

4.4、中國搜尋

中國搜尋(原慧聰搜尋)2023年正式進入中文搜尋引擎市場,2023年8月24日慧聰搜尋(現中國搜尋)正式推出第三代智慧型中文搜尋引擎.特點:

海量資料:超過2億網頁的中文資訊庫。

高速響應:檢索平均響應時間不超過0.2秒,支援500次/秒高迸發量。

智慧型排序:非唯一主導因素的高階人工排序

行業分類:43個行業的分類,使搜尋更加精準

具備第三代智慧型中文搜尋引擎的特點

4.5、搜狗搜尋

搜狗搜尋引擎的三大特點:

海量:全球首個網頁收錄量達到100億的中文搜尋引擎

4.6、奇虎社群搜尋引擎

特點:奇虎社群搜尋引擎是具備web2.0特徵的垂直搜尋引擎

專著於社群搜尋,增強與網民的互動,強調個性化搜尋。

4.7、網易搜尋引擎 (

特點:開放式目錄管理系統(odp)

擁有超過一萬個類目,超過25萬條活躍站點資訊,

日增加新站點資訊500~1000條,日訪問量超過500萬次

4.8、北京大學天網中英文搜尋引擎

收錄 135 萬網頁和 9 萬新聞組文章,

支援電子郵件查詢。

無分類查詢。

4.9、openfind搜尋引擎

海量資料:宣布累計抓取網頁35億,

多元排序(polyranktm):使用者用可以不同標準來排序查詢結果

相關文章 中文搜尋引擎

1.為什麼需要搜尋引擎?什麼叫搜尋引擎呢?internet是乙個巨大的資訊資源寶庫,幾乎所有的internet使用者都希望寶庫中的資源越來越豐富,使之應有盡有。每天都有新的主機被連線到internet上,每天都有新的資訊資源被增加到internet中,使internet中的資訊以驚人的速度增長。然而...

中文搜尋引擎整合 Xunsearch

這是一款php sdk,可以用在mac和linux系統上。支援通過 composer 安裝,包名稱為 hightman xunsearch。方法之一 在composer檔案加入 hightman xunsearch beta 執行 composer update hightman xunsearch...

中文搜尋引擎技術揭密 中文分詞

中搜 http www.zhongsou.com 等。目前在中文搜尋引擎領域,國內的搜尋引擎已經和國外的搜尋引擎效果上相差不遠。之所以能形成這樣的局面,有乙個重要的原因就在於中文和英文兩種語言自身的書寫方式不同,這其中對於計算機涉及的技術就是中文分詞。什麼是中文分詞 眾所周知,英文是以詞為單位的,詞...