技術與人文的結晶 搜尋引擎技術漫談

2022-05-09 06:45:08 字數 3144 閱讀 8469

技術與人文的結晶

——搜尋引擎技術漫談

康樂

面對浩瀚的資訊海洋,人們常常無所適從。而網路搜尋引擎的出現,恰似一葉輕舟,載著我們在海洋裡隨意遨遊。搜尋引擎很快就成為我們掌握知識的利器。

作為internet必不可少的工具,搜尋引擎的地位越來越高。不僅如此,隨著internet應用的不斷加深,搜尋引擎正成為舉足輕重的網路基礎設施。

搜尋引擎的基礎設施作用體現在三個方面:第一,必不可少。如果沒有搜尋引擎,全世界一半的網頁將沒有任何使用價值。第二,涉及面廣。搜尋引擎技術涉及到系統技術、網路技術、多**技術、語言處理技術、人工智慧技術等。第三,越來越多的「關注」。專注於搜尋引擎的專業廠商不斷增加,新的搜尋引擎技術不斷湧現,搜尋引擎的表現形式也多種多樣,甚至使用的時候都意識不到它的存在。

技術本質

技術源於需求。需求的多樣化導致了技術實現的多樣化,而多樣化使我們的世界呈現和諧之美。

最早的搜尋引擎打破了目錄之間的隔閡,只是將結果羅列出來。隨後,結果相關度排序、邏輯查詢、結果中查詢等技術提高了搜尋的準確度;文章重要程度排序、使用者行為分析技術更加符合使用者心理。如今,自然語言理解、智慧型查詢、垂直搜尋等技術使搜尋變得更簡單、更有價值,也更吸引使用者。

需求的差異導致技術應用的差異,而差異化正是新產品立足的根本。對需求的細分以及不同的技術手段,形成了搜尋引擎產品百花齊放的局面。

傳統與現代

迅速發展的internet改變了一切,新的網路搜尋引擎比傳統搜尋引擎有了質的飛躍。在資料量上,傳統搜尋引擎面對的是增長緩慢的、有限的資料(幾萬、幾十萬的量是最常見的),但是網路搜尋引擎面對的是快速增長的、幾乎無限的資料。google已經可以搜尋20億個頁面。量的變化帶來了質的變化。

傳統搜尋引擎技術用到的演算法面對海量資料變得非常笨拙;傳統搜尋引擎技術用到的資料結構,面對海量資料時已經無法表示;傳統搜尋引擎主要用於單機結構,而網路搜尋引擎則在分布式環境中工作。因此,現代的網路搜尋引擎技術已同傳統的搜尋引擎技術在演算法、計算環境、理論模型等方面有了根本的不同。各種綜合技術的運用及人性關懷使得網路搜尋引擎技術上公升到了乙個新高度。

隨著時代的發展,傳統技術在新的環境下會突然發揮它的新作用,成為一種新技術,就像幾十年前的衣服式樣會在明天成為時尚一樣。

internet最初的目錄分類簡直稱不上「技術」,因為它們太「人工」了。但是幾次輪迴之後,還會有很多的人對目錄分類有著更多的需求,對「人工」有著更高的要求,因為雖然是人工,但人工知識更有價值,將會產生知識經濟時代的「知識工人」。

綜合技術

時代在發展,新的需求不斷產生,促使技術的不斷產生與融合。

現代搜尋引擎技術要用到資訊檢索、資料庫、資料探勘、系統技術、多**、人工智慧、計算機網路、分布式處理、數字圖書館、自然語言處理等許多領域的理論和技術,成為一種綜合性的技術。

從蒐集過程來看,超鏈分析是乙個核心技術,面對無限寬廣的網際網路,如何獲得所需鏈結、索引鏈結 都需要很多的考慮,而鏈結背後的「價值」分析更是充滿了智慧型,這種分析就是海量資料中的挖掘技術。相對於廣泛的靜態網頁,動態網頁所包含的資訊更有價值,但是種類繁多且不斷發展的動態網頁技術(如asp、jsp、cgi等)再加上覆雜的網路環境,使蒐集過程變得繁重異常。

查詢在技術上是索引的逆過程,索引就是為了查詢。但是查詢還要用到使用者輸入技術、**技術、分詞技術、自然語言處理技術等。這些技術的運用使得索引的價值得以體現,也使得搜尋引擎在使用者面前顯得更簡單、更有用。

將最好的查詢結果呈現給使用者是搜尋引擎的最終目標。結果排序總的來說是相關度排序技術,還要用到去除重複網頁、使用者行為分析等技術,也可能用快取技術為使用者提供過期的網頁。

以上是從網路搜尋引擎的四個組成部分來說明的。實際上,為了保證搜尋引擎平穩執行,還有諸如系統技術、分布式技術等在支撐它的執行,例如集群技術、網路快取技術、分發技術等。更重要的是,網路搜尋引擎為了體現人性關懷,在人機介面上要用到智慧型化技術與個性化技術。

使用者至上

各種技術層出不窮,技術的發展永無止境,但永遠沒有純粹的技術。過分的商業化使得技術一度偏離它的本質。當企業大聲呼喊「以客戶為中心」的時候,技術也回到了它的本質。

什麼是最好的搜尋引擎技術?

使用者滿意是第一層次。使用者使用搜尋引擎的直接目的是找到其所需要的資訊,搜尋引擎只要做到「查全」與「查準」,就能讓使用者基本滿意。如果再將結果優化,使其對使用者來說更加有效,那麼使用者對這個搜尋引擎就會有很高的忠誠度。對使用者來說,技術無所謂高低,達到目標就行,技術從低到高不斷改進、不斷滿足需求就會使使用者滿意。

使用者快樂是第二層次。技術源於需求,也滿足了使用者的需求,如果技術能挖掘出使用者需求背後的需求或使用者自己想不到的需求並實現它們,使用者就能充分享受到技術帶來的快樂。當搜尋引擎不光給使用者搜尋結果,而且給了他最「權威」的結果最感興趣的結果時,他是快樂的。在知識經濟的大潮中,當每一次搜尋都能滿足他「學習」知識的渴望時,他是快樂的。

但是,技術本身不能實現自我。沒有資金,技術就不能實踐。為了蒐集更多的網頁、提供更快的速度,搜尋引擎需要近萬台伺服器,資金暫時限制了技術的發揮。沒有市場,再好的技術都會被人拋棄。這時,恰當的商業化會推動技術的發展。例如,搜尋引擎中的廣告、競價排名等商業技術運用,豐富了搜尋引擎,滿足了部分使用者的需求。但是赤裸裸的商業化也會使使用者走開。因此,在技術的實現過程中,使用者至上的策略是最好的技術策略。

發展與未來

「以使用者為中心」是不變的宗旨。為了滿足使用者需求,使用者細分是關鍵。行業使用者、企業使用者、個人使用者有著不同的需求。行業使用者需要搜尋引擎聯接乙個個資訊孤島,實現專業化的資訊共享。企業使用者在成為「學習型企業」時對知識管理有更高的要求,搜尋引擎的作用將會十分突出。雖然個人需求也各不相同,但個人使用者面對巨大的internet時,都需要一把開啟大門的鑰匙,而搜尋引擎就是一把金光閃閃的鑰匙,能滿足人們「學習」的渴望。因而「知識性」便成為搜尋引擎技術的關鍵。

在搜尋引擎的發展方向上,一方面是追求質量,另一方面是模式取勝。人們對質量的追求總是無窮無盡,新的搜尋引擎技術將會「更快」——更新快、速度快;「更大」——資料容量更大;「更強」——智慧型化、結果更讓人滿意。新事物總有無可匹敵的優勢。模式取勝關鍵在於發掘需求、細分需求,滿足人的深層次的需求,例如各種多**的專向搜尋、各種專業的垂直搜尋都會有廣闊的市場。

更多新技術的應用與融合,如無線網路、p2p等,更會給搜尋引擎技術帶來新的動力。搜尋引擎技術將會有乙個美好的未來。

(計算機世界報 第25期 b10、b11)

轉於:

搜尋引擎檢索技術

謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...

搜尋引擎檢索技術

如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...

搜尋引擎檢索技術

如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...