發現搜尋的價值 走出語義搜尋的誤區

2021-04-13 14:36:52 字數 1412 閱讀 6639

第三代搜尋,作為對以google為代表的第二代搜尋正規化的超越或者說革新,時下正逼近乙個重要的時間拐點。這股正規化轉型潮流由多條支流組成,其中乙個支 流是包含本地化搜尋、社群內容搜尋、知識問答社群等在內的社會化搜尋,另乙個支流則是人工智慧、模式識別、語義分析、神經網路等智慧型搜尋。

可以說,就技術門檻而言,智慧型搜尋代表了下一代搜尋的主流趨勢。但鑑於基於神經網路、人工智慧的搜尋耗資巨大,目前還處在試驗階段,尚無一家成型的搜尋 引擎上線;至於全球搜尋界窮20年之力埋首研發的自然語言分析或者語義分析,由於語言本身的複雜性,其結果及效能迄今還不能解決現實世界的問題,也因此, 迄今還沒有一家完全基於語義分析的搜尋引擎獲得商業成功。

語義搜尋的侷限

完全採用語法和詞彙原則來理解文字資訊的語 義搜尋的一大侷限,是不能處理例如雙關語、多義詞等模糊資訊。這是因為計算機本身缺乏理解能力,尤其是缺乏理解不確定性資訊或模糊資訊的能力,所以當計算 機嘗試通過解析整段話來提取含義時,就會頗為棘手。一些高階的系統能夠建立一套使機器解決不確定性所遵循的原則。但是,其指令集極為煩雜而且難以維護,基 本沒有可操作性。

與基於關鍵字的搜尋方法一樣,語義搜尋方法也不能確定思想的相對重要性。換句話說,計算機會給一句話中的不同詞彙分配相同的重要性值,而這與自然語言的實際內涵可能大相徑庭。

固然,在最好的情況下,語義搜尋方法可以處理少數簡單的句子,但在採用包含大量概念的大型檔案時,要從整段話、整篇文章中提取含義,其語言模式就只能望 洋興嘆了。由於語義分析是基於真/假決策樹和規則結構進行推理的,乙個不正確的決策或者乙個未知的查詢的出現,會導致整個分析全盤皆錯。

另一種方法

與完全基於語法結構分析的語義搜尋不同,以autonomy為代表的核心概念匹配技術並不單純 依賴於一種語言的語法結構,而是把文字當作語意的抽象符號或者另一種「型別」的資訊,採用可**的統計詞方式表示概念和功能,並通過有意義的概念詞出現的 上下文環境(而不是通過嚴格的語法定義)來形成對該概念詞的理解,以此確定文件中每個主題的相關性及重要性。由於其系統由所輸入的實際資料驅動,而不是由 與內容無關的輔助規則所驅動,所以,autonomy的系統可以支援基於俚語、行業術語、自然語言的檢索。

因為同樣的原因, autonomy還能夠不受語言語種限制(支援超過80種語言),支援任意資訊片斷的檢索,只要該語言的資訊足夠多,就可以讓系統形成對該語言的理解。例 如將一句話、一段或者整頁文字作為輸入的搜尋條件,由此可返回與搜尋條件概念相關的結果,這些結果可按照概念相關性或文件上下文關聯排序。 autonomy 的技術甚至能自動檢測輸入文件的語言並改變相應配置以自動處理每一種語言。

autonomy的技術核心,是乙個被稱 為idol的智慧型資訊處理層。idol由動態推理引擎 (dre)、分類伺服器、使用者伺服器等模組組成,dre 可實現概念識別、自動摘要、有效識別、自動超連結、自然語言檢索等核心操作,分類伺服器可實現自動聚類、自動分類、自動目錄生成等功能操作,使用者伺服器則 可以實現個人化資訊建立、個性化資訊提示、個性化資訊訓練、專家定位等個性化操作。

商業價值 谷歌眼中的搜尋未來

谷歌這些年的一系枚舉動,從android到chrome,從語音搜尋到谷歌tv,都是其對未來搜尋認識的投影。許多人曾經懷疑,搜尋技術還能走多遠,甚至前幾年,還有人說,搜尋能夠做的90 的事情都已經做完了。但谷歌裡的極客們認為,這種觀點是固守杜威分類時代傳統思維的短視和淺薄之見。谷歌的極客們有資格不屑於...

搜尋4 搜尋的應用

目錄 搜尋的應用 allocation 分析 答案輸入 第一行輸入n和k,用空格隔開。第二行分別輸入n個貨物的重量。輸出 p的最小值。示例 5 38 1 7 3 9 10 要計算最大運載量p的最小值,可以讓p從小到大自增,求此時貨車可以裝載貨物的數量v,比較v和n的大小關係,如果v n,說明p比真實...

驚訝的發現自己Blog的價值

以前也有人傳遞過這個鏈結計算blog值多少美元年前透明玩這個計算出自己的blog是5萬多美子吧,當時令人咂舌。今天群裡又拿這個傳來傳去的,被說blog算值得點錢,於是我自己驗證了下,記得以前都是 is worth 0.00 的,這次竟然有1600多美元。乖乖,如果哪天真的能兌現,我就立馬拿去換我的x...