發現搜尋的價值走出語義搜尋的誤區

第三代搜尋，作為對以google為代表的第二代搜尋正規化的超越或者說革新，時下正逼近乙個重要的時間拐點。這股正規化轉型潮流由多條支流組成，其中乙個支流是包含本地化搜尋、社群內容搜尋、知識問答社群等在內的社會化搜尋，另乙個支流則是人工智慧、模式識別、語義分析、神經網路等智慧型搜尋。

可以說，就技術門檻而言，智慧型搜尋代表了下一代搜尋的主流趨勢。但鑑於基於神經網路、人工智慧的搜尋耗資巨大，目前還處在試驗階段，尚無一家成型的搜尋引擎上線；至於全球搜尋界窮20年之力埋首研發的自然語言分析或者語義分析，由於語言本身的複雜性，其結果及效能迄今還不能解決現實世界的問題，也因此，迄今還沒有一家完全基於語義分析的搜尋引擎獲得商業成功。

語義搜尋的侷限

完全採用語法和詞彙原則來理解文字資訊的語義搜尋的一大侷限，是不能處理例如雙關語、多義詞等模糊資訊。這是因為計算機本身缺乏理解能力，尤其是缺乏理解不確定性資訊或模糊資訊的能力，所以當計算機嘗試通過解析整段話來提取含義時，就會頗為棘手。一些高階的系統能夠建立一套使機器解決不確定性所遵循的原則。但是，其指令集極為煩雜而且難以維護，基本沒有可操作性。

與基於關鍵字的搜尋方法一樣，語義搜尋方法也不能確定思想的相對重要性。換句話說，計算機會給一句話中的不同詞彙分配相同的重要性值，而這與自然語言的實際內涵可能大相徑庭。

固然，在最好的情況下，語義搜尋方法可以處理少數簡單的句子，但在採用包含大量概念的大型檔案時，要從整段話、整篇文章中提取含義，其語言模式就只能望洋興嘆了。由於語義分析是基於真/假決策樹和規則結構進行推理的，乙個不正確的決策或者乙個未知的查詢的出現，會導致整個分析全盤皆錯。

另一種方法

與完全基於語法結構分析的語義搜尋不同，以autonomy為代表的核心概念匹配技術並不單純依賴於一種語言的語法結構，而是把文字當作語意的抽象符號或者另一種「型別」的資訊，採用可**的統計詞方式表示概念和功能，並通過有意義的概念詞出現的上下文環境(而不是通過嚴格的語法定義)來形成對該概念詞的理解，以此確定文件中每個主題的相關性及重要性。由於其系統由所輸入的實際資料驅動，而不是由與內容無關的輔助規則所驅動，所以，autonomy的系統可以支援基於俚語、行業術語、自然語言的檢索。

因為同樣的原因， autonomy還能夠不受語言語種限制(支援超過80種語言)，支援任意資訊片斷的檢索，只要該語言的資訊足夠多，就可以讓系統形成對該語言的理解。例如將一句話、一段或者整頁文字作為輸入的搜尋條件，由此可返回與搜尋條件概念相關的結果，這些結果可按照概念相關性或文件上下文關聯排序。 autonomy 的技術甚至能自動檢測輸入文件的語言並改變相應配置以自動處理每一種語言。

autonomy的技術核心，是乙個被稱為idol的智慧型資訊處理層。idol由動態推理引擎 (dre)、分類伺服器、使用者伺服器等模組組成，dre 可實現概念識別、自動摘要、有效識別、自動超連結、自然語言檢索等核心操作，分類伺服器可實現自動聚類、自動分類、自動目錄生成等功能操作，使用者伺服器則可以實現個人化資訊建立、個性化資訊提示、個性化資訊訓練、專家定位等個性化操作。

發現搜尋的價值走出語義搜尋的誤區

商業價值谷歌眼中的搜尋未來

搜尋4 搜尋的應用

驚訝的發現自己Blog的價值

發現搜尋的價值 走出語義搜尋的誤區

商業價值 谷歌眼中的搜尋未來

搜尋4 搜尋的應用

驚訝的發現自己Blog的價值

相關推薦

發現搜尋的價值走出語義搜尋的誤區

商業價值谷歌眼中的搜尋未來