Web資料探勘與個性化搜尋引擎綜述

搜尋引擎已成為人們最普遍使用的資訊檢索的工具。該工具涉及到資訊檢索、資料庫、資料探勘、人工智慧、分布式處理、自然語言處理等多個領域的理論和技術 ,因而具有綜合性和挑戰性。

根據 web挖掘的物件不同 , web資料探勘分為:web內容挖掘 , web結構挖掘和 web使用記錄挖掘。

web內容挖掘是從文件內容或其描述中抽取有趣知識的一種過程,是一種基於網頁內容元素物件的web挖掘。這些元素物件既有文字和超文字資料,也有圖形、影象等多**資料;既有來自於資料庫的結構化資料 , 也有用 html或 xml標記的半結構化資料和無結構的自由文字 .

web結構挖掘是從網頁的超級鏈結中發現其結構及其相互關係。通過找到隱藏在乙個個頁面之後的鏈結結構模型, 就可以利用這個模型對 web頁面重新分類,也可以用於尋找相似的**。基於超級鏈結的拓撲結構, web結構挖掘可以進行網頁分類, 總結網頁和**的結構, 生成諸如**間相似性、**間關係的資訊.

web使用記錄挖掘是從使用者「訪問痕跡」中獲取有價值的資訊 ,是對 web上日誌資料及相關資料的挖掘。

(2)成本高 :使用者在人工過濾網頁中資訊的時候 ,要花費大量的時間和精力, 同時還需要支付高額的網路使用費用。

(3)查詢結果顯示順序比較混亂 ,有效性差。另外 ,在查詢方式、個性化服務、查全率和自然語言理解等方面都存在一些有待解決的問題。

目前,中文個性化搜尋引擎的開發已越來越引起了國人的注意,也吸引了越來越多的有識之士加人其中 ,雖然現在已經有了一定的基礎 , 但它距離成為乙個成熟的產品,道路還很漫長。搜尋引擎的個性化服務使搜尋引擎能夠分析檢索者的瀏覽行為來學習檢索者的需求 ,利用搜尋引擎的現有服務 ,有選擇地為使用者提供個性化服務 ,達到向使用者推送他們真正感興趣的資訊。

web資料探勘為搜尋引擎的個性化服務提供了依據。搜尋引擎一般由搜尋器、索引器、檢索器和使用者介面四個部分組成，web資料探勘是從大量的、不完全的、有雜訊的、模糊的、隨機的 web內容中識別新穎的、有用的以及可理解的知識的過程。在 web內容挖掘中, 由於 web文件中與搜尋主題相關度低的關鍵字會帶來不相關的檢索資訊, 因此 ,先採用粗糙集方法簡化與搜尋主題無關的屬性 (關鍵字),以減少搜尋空間, 提高搜尋效率 ,然後利用關聯規則挖掘方法對 web內容進行分析 ,挖掘出有價值的知識。

可以通過以下兩種方式

來實現從伺服器端獲取使用者的相關資訊:一般的訪問

模式挖掘和個性化的使用記錄挖掘。一般的訪問模

式挖掘通過分析使用者使用記錄來了解使用者的訪問模

式和傾向;個性化的使用記錄挖掘則傾向於分析單個使用者的偏好 ,其目的是根據不同使用者的訪問模式, 為每個使用者提供定製的站點。這種方法經常在一些大型的門戶**上被使用,用於跟蹤不同使用者的瀏覽習慣 ,以進行使用者感興趣的網頁內容調查和生成不同編排內容的個性化瀏覽頁面。

Web資料探勘與個性化搜尋引擎綜述

個性化搜尋引擎調研（一）

利用個性化搜尋引擎查詢需要的個性化資訊

企業版個性化搜尋引擎產品分析報告

Web資料探勘與個性化搜尋引擎綜述

個性化搜尋引擎調研（一）

利用個性化搜尋引擎查詢需要的個性化資訊

企業版個性化搜尋引擎產品分析報告

相關推薦