《R語言資料探勘》 1 6 網路資料探勘

1.6　網路資料探勘

網路挖掘的目的是從網路超連結結構、網頁和使用資料來發現有用的資訊或知識。網路是作為資料探勘應用輸入的最大資料來源之一。

網路資料探勘基於資訊檢索、機器學習（machine learning，ml）、統計學、模式識別和資料探勘。儘管很多資料探勘方法可以應用於網路挖掘，但是由於異構的、半結構化的和非結構化的網路資料，所以網路挖掘不單純是乙個資料探勘問題。

網路內容挖掘（web content mining）：這有助於從網頁內容中挖掘有用的資訊。

網路用法挖掘（web usage mining）：這有助於從網路日誌中發現使用者訪問模式，以便檢測入侵、欺詐和試圖闖入的情況。

應用於網路資料探勘的演算法源自經典的資料探勘演算法。它們有很多相似之處，比如挖掘過程，但也存在差異。網路資料探勘的特徵使其不同於資料探勘的原因如下：

資料是非結構化的。

網路資訊不斷變化和資料量不斷增長。

任何資料型別都可以在網路上得到，如結構化和非結構化資料。

網路上存在異構資訊，冗餘頁面也存在。

網路上鏈結著海量資訊。

資料是雜訊資料。

網路資料探勘不同於一般資料探勘是由於源資料集的巨大動態容量、極其多樣化的資料格式等。與網路相關的最流行的資料探勘任務如下：

資訊提取（information extraction，ie）：資訊提取的任務包含以下步驟：詞彙標記、句子分割、詞性分配、命名實體識別、短語解析、句子解析、語**釋、話語解釋、模板填充以及合併。

自然語言處理（natural language processing，nlp）：它研究人與人和人與機器互動的語言特徵、語言能力和行為模型、用這樣的模型實現過程的框架、過程/模型的迭代優化以及對結果系統的評估技術。與網路資料探勘相關的經典自然語言處理任務包括標註、知識表示、本體論模型等。

問題回答（question answering）：目標就是以自然語言形式從文字集中尋找問題的答案。它可以歸類為槽填充、有限域以及具有更高難度的開放域。乙個簡單的例子就是基於預先定義的常見問題解答（faq）來回答客戶的詢問。

資源發現（resource discovery）：比較流行的應用是優先收集重要的頁面；使用鏈路拓撲結構、主題區域性性和主題爬行進行相似性搜尋；社群發現。