什麼是Web資料探勘

今天讀了一篇長e文web content mining ，從題目看好像沒有什麼特別，也許是普通的商業軟文，但是，看了第一段後發現是關於dr. bing liu of the university of illinois chicago的，所以打足精神一句一句把它讀完。第一次遇到bing liu這個名字是在一年前，華中科技大學一博士朋友推薦給我《sentiment analysis and subjectivity》這篇綜述，就是bing liu寫的，然後又閱讀了《opinion spam and analysis》。都是翻來覆去精讀，因為幾年前就想著手開發乙個web資料探勘軟體，主要用於企業競爭情報分析，醞釀了很多年都不敢下手，理論性太強，擔心吃不透或吃不準。直到2023年底開始陸續接觸了幾個網路輿情監測專案，也承接了好幾個行業的類似專案，才下定決心投入sliceprofile 的開發，這個專案投入巨大，資源投入十分集中，但開發周期很短（5個月），因為整個框架早就在頭腦中醞釀成型了，尤其閱讀《sentiment analysis and subjectivity》獲得的靈感更多，還閱讀了大量引文，再三權衡學術和商業的分界線的位置。所以今天看這篇文章的動力決不是因為有中國名字的人寫了一篇e文而已。

這篇文章好像是對劉博士新書《web data mining》的介紹和讀後感，沒有讀過這本書，所以這篇文章的部分內容沒有理解，而且有些觀點不知道是劉博士的還是文章作者的。一些重要結論和一些本人的疑惑一併記錄下來，作成一篇讀書筆記。

劉博士將web data mining分成三類：

什麼是結構化資料提取

讀到這一段，首先感慨劉博士寫書不是湊的，還真有些實踐體驗，例如，關於從亞馬遜（amazon.com）上提取商品列表和商品詳細資訊這類活動，應該是我們這些資訊勞工常做的事。引出了乙個概念：entity，但是沒有搞懂對實體（entity）的界定與資料探勘是什麼關係，為什麼要講這個概念。

然後講到結構化資料探勘和非結構化資料探勘，更是一頭霧水。

the word inductive meansguessedguessing the textwhich frames a structured data object.

關於非結構化資料探勘比較容易理解，automatic extraction正是gooseeker現在的研發方向，我認為很有價值且能指導我們研發規劃的一句話：

algorithms exist for this purpose, but i believe this area could be more customized

when someone has a specific scientific goal in mind.

什麼是資訊整合

文章用機票搜尋服務為例說明資訊整合需要解決的問題，gooseeker**上的比價系統案例也需要解決資訊整合問題。從不同**上提取到的資訊進行比對，識別出同義內容，例如，京東和卓越上的同乙個商品用不同標題和不同的產品描述，需要識別出來。文章提到了多種方法：

根據劉博士的slides，資訊整合被清晰地分成兩類：

什麼是觀點挖掘

也許web content mining 的作者有其獨特的經歷和視角，所以文中有些觀點一時難以理解，看來還是有必要直接閱讀劉博士的新書《web data mining》。

什麼是Web資料探勘

什麼是資料探勘

什麼是資料探勘

什麼是資料探勘

什麼是Web資料探勘

什麼是資料探勘

什麼是資料探勘

什麼是資料探勘

相關推薦