新的大資料的知識發現和資料探勘

來自如谷歌和雅虎這樣的公司的頂尖的科學家，和高階學者們一起齊聚在本週在聖地牙哥舉行的第17次計算機械協會(acm)的知識發現和資料探勘(kdd)會議上。他們將要展示從當下產生的鋪天蓋地的資料中尋找洞察力的最新技術，並使各種各樣形式的資訊變得比以往任何時候都更有意義。

二十年前，關心所謂的「大資料」的人只是一些科學團體的成員 — 只有他們有大量的資料集和有動機試圖處理這些資料，計算機械協會(acm)在知識發現和資料探勘方面的特殊利益集團執行主席和雅虎前任的首席資料官usama fayyad說。即使在那時，資料探勘的結果也是引人注目的。「我們能夠解決重大科學問題，立於這個領域30多年，」 fayyad說。

例如， netflix，對可能挖掘出有關它的使用者資訊的任何團隊提供了一筆100萬美元的獎金，並建立了乙個比它已有的乙個建議系統更為精確的系統。像這樣備受矚目的例子只觸及了資料探勘應用系統的表面。

「企業和產業越來越有興趣利用他們通過業務流程獲得的資料，」 ibm的分析研究主任和大會主席chid apte說。他特別指出了醫療保健、社交**和任何發生在**上的事情。

目前，網際網路巨頭從他們收集的使用者資訊和他們通過對其挖掘獲得的洞察力上賺錢。零售商可以訪問複雜的購物者行為模式來幫助他們更有利地對商店進貨。產業研究人員能基於交流擁堵、天氣、一年之間的時間段來**汽車的交通模式，並提供優質的路線。

apte說，社交**可能已開始趨於對這樣圖形的分析，但是網路資料也可以來自其他資料來源 — 例如，來自諸如電網、配水系統、交通管理系統這樣一些複雜的工程系統。這些系統中的分布式感測器網路產生的資料集，在其中位置之間的連線與社交網路中人與人之間的友好關係一樣的重要。理解這些連線是優化系統和使他們得以持續的關鍵，apte說。

人們和圖形資料打交道已有數百年，但目前來自於社交網路或感測器網路規模的圖形規模空前，apte說。「這些是龐大的圖形,」他說。「你正在談論數以萬計的節點和數以千萬計的鏈結。」

要處理這種規模和範圍的圖形，並且對它們運用現代分析工具，就要求更好的演算法與其他創新。apte說，大會的目標之一就是為有意向的企業帶來學術界和產業界研究實驗室的頂尖技術，這樣他們可以更快地應用它們。同時，會議的組織者們希望，學者們將感知到大多數極其需要被考慮到的業務挑戰。

fayyad說資料中的強大商業利益已經改變了資料探勘的領域。他說，科學家主要處理整齊的，結構形式儲存的資料。但大多數企業產生的資料是一種混亂的非結構化的形式。

「當科學家們正很好地避免了那些混亂無結構的資料時，企業卻被迫與它們正面交鋒，」 fayyad說。「這驅使企業開始開發沒有人嘗試過的技術。」

當然，挑戰依然存在，但是fayyad說：「人們可以想出更多的**模型，而且更重要的是評價他們以確定他們工作的如何……它將分析帶入到一種真正超越人類大腦理解能力的水平上。」

引自：

新的大資料的知識發現和資料探勘

大資料和資料探勘有什麼關係

大資料的資料探勘（1）

資料探勘相似項的發現

新的大資料的知識發現和資料探勘

大資料和資料探勘有什麼關係

大資料的資料探勘（1）

資料探勘 相似項的發現

相關推薦

資料探勘相似項的發現