什麼是資料探勘

2021-04-12 20:41:46 字數 770 閱讀 1595

當今資料庫的容量已經達到上萬億的水平(t)--- 1,000,000,000,000個位元組。在這些大量資料的背後隱藏了很多具有決策意義的資訊,那麼怎麼得到這些「知識」呢?也就是怎樣通過一顆顆的樹木了解到整個森林的情況?

電腦科學對這個問題給出的最新回答就是:資料探勘,在「資料礦山」中找到蘊藏的「知識金塊」,幫助企業減少不必要投資的同時提高資金回報。資料探勘給企業帶來的潛在的投資回報幾乎是無止境的。世界範圍內具有創新性的公司都開始採用資料探勘技術來判斷哪些是他們的最有價值客戶、重新制定他們的產品推廣策略(把產品推廣給最需要他們的人),以用最小的花費得到最好的銷售。

資料探勘是乙個利用各種分析工具在海量資料中發現模型和資料間關係的過程,這些模型和關係可以用來做出**。

資料探勘的第一步是描述資料 --- 計算統計變數(比如平均值、均方差等),再用圖表或直觀的表示出來,進而可以看出一些變數之間的相關性(比如有一些值經常同時出現)。選擇正確的資料來源對整個資料探勘專案的成敗至關重要,在後面資料探勘的步驟中我們會著重強調這一點。

單單是資料描述並不能為人們制訂行動計畫提供足夠的依據,你必須用你的這些歷史資料建立乙個預言模型,然後再用另外一些資料對這個模型進行測試。乙個好的模型沒必要與資料庫中的資料100%的相符(城市交通圖也不是完全的實際交通線路的等比縮小),但他在你做決策時是乙個很好的指南和依據。

最後一步是驗證你的模型。比如你用所有對你的產品推廣計畫做出回應的人的資料庫做了乙個模型,來**什麼樣的人會對你的產品感興趣。你能在得到這個模型後就直接利用這個模型做出決策或採取行動嗎?還是更穩妥一點先對一小部分客戶做乙個實際的測試,然後再決定? 

什麼是資料探勘

簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。圖1 3 資料探勘 在你的資料中搜尋知識 有趣的模式 圖1 4 資料探勘作為知識發現過程的乙個...

什麼是資料探勘

什麼是資料探勘?簡單地說,資料探勘是指從大量資料中提取或 挖掘 知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘 稱作 挖掘,而不是砂石挖掘。因此,資料探勘應當更正確地命名為 從資料中挖掘知識 遺憾的是這個詞有點長。知識挖掘 是乙個較短的術語,但不能反映從大量資料中挖掘。畢竟,挖掘是乙個很生動...

什麼是資料探勘

由於資料科學剛剛興起,資料科學家作為一種新生職業被提出,資料研究高階科學家rachel schutt將其定義為 計算機科學家 軟體工程師和統計學家的混合體 資料探勘作為乙個學術領域,橫跨多個學科,涵蓋了統計學 數學 機器學習和資料庫等,此外還包括各類專業方向比如從油田電力 海洋生物 歷史文字 電子通...