資料探勘這一大領域的感想

在資料探勘領域，的確是一小撮人在看一大堆人在裸奔，而那一小撮人都在互相看對方裸奔，所以，將來物物互聯的社會，這個必定是乙個趨勢也必將會成為現實。資料探勘興起於上世紀90年代，首先做的是沃爾瑪，慢慢的被挖掘發現，成為了一門興盛的學科。正是由於該學科的產生以及要解決問題的特殊性，資料探勘不僅僅要求的是技術，還要有一定的領域知識。

首先認清楚乙個領域存在的問題，其次如何將這個問題進行描述，再進一步如何將其描述成數學問題，接著是否可以有一定的資料供你研究，並根據資料集問題構建一定的模型，最後是能否真正的解決該問題。這就是資料探勘的基本流程。

所以，資料探勘不僅僅是一門科學，而且是一種指導解決問題的思路。目前流行的而且最稀缺的是跨界人才，跨界就等於價值。上述流程裡面就可以清楚的看到，面對乙個問題，技術僅僅是解決問題的手段，而真正需要的是如何對問題進行描述。

現在大致說一下資料探勘的基本方法，面對乙個完全陌生的資料，要去了解它，

熟悉它的屬性，知道它的內涵，明白它的分布，質量怎麼樣等等，然後在以上基礎上，需要做一些特徵工程，如特徵提取，主成分分析，聚類等等，再接著就是對其進行資料的選擇，就是選擇和主體最相關的資料

，我們不能拿肺結核的資料來分析心臟病，資料要有針對性，特定問題需要特定的資料進行支撐，雖然有時候，面對乙個完全陌生的資料，我們無法判斷哪些資料和我們真正的相關，那麼就只能構建一些能夠有效的或者比較鬆弛的模型，來容忍這些和主題不相關的雜訊點。最後就是針對已有的問題以及處理好的資料進行模型構建，驗證並解決模型。

以上是資料探勘過程中的一般流程，但是一般特定問題特定分析，熊老師一直在強調不要一上來就去套模型，先分析問題，這也是以前自己犯的錯誤，面對問題不要一味的追求模型的複雜性，要用的合理，合理就是做好的。

接下來是對大資料下的**模型，以前對**類的問題理解不是很清楚，這次藉著熊老師的思想，大概有乙個比較成熟的思想，但是也是比較基本的，所有**類問題可以由以下式子說明：a+h*b

其中a是基於大量資料的基本事實，即歷史資料，歷史的資料量越大，其值就越穩定，而b則是即時事件，也就是突發情況，具有多樣性、複雜性以及即時性等，這往往和具體的環境因素有關，而h則是引數，要把**做好，最重要的就是解決b，如何在歷史資料的情況下，對b有乙個更全面的認識，但是a也是非常重要的。以前對**的理解是，在大量的歷史資料裡面，尋找資料的特徵，也即找到最合適的a，卻沒有考慮到當前的突發情況b，這樣的**，往往沒有很好地普適性，因此，對顯示即時事件的建模，也是非常重要的，當然也是很難的。

當然，今天的收穫還有很多，人生就是資料探勘，生活中的方方面面都牽扯到資料探勘，如果找到很好的方法，也許對自己的生活會有乙個新的認識。

資料探勘這一大領域的感想

一大資料概述

一大資料概述

資料探勘領域的十大挑戰問題

資料探勘這一大領域的感想

一 大資料概述

一 大資料概述

資料探勘領域的十大挑戰問題

相關推薦

一大資料概述

一大資料概述