大資料，多大算大？

「大資料，多大算大？」——這是乙個經常被問到的問題。

這不是乙個經濟學問題，也不是乙個數學問題，而是需要具體情況具體分析的乙個實驗問題。然而，實驗需要工具。

首先，這取決於目標。如果沒有明確的目標，資料常常被籠統地認為有用。然而，實際並非如此。網際網路每天都產生大量資料，但其中大部分資料是噪音，不僅沒有用，還需要被化療掉。當我們設定好乙個可以量化的目標變數，演算法才可以用科學的方式量化評估資料價值。

其次，我們需要工具，可以自動化跑通建模全流程，從而評估效果。這在機器學習技術——有監督學習中有詳細介紹。在分類問題中，量化效果的指標包括：auc, ks, accuracy, precision, recall, f1 measure；在回歸問題中，量化效果的指標包括：rmse, rmsle, mae, gini。也就是說，當我們明確目標後，把資料丟給工具，工具告訴我們：用這份資料建模，效果是多少。

當我們有了目標和工具，我們便可以評估樣本大小和資料價值的關係了。我們可以把資料進行分割，乙份用於訓練模型（訓練資料），乙份用於測試效果。對於訓練資料，我們可以再隨機均分為n份，基於部分訓練資料進行**並計算效果。然後，我們便可以評估訓練樣本大小和模型效果之間的關係。不僅如此，我們還可以由此推斷，什麼型別的樣本最有價值。

不是所有特徵（變數）都有用，有用的特徵往往並不多。建模工具同時還可以提供——哪些特徵有用，權重分別是多少，詳見機器學習技術——有監督學習。基於機器學習演算法選擇的變數和對應權重，我們可以進一步進行關聯，找到和有用變數相關的其他潛在變數。

1.這份資料的效果有多好？

2.樣本大小與資料效果的關係？

3.什麼樣本最有用？

4.什麼特徵最有用？

如此，你便可以繼續收集和重要樣本類似的樣本，繼續提取和重要變數相關的變數。

如果我們可以輕而易舉地知道什麼資料有用，那麼，大資料，多大都不算大。

大資料，多大算大？

大資料，多大算「大

大資料，多大算「大

大資料有多大？

大資料，多大算大？

大資料，多大算「大

大資料，多大算「大

大資料有多大？

相關推薦