四說大資料時代「神話」從大資料到深資料 n

作為國內最大的電商平台之一，蘇寧每天要處理數量巨大的資料。為了更快速高效地處理這些資料，蘇寧排程平台採取了哪些措施呢？

在機器學習領域一直有乙個基礎性的誤解，即更大的資料會產生更好的學習效果。然而，更大的資料並不一定意味著能發現更深刻的資訊。實際上，與資料的規模相比，資料的質量、價值和多樣性更值得關注，即資料的「深度」重於「廣度」。本文從四個角度思考了大資料時代的問題並提出了一些建議的做法以改善這些問題。

最近一段時間，對大資料的炒作正在減弱。雲計算，hadoop及其他類似的工具已經有效地解決了大資料的處理問題。但是，仍有大部分人願意在基礎設施上加大投資力度，以期望處理、儲存和組織這些大型資料庫。一味的地追求「大」，會在基礎設施和人力資源方面產生一定程度上的不必要成本。

而現在，是時候將熱點從「大資料」改為「深資料」了。如今，我們對待資料應當更加深思熟慮，而不是不加篩選地收集所有可獲得的資料來實現「大資料」。我們現在需要讓一些資料落實到位，並尋求數量和質量的多樣性。這一舉措將帶來許多長期利益。

要理解從「大」到「深」的這種轉變，首先讓我們看一下對大資料的一些錯誤觀念。以下是一些嚴重誇大的大資料神話：

所有資料都可以並且應當**獲和儲存。

更多的資料總是有助於建立更準確的**模型。

儲存更多資料的成本幾乎為零。

計算更多資料的成本幾乎為零。

然而：來自物聯網和網路流量的資料顯然超過了我們的捕獲能力。很多資料都需要在獲取時進行預處理以便儲存和管理。我們需要依照其價值對資料進行分類與篩選。

重複使用一千次相同的資料進行訓練並不會提高**模型的準確性。

儲存更多資料的成本不僅僅是亞馬遜網路服務向您收取的以tb計費的美元。同時也包括系統在查詢和管理多個資料來源的額外複雜性，以及員工移動和使用該資料的「虛擬重量」。這些成本通常高於儲存和計算費用。

人工智慧演算法對計算資源的需求會快速超越彈性雲基礎設施所能提供的算力。在沒有專業的管理策略的情況下，計算資源會呈線性增長，而計算需求則會出現超線性增長，甚至指數級增長。

如果輕信了這些神話，你所構建的資訊系統可能看起來會像是紙上談兵，或從長期角度看起來很好，但在即時性的框架中實現起來則是複雜且低效的。

以下是在資料方面盲目相信「越多越好」會導致的四個問題：

您可以採取一些措施來對抗大資料的「陰暗面」並轉為深度資料思維：

如果您專注於深度資料而不僅僅是資料的廣度，您將享受到許多好處。以下是一些關鍵問題：

許多公司的決策過程都在逐漸轉變為資料驅動的方式，這與大資料及其技術方面的突破密不可分。隨著人工智慧的興起以及對這些強大資源的處理能力的飽和，我們現在需要更加精確地根據我們的資料需求建立一種理解深度資料而不僅僅是廣度資料的文化。

檢視英文原文：

四說大資料時代「神話」 從大資料到深資料 n