發展大資料不能拋棄「小資料」

當前，全國各地都在建設大資料中心，有些偏僻的山區都建立了容量達2pb（拍位元組）以上的資料處理中心，許多城市公安部門要求儲存3個月以上的高畫質監控錄影。其背後的問題是，這些系統的成本都非常高。

資料探勘的價值是用成本換來的，不能不計成本、盲目建設大資料系統。什麼資料需要儲存、要儲存多長時間，應當根據可能的價值和所需的成本來決定。大資料系統技術還在研究之中，美國的e級超級計算機系統要求能耗降低到原來的千分之一，計畫到2023年才能研製出來。因此，用現在的技術構建的巨型系統，能耗極高。

一味追求資料規模不僅會造成浪費，而且效果未必很好。多個**「小資料」的整合融合可能挖掘出單一**大資料得不到的「大價值」。因此，應在資料的融合技術上多下功夫，重視資料的開放與共享。所謂資料規模大與應用領域有密切關係，有些領域幾個pb的資料未必算大，有些領域可能幾十tb（太位元組）已經是很大的規模。

此外，大資料主要難點不是資料量大，而是資料型別多樣、要求及時回應和原始資料真假難辨。現有資料庫軟體無力應對非結構化資料，所以要重視資料融合、資料格式的標準化和資料的互操作。資料質量不高是大資料的特點之一，但盡可能提高原始資料的質量仍然值得重視。比如，腦科學研究的最大問題就是採集的資料可信度差，基於可信度很差的資料難以分析出有價值的結果。

實際上，發展資訊科技的目的是為人服務，檢驗技術的唯一標準是應用。我國發展大資料產業一定要堅持「應用為先」的發展戰略，堅持應用牽引的技術路線。所謂技術有限、應用無限，各地發展雲計算和大資料，一定要通過政策和各種措施調動應用部門和創新企業的積極性，通過跨界的組合創新開拓新的應用，從應用中找出路。

目前流行的大資料定義是「當前技術無法處理的資料集合」，這種針對未知技術的定義強調大資料不同於資料庫等傳統技術能對付的小資料，有利於推動基礎研究、激勵探索新技術，但可能引導大家只重視目前解決不了的問題，如同走路的人想踩著自己身前的影子。其實，目前各行各業碰到的資料處理多數還是「小資料」問題。我們應重視實際碰到的問題，不管是大資料還是小資料。

統計學家們花了200多年，總結出認知資料過程中的種種陷阱，這些陷阱不會隨著資料量的增大而自動填平。大資料中有大量的小資料問題，大資料採集同樣會犯小資料採集一樣的統計偏差。google公司的流感**這兩年失靈，就是由於搜尋推薦等人為的干預造成統計誤差。

因此，我們不要攀比大資料系統的規模，而是要比實際應用效果，比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大資料應用，因地制宜發展大資料。發展大資料與實現資訊化的策略一樣：目標要遠大、起步要精準、發展要快速。

發展大資料不能拋棄「小資料」

大資料未來發展

大資料發展歷程

大資料發展歷程

發展大資料不能拋棄「小資料」

大資料未來發展

大資料發展歷程

大資料發展歷程

相關推薦