大資料變革將至 hadoop面臨巨大挑戰

2023年，支援大量結構化和非結構化資料的系統將繼續增長。市場需要資料平台來幫助資料管理人員管理和保護大資料，同時允許終端使用者進行資料分析。這些系統將逐步成熟，在企業內部的it系統中更好地執行。

2023年大資料將不再是hadoop一家獨大，也不再是程式設計者們的自娛自樂，企業和終端使用者的不斷湧入，海量資料「堆積如山」，隨之而來的儲存、分析、處理成為從業者的下一挑戰。

1.資料處理變得更加快速，資料也變得更加易於使用

選項擴充套件將加速hadoop

當然，你可以在hadoop上執行機器學習和情緒分析，但人們常常會問的第乙個問題是：互動式sql（結構化查詢語言，一種資料庫查詢和程式語言，用於訪問資料以及查詢、更新和管理關係資料庫系統）究竟有多快？畢竟，sql相當於企業使用者的「導管」——他們希望使用hadoop資料來更快的獲得可復用的bi儀錶盤（一種向企業展示度量資訊和關鍵業務指標即kpi現狀的資料虛擬化工具），或者是進行一些探索性分析。

這種對速度的需求促使使用者採用訪問速度更快和執行效率更高的資料庫，如exasol、memsql，或者是類似於kudu這種基於hadoop的商店，當然還需要能夠更快查詢資料的技術。諸如sql-on-hadoop引擎（apache impala，hive llap，presto，phoenix和drill）和olap-on-hadoop技術（atscale，jethro data和kyvos insights）這樣的資料查詢加速器將進一步模糊傳統資料庫與大資料世界的邊界。

2.大資料不再只是hadoop

專門基於hadoop開發的工具已過時

在過去的幾年中，隨著大資料浪潮來襲，數種為了滿足hadoop分析需求的技術興起。但是，身處複雜，異構環境中的企業不再希望僅為乙個資料來源（hadoop）採用孤立的bi訪問點。他們需要的答案被埋沒在一大堆資料來源中，從記錄系統到雲端，再到來自hadoop和非hadoop源的結構化和非結構化資料。（順便說一句，甚至連關係型資料庫也正在為大資料趨勢做準備。例如，sql server 2016於近日新增了json支援）。

在2023年，客戶將會需要對所有資料都進行分析。不依賴於資料來源的平台將會茁壯成長，而專為hadoop而設計的平台和未能跨應用部署的平台將被棄用。platfora的退出便是這一趨勢的預示。

3.相關組織將利用資料湖(datalake)來實現價值

資料湖就像乙個人造水庫

資料湖就像乙個人造水庫。首先你要建造乙個水壩（構建乙個集群），然後填滿水（資料）。一旦建立了湖泊，你將開始因為各種目的而使用這些水資源（資料），如發電，飲用以及各種消遣（**分析，機器學習，網路安全等）。

而今，保有資料湖裡的資料已經變成了一種為了保留而保留的行為。在2023年，這將隨著hadoop業務的收緊而改變。各個組織要求可重複的並且敏捷地使用資料湖，以便更快地獲得響應。在確定對人事、資料和基礎設施的相應投資之前，企業會更加慎重的考慮業務成果。這將促進業務和it之間的強力耦合。而自助服務平台作為分析大資料資產的工具將獲得更深入的認可。

另外，公司還將關注業務驅動型應用，避免資料湖陷入困境。在2023年，企業機構將從「構建未來」的資料湖應用轉向業務驅動型資料應用。當今世界需要分析和操作能力去觸及客戶、處理索賠並且連線到個體的不同裝置。

舉例而言，任何商業**需要提供實時的個性化推薦和**查詢。醫療健康型企業必須處理有效的索賠並且運用分析運營系統來防止索賠欺詐。**公司需要通過機頂盒提供個性化的內容。汽車製造商和汽車共享公司則要互動運營其車輛和司機。這些案例的實施交付均需要由乙個敏捷平台來實現，同時提供分析和運營的處理，跨越後台分析和前台運營進行整合，提公升了商業價值。

4.成熟的架構拒絕通用型框架

hadoop不再只是乙個用於資料科學用例的批處理平台。

hadoop不再只是乙個用於資料科學用例的批處理平台。它已經成為一種專為特殊分析而架設的多用途分析引擎，甚至被用於日常工作負載的操作報告——傳統上這項任務是由資料倉儲（大量資料提取和分析的工具）來處理的。

在2023年，各個組織將通過特定的用例的架構設計來滿足現存的混合需求。他們將研究一系列的因素，包括使用者角色模型、訪問頻率、資料速度和聚合級別等，然後才能提交合適的資料策略。這些現代化的參考架構由需求驅動，他們將以某種方式將最好的自助服務資料準備工具hadoop核心和終端使用者分析平台結合起來，以便可以根據這些需求進行重新配置。這些架構的靈活性將最終推動技術選擇。

5.推動大資料投資的是資料的多樣性，而不是體量和速

gartner將大資料定義為「三高」

gartner將大資料定義為「三高」：高容量，高速率，高品類的資訊資產。正如new vantage partners最近的一項調查結果所示：雖然三個特性都在凸顯，但其中，多元化無疑正成為大資料投資的主導推動力。

6.spark和機器學習打通大資料的任督二脈

apache spark曾是hadoop生態系統的乙個元件，現在正成為大資料平台企業的首選。

在對資料架構師、it經理和bi分析師的調查中，近70％的受訪者表示，現有的mapreduce裡邊最青睞spark，它是批量導向的並行處理，但不適合互動式應用程式或實時流處理。

這些以大資料為基礎的超級計算能力為計算密集型的平台提供了極大的助力，如：機器學習（ml）、人工智慧（ai）、圖形演算法等。尤其對於microsoft azure 機器學習，由於上述計算能力也完全適用於初學者，並能迅速整合到現有的microsoft平台。向大眾開放機器學習將有助於建立更多的模型和應用程式來生成pb級資料。隨著機器學習和系統日益智慧型化，自助服務軟體提供商們是時候要挖掘一下大資料的力量如何變現到終端使用者身上。

7.物聯網、雲服務和大資料集結起來便是自助服務的新機遇

在2023年，似乎一切都將有乙個感測器把資訊送回主體

iot正在生成大量的結構化和非結構化資料，而且越來越多的資料部署在雲服務上。資料通常是異構的，並且存在於多個關係和非關係系統中，如hadoop集群、非關聯式資料庫等。

雖然儲存和管理服務的創新加快了資料獲取的步伐、程序程，但訪問和理解資料本身仍然是棘手的「最後一公尺」。因此，對於無縫連線和組合各種雲託管資料來源的分析工具的需求正在增長。這樣的工具使企業實現了大資料庫的即時調取和視覺化管理，，從而幫助物聯網投資者挖掘隱藏的機會。

8.在終端使用者驅動下，自助資料預處理走向主流

hadoop資料如何走進企業使用者，是當下最大的挑戰之一。

hadoop資料如何走進企業使用者，是當下最大的挑戰之一。自助服務分析平台的興起改善了這一過程。但企業使用者希望進一步簡化資料分析的流程，尤其在處理多種資料型別和格式時，這一訴求更加明顯。

敏捷的自助服務資料預處理工具不僅可以在源處預處理hadoop資料，而且還使資料作為快照來用，從而進行簡易便捷的進一步處理。

我們已經看到了的一大批面向終端使用者的大資料預處理創新， alteryx、trifacta和paxata。這些工具降低了後期hadoop採用者和初學者的進入門檻，並將在2023年體現更大價值。

9.大資料成長：hadoop增加了企業標準

hadoop將逐漸成為企業it環境的核心部分。

hadoop將逐漸成為企業it環境的核心部分。在2023年，我們將看到圍繞企業系統的安全、管理成為投資熱地的更多投資。apachesentry提供了乙個系統，在這個系統中，我們可以強制對元資料進行細緻的、按需分配的授權。

作為資料管理的一項重大創舉，apache atlas，讓企業可以在繁雜的資料生態系統中實行統一的資料分類。apache ranger為hadoop提供集中式安全管理。

客戶開始期望從企業級rdbms平台獲得這些型別的功能。這些功能走在新興大資料技術的前沿，從而消除了企業關於技術迭代而被淘汰方面的擔憂。

10.元資料目錄的建立幫助篩選出具有分析價值的資料

很長一段時間以來，公司拋棄了資料，因為他們認為海量的資料處理起來確實無從下手。

很長一段時間以來，公司拋棄了資料，因為他們認為海量的資料處理起來確實無從下手。用hadoop當然也可以處理大量的資料，但是這些資料仍然沒有乙個清晰的分類、易追溯的架構。

元資料目錄可以幫助使用者發現和理解哪些資料需要使用自助服務工具進行分析。客戶的這種需求正被alation和waterline這樣的公司填補，它們使用機器學習來自動篩選hadoop需要分析的資料：

大資料發展還是變革？

無論你是使用關係型資料庫系統雜湊表，還是其它結構來維護資料，你肯定對nosql和大資料有所耳聞。目前，谷歌雅虎和亞馬遜等公司都已經在開發或者使用大資料 nosql的解決方案。但除了一些非常具體的案例外，這些大資料的實現方案真的那麼有用嗎？在近期的一篇文章中，凱捷諮詢公司的史蒂夫瓊斯甚至指出有時...

大資料變革將至 hadoop面臨巨大挑戰

大資料 發展還是變革？

大資料 發展還是變革？

大資料 發展還是變革？

相關推薦

大資料發展還是變革？

大資料發展還是變革？

大資料發展還是變革？