企業應該如何在大資料基礎架構方面做出選擇？

如果詢問十家公司他們為了執行大資料負載需要使用怎樣的基礎架構，那麼可能會得到十種不同的答案。現在這個領域當中幾乎沒有可以遵循的原則，甚至沒有可以參考的最佳實踐。

不管是從資源還是從專業性方面來說，大資料分析已經成為基礎架構領域當中真正的難題。顧名思義，大資料分析工具所針對的資料集合，規模將會非常龐大，並且需要大量的計算、儲存和網路資源來滿足效能需求。但是這些大資料工具通常是由超大規模企業開發的，這些企業並不存在普通企業需要考慮的同等級安全問題和高可用性問題，而主流it企業還沒有深入了解這些工具，再加上大資料在投資回報率方面的不確定性，導致只有非常少的企業願意在大資料方面進行投入。

此外，即便對於曾經在hadoop、spark和類似產品上執行過大資料集群的部分企業來說，也會在大資料基礎架構方面遇到技術和業務方面的挑戰。

大資料帶來大問題

一家大型遠端通訊提供商正在構建一種新的數字服務，預計在今年年底正式推出，並且準備使用hadoop來分析這種服務所產生的內容、使用情況和收入（廣告服務）資料。但是由於這種服務是全新的，因此很難分析應該使用哪種大資料基礎架構，負責這個專案的技術副總裁表示。

「對於乙個還沒有推出的專案來說，我們不可能進行任何容量規劃，」他說。

確實，現在很多大資料專案仍然處於初級階段。「大多數大資料專案的性質比我們想象的還要低，」可擴充套件儲存基礎架構提供商coho data cto andrew warfield表示。

即便企業還不是十分了解大資料技術，但這並不意味著企業不應該在大資料方面投入精力。「但是執行這種技術可能面臨著很大風險，提前認識到這點非常重要，」 warfield說，他認為企業應該提前考慮基礎架構方面的因素。

對於這家遠端通訊提供商來說，他們將會採用一種漸進的方式，使用來自於bluedata software的軟體在商用硬體環境當中執行大資料集群，這樣就能夠從現有的儲存系統上訪問資料了。

無處不在的資料

如果資料來自於雲，那麼當然可以直接在雲中進行分析；如果資料全部位於本地，那麼底層的基礎架構也應該位於本地。但是如果資料分散在不同位置，那麼無疑會使得基礎架構更加複雜。

遠端通訊提供商的服務將會同時使用來自於雲和本地的資料。對於任何大資料解決方案來說，考慮到合規性、節省時間和網路頻寬等因素，能夠同時支援兩種資料**都是十分重要的。「同步生產環境當中的資料是一件非常困難的事情，」這位副總裁說，「我們希望將所有的例項全都指向乙個單一資料來源。」

此外，雖然資料科學家想要分析的資訊是可用的，但是現在還不能進行使用，因為其位於大資料計算工具無法訪問的儲存基礎架構當中，warfield說。一種解決方案是儲存硬體使用hadoop distributed file system或者restful api這樣的協議公開這些資料。

注意延遲

對於特性型別的大資料分析來說，將資料從儲存陣列移動到計算環境所花費的時間將會對效能造成嚴重影響。但是如果不將資料跨越整個網路移動到計算環境當中，而是將應用程式移動到資料附近以降低延遲，將會怎樣呢？

將計算環境移動到資料附近並不是一種全新的概念，但是現在出現了一種前所未有的實現方式：docker。比如coho data和intel通過合作證明了這種概念的有效性，在乙個大型金融服務公司當中，使用docker格式封裝計算節點，之後在上面直接執行hadoop負載。

在儲存陣列上直接執行docker容器，這樣做的意義在於直接對附近的資料進行分析，而不再需要跨網路移動資料，同時利用任何可用的計算資源。「相比於其他儲存平台來說，大資料平台的cpu使用率通常會很高，」 warfield說。「更何況如果你將快閃儲存器加入其中，那麼問題就會變成『我該如何從這種資源當中獲得更多價值？』」

直接在儲存陣列當中執行容器化應用程式是一件非常有趣的事情，但是需要提前對負載進行認真評估，以確保其能夠很好地適應當前環境，為建築行業提供文件管理服務的signature tech studios公司副總裁bubba hines說。這種服務基於amazon web services，使用來自於zadara storage的儲存服務。這家公司最近開始評估新的zadara container service，其中容器化應用程式執行在儲存陣列上，可以直接訪問本地磁碟。根據hines的想法，現在有幾種可能的使用情況：在儲存陣列上執行其災難恢復軟體的容器版本來持續監控使用者資料和工作方面的變化，更改或者驗證主要儲存資料。

但是如果使用zadara container service處理全部資料將沒有什麼意義。signature tech studio的系統正在按照計畫執行資料轉換，並且已經實現大規模容器化了。但是「我們可能不會將所有docker容器移動到zadara容器服務當中，因為從體積和規模方面考慮這樣做並沒有意義，」hines說。「我們必須尋找能夠真正從降低延遲當中獲利的負載。」

原文發布時間為：2023年10月26日

企業應該如何在大資料基礎架構方面做出選擇？

大資料時代的石化企業，應該如何玩轉大資料

大資料如何在製造企業中落地？

大資料對當代企業推廣價值何在

企業應該如何在大資料基礎架構方面做出選擇？

大資料時代的石化企業，應該如何玩轉大資料

大資料如何在製造企業中落地？

大資料對當代企業推廣價值何在

相關推薦