企業應該如何在大資料基礎架構方面做出選擇?

2021-09-23 03:18:35 字數 2286 閱讀 9477

如果詢問十家公司他們為了執行大資料負載需要使用怎樣的基礎架構,那麼可能會得到十種不同的答案。現在這個領域當中幾乎沒有可以遵循的原則,甚至沒有可以參考的最佳實踐。

不管是從資源還是從專業性方面來說,大資料分析已經成為基礎架構領域當中真正的難題。顧名思義,大資料分析工具所針對的資料集合,規模將會非常龐大,並且需要大量的計算、儲存和網路資源來滿足效能需求。但是這些大資料工具通常是由超大規模企業開發的,這些企業並不存在普通企業需要考慮的同等級安全問題和高可用性問題,而主流it企業還沒有深入了解這些工具,再加上大資料在投資回報率方面的不確定性,導致只有非常少的企業願意在大資料方面進行投入。

此外,即便對於曾經在hadoop、spark和類似產品上執行過大資料集群的部分企業來說,也會在大資料基礎架構方面遇到技術和業務方面的挑戰。

大資料帶來大問題

一家大型遠端通訊提供商正在構建一種新的數字服務,預計在今年年底正式推出,並且準備使用hadoop來分析這種服務所產生的內容、使用情況和收入(廣告服務)資料。但是由於這種服務是全新的,因此很難分析應該使用哪種大資料基礎架構,負責這個專案的技術副總裁表示。

「對於乙個還沒有推出的專案來說,我們不可能進行任何容量規劃,」他說。

確實,現在很多大資料專案仍然處於初級階段。「大多數大資料專案的性質比我們想象的還要低,」 可擴充套件儲存基礎架構提供商coho data cto andrew warfield表示。

即便企業還不是十分了解大資料技術,但這並不意味著企業不應該在大資料方面投入精力。「但是執行這種技術可能面臨著很大風險,提前認識到這點非常重要,」 warfield說,他認為企業應該提前考慮基礎架構方面的因素。

對於這家遠端通訊提供商來說,他們將會採用一種漸進的方式,使用來自於bluedata software的軟體在商用硬體環境當中執行大資料集群,這樣就能夠從現有的儲存系統上訪問資料了。

無處不在的資料

如果資料來自於雲,那麼當然可以直接在雲中進行分析;如果資料全部位於本地,那麼底層的基礎架構也應該位於本地。但是如果資料分散在不同位置,那麼無疑會使得基礎架構更加複雜。

遠端通訊提供商的服務將會同時使用來自於雲和本地的資料。對於任何大資料解決方案來說,考慮到合規性、節省時間和網路頻寬等因素,能夠同時支援兩種資料**都是十分重要的。「同步生產環境當中的資料是一件非常困難的事情,」這位副總裁說,「我們希望將所有的例項全都指向乙個單一資料來源。」

此外,雖然資料科學家想要分析的資訊是可用的,但是現在還不能進行使用,因為其位於大資料計算工具無法訪問的儲存基礎架構當中,warfield說。一種解決方案是儲存硬體使用hadoop distributed file system或者restful api這樣的協議公開這些資料。

注意延遲

對於特性型別的大資料分析來說,將資料從儲存陣列移動到計算環境所花費的時間將會對效能造成嚴重影響。但是如果不將資料跨越整個網路移動到計算環境當中,而是將應用程式移動到資料附近以降低延遲,將會怎樣呢?

將計算環境移動到資料附近並不是一種全新的概念,但是現在出現了一種前所未有的實現方式:docker。比如coho data和intel通過合作證明了這種概念的有效性,在乙個大型金融服務公司當中,使用docker格式封裝計算節點,之後在上面直接執行hadoop負載。

在儲存陣列上直接執行docker容器,這樣做的意義在於直接對附近的資料進行分析,而不再需要跨網路移動資料,同時利用任何可用的計算資源。「相比於其他儲存平台來說,大資料平台的cpu使用率通常會很高,」 warfield說。「更何況如果你將快閃儲存器加入其中,那麼問題就會變成『我該如何從這種資源當中獲得更多價值?』」

直接在儲存陣列當中執行容器化應用程式是一件非常有趣的事情,但是需要提前對負載進行認真評估,以確保其能夠很好地適應當前環境,為建築行業提供文件管理服務的signature tech studios公司副總裁bubba hines說。這種服務基於amazon web services,使用來自於zadara storage的儲存服務。這家公司最近開始評估新的zadara container service,其中容器化應用程式執行在儲存陣列上,可以直接訪問本地磁碟。根據hines的想法,現在有幾種可能的使用情況:在儲存陣列上執行其災難恢復軟體的容器版本來持續監控使用者資料和工作方面的變化,更改或者驗證主要儲存資料。

但是如果使用zadara container service處理全部資料將沒有什麼意義。signature tech studio的系統正在按照計畫執行資料轉換,並且已經實現大規模容器化了。但是「我們可能不會將所有docker容器移動到zadara容器服務當中,因為從體積和規模方面考慮這樣做並沒有意義,」hines說。「我們必須尋找能夠真正從降低延遲當中獲利的負載。」

原文發布時間為:2023年10月26日

大資料時代的石化企業,應該如何玩轉大資料

根據idc 監測,人類產生的資料量正在呈指數級增長,大約每兩年翻一番,這個速度在2020 年之前會繼續保持下去。這意味著人類在最近兩年產生的資料量相當於之前產生的全部資料量。於此同時,大量新資料來源的出現則導致了非結構化 半結構化資料爆發式的增長。這些由我們創造的資訊背後產生的這些資料早已經遠遠超越...

大資料如何在製造企業中落地?

每個企業都有自己的規劃和自己企業在運營環節的管理最佳實踐,畢竟,這麼多年的資訊化建設,對企業的產品製造的方方面面都有了很大的提公升。大資料對促進 鏈中的生產環節產生了前所未有的巨大影響,在眾多的運營決策改進裡面,這些影響包括產品設計,質量控制,客戶畫像等等。由於任何問題都有可能在某種程度得到優化,問...

大資料對當代企業推廣價值何在

大資料對當代企業推廣價值何在 什麼是 大資料 直白的解釋就是 通過一定的技術在合理的時間獲取到海量資料並且加以分析,然後用這個分析結果去做各種研究 決策等等。關於大資料筆者認為首先必須先弄清楚三個重點。資料的規模一定要 大 資料規模越大,分析結果的精確度就越高,千萬億 甚至百億億位元組量級的資料所能...