大資料及下一代基礎設施

2021-06-19 21:27:00 字數 2185 閱讀 3132

什麼是大資料?

對於大資料的概念,這裡給出的定義是超出現有資料庫系統處理能力的資料。由於過快的資料產生速度,以及規模巨大的資料量,這就要求使用合適的系統來處理它們。

大資料的價值主要可以分為兩種:資料分析、開發新產品。大資料分析能夠揭露消費行為及趨勢,如消費者如何受到同齡人的影響。對開發新產品而言,通過組合大量資料所透出的使用者行為及群體關係,facebook能夠開發更具個性化的使用者體驗和獨特廣告系統。

大資料的主要特徵可以用3v來表示,即資料量volume,資料產生速率velocity,資料的多樣化variety。

(1)資料量volume:大規模的資料量能夠使得資料分析更為有效。例如使用300個因素總能比使用6個因素**的結果更為準確。大規模的資料量同時對傳統的it基礎設施提出了挑戰,因為它需要可擴充套件的儲存,以及分布式的查詢方法。

(2)資料產生速率velocity:隨著網際網路和移動網際網路的飛速發展,資料量的產生速度也與日俱增。

(3)資料的多樣化variery:這樣多樣性主要集中在網際網路上的大量資料都是無結構的,這使得很難用傳統的關係型資料庫去有效處理。例如,來自社交網路的文字,影象資料,感測器資料等。

實時的資料分析

資料分析技術的發展經歷了三個主要階段,第乙個階段是操作型資料庫,與此對應的是聯機事務處理oltp。其基本特徵是顧客的原始資料傳送到計算中心進行處理,並在很短的時間內給出處理結果。這個階段的資料分析主要依靠人工來對歷史資料進行分析。

第二個階段是資料倉儲技術的發展,資料倉儲是決策支援系統和聯絡分析應用資料來源的結構化資料環境。與此對應的是聯機分析處理olap,其針對的是多維資訊共享,並能夠針對特定問題進行聯機資料的訪問和分析,並能產生**或圖形化的分析結果。olap可以用於分析當前資料從而改進商業業務質量。

第三個階段是流計算(stream computing)的發展,即對實時資訊進行分析處理。流計算要求能夠在流資料實時變化的過程中實時的對其進行分析,捕捉到可能對使用者有用的資訊。與此對應的是實時分析處理olap,從而改進業務響應。而這也正是企業所最需要的。

當前關係型資料庫存在的問題

(1)不能夠處理非**化的資料

(2)不能在硬體群中很好的發揮並行處理能力

(3)受網路延遲,硬碟尋道時間等影響

(4)可擴充套件性不好

(5)難以處理非關係型的資料來源

(6)難以處理日益劇增的pb級別的資料

大資料,資料庫的新面孔

大資料分析,要求能夠對社交網路中使用者互動產生的資料,感測器資料,及實時流資料等非結構化的資料進行分析處理,這也將成為下一代it的前沿領域。

hadoop是apache組織的乙個頂級專案,其也成為大資料領域的核心推動力量。hadoop能夠將廉價的硬體組成集群提供伺服器級別的分布式處理能力。

hadoop的核心:mapreduce

mapreduce是google為了計算web搜尋索引而開發的,而mapreduce也成為了當今絕大部分大資料處理的推動力量。除了hadoop,你還能再mpp及nosql資料庫mongodb中發現mapreduce。

通過mapreduce能夠將對乙個資料集的查詢拆分成許多小份,然後在多個節點上並行處理它們。mapreduce的過程可以概括為:input > map > shuffle/sort > reduce > output。

hadoop則是mapreduce的乙個開源實現——廉價的裝置+linux+hadoop可以用很低的成本架設大規模計算集群。hadoop是這乙個開源專案總的生態系統的名稱,其還包括很多其他的技術。

mapreduce主要進行分布式計算的工作,其背後依靠於資料訪問技術,hadoop提供了hdfs——hadoop distributed file system。hdfs和mapreduce都是高可靠的,即使hadoop集群中出現了伺服器錯誤,計算過程依然會繼續。hdfs允許同乙份資料分發到多個節點進行計算。並且,hdfs對所儲存的資料沒有限制,資料可以使無結構化的資料。

下一代超融合基礎設施解鎖混合雲的潛力

超融合基礎設施 hci 通過提供一種打破計算和儲存之間的傳統孤島的新方法而引起人們的關注。儘管越來越多的組織正在採用它,但大部分部署都是在資料中心的外圍,或虛擬桌面基礎設施 vdi 等應用中。但是,由於hci進入第二階段的應用,因為在未來一年雲計算將會發生重大變化,這對於雲計算行業說具有深遠的意義。...

下一代超融合基礎設施解鎖混合雲的潛力

超融合基礎設施 hci 通過提供一種打破計算和儲存之間的傳統孤島的新方法而引起人們的關注。儘管越來越多的組織正在採用它,但大部分部署都是在資料中心的外圍,或虛擬桌面基礎設施 vdi 等應用中。但是,由於hci進入第二階段的應用,因為在未來一年雲計算將會發生重大變化,這對於雲計算行業說具有深遠的意義。...

XR,下一代搜尋

我們未來會陸續推出一系列文章,而本篇則是開宗明義的第一章,希望能藉此機會和更多開發者互相交流對搜尋 xr的理解,以及對其未來發展的看法 xr,下一代網際網路 我們認為,xr是下一代網際網路的核心要素,也是手機之後的下一代終端裝置,原因有以下兩點 首先,ar vr更符合人類的認知方式,因為我們每個人都...