構建成功大資料基礎設施的七大關鍵點

2021-09-23 07:00:23 字數 1946 閱讀 5052

大資料是當今許多企業it運營的乙個重要組成部分。據知名調研公司idc**,到2023年,大資料市場產值將達到1870億美元。大資料是資料分析的乙個關鍵部分,而分析又是機器和人類商業智慧型及決策的基礎。因為很明顯,要是沒有某種基礎設施,你無法獲得各種資料:大資料、小資料或完全正確的資料,所以有必要看一看有助於構建成功大資料架構的幾個因素。

其中,一些因素可能看起來很明顯,另一些則比較微妙。實際上,所有因素共同對你的大資料系統將支援的分析和行動帶來巨大的影響。

當然,不是說只有這七個因素才會對大資料基礎設施的工作方式帶來影響。大資料系統牽涉好多部分,但這七個因素值得你考慮,因為它們是許多其他部分和流程的基礎。

眼下,你可能在使用大資料,即便你是在一家小公司工作。這要拜現有的基礎設施部分所賜――其中許多部分連最小的it部門也能訪問。

伴隨這種可訪問性而來的是,那些本身並不擁有資料科學專長的小公司員工可能感到困惑和沮喪。如果你處於這種情形,本文不會消除你的所有困惑,但是讓你可以開始向潛在的服務提供商和**商提一些針對性的問題。

大資料遠不止hadoop

在平常的談話中,大資料和hadoop常常被人換著使用。這樣的結果讓人遺憾,因為大資料遠不止hadoop。 hadoop是一種檔案系統(而不是資料庫),旨在跨數百或數千個處理節點傳送資料。它用於許多大資料應用,原因是作為一種檔案系統,它擅長處理非結構化資料,這類資料甚至不像其周圍的資料。當然,一些大資料是結構化的,為此你需要乙個資料庫。但資料庫是本文介紹的乙個不同因素。

hive和impala將資料庫引入到hadoop

這裡說的是面向大資料世界中結構化資料的資料庫。如果你想讓hadoop資料平台井然有序,那麼hive可能正是你需要的。這種基礎設施工具讓你可以針對非常不像sql的hadoop處理類似sql的操作。

spark用於處理大資料

到目前為止,我們一直在談論儲存和組織資料。但是,如果你想實際處理資料又怎麼樣?這時候,你就需要一種像spark這樣的分析和處理引擎。spark是另乙個apache專案,它包括一批開源和商業產品,拿來你新增到資料湖、倉庫和資料庫的資料後,對資料做一些有用的操作。

由於它可以訪問你能想象的任何資料的庫,spark可用於處理儲存在各種地方的各種資料。它同樣是開源的,所以你可以隨意修改它。

你可以對大資料執行sql操作

許多人知道如何構建sql資料庫和編寫sql查詢。面對大資料時,這種專長沒有必要浪費。presto是一種開源sql查詢引擎,它讓資料科學家可以使用sql查詢,查詢駐留在從hive到專有商業資料庫管理系統的任何環境的資料庫。它被facebook之類的大公司用於互動式查詢,而互動式查詢這個短語是關鍵。presto就好比是一種對龐大資料集執行即席互動式查詢的工具。

一些大資料任務需要用到不斷變化的資料。有時候,這是定期新增的資料,有時是通過分析而更改的資料。不管在什麼情況下,如果你的資料寫入與讀取一樣頻繁,那麼你就需要該資料儲存在本地、聯機。如果你支付得起成本,還希望資料儲存在固態儲存介質上,因為這會大大加快速度――如果你在零售或交易場地的人員焦急地等待結果返回,這是個重要的考慮因素。

雲儲存也有一席之地

如果在更龐大的聚合資料庫上進行分析,那麼雲是完美的平台。聚合資料並傳輸到雲,執行分析,然後拆掉例項。這正是雲最擅長的那種彈性需求響應。操作不會受到網際網路可能帶來的任何延遲問題的顯著影響。如果你把在專用本地系統上進行的實時分析與雲端執行的深度分析結合起來,那麼離充分發揮大資料基礎設施的潛力近在咫尺。

別忘了視覺化

分析大資料是一回事,以一種對大多數人有意義的方式來顯示分析結果又是另一回事。圖形對於整個「解讀」工作大有幫助,所以應該將資料視覺化視作是大資料基礎設施的乙個關鍵部分。

以上就是你在企業處理大資料時應知道並牢記的七個關鍵。

構建一套成功大資料基礎設施需要遵循的七項要訣

無論從硬體還是軟體角度出發,您面向大資料構建的基礎設施都會對所支援大資料系統的分析與操作帶來巨大影響。在今天的文章中,我們將了解七項重要的大資料架構設計原則。大資料不僅是hadoop 在大多數人的理解當中,大資料與hadoop幾乎可以等而論之。事實上,大資料遠不止hadoop這麼簡單。hadoop是...

企業想要成功布局大資料的七大關鍵步驟

在這個大資料已經成為市場乙個美味的 大蛋糕 的今日,大多數企業都很想要分得一塊。大多數企業正做好了布局大資料的準備,那麼,該怎麼做才能成功去布局?最近,電子科技大學教授,雲基地大資料實驗室合夥人周濤在接受採訪時提出,對於普通企業要通過修煉成為大資料企業,關鍵要做好7個步驟 1.要實現資料化。企業要為...

大資料在醫療領域的七大應用

大資料的意義在於提供 大見解 從不同 收集資訊,然後分析資訊,以揭示用其他方法發現不了的趨勢。在利用大資料發掘價值的所有行業中,醫療行業有可能實現最大的回報。憑藉 大資料 醫療服務提供商不僅可以知道如何提高盈利水平和經營效率,還能找到直接增進人類福祉的趨勢。例如,美國疾病控制與預防中心 cdc 一直...