成功大資料團隊的「三駕馬車」

2021-06-26 16:29:48 字數 1233 閱讀 5738

星期五, 一月 3, 2014

動態, 大資料

對於那些著手嘗試大資料應用的企業來說,成敗的關鍵是組建乙個優秀的大資料團隊,但是不要指望乙個「首席資料官(cdo)」或者資料科學家搞定所有的事情,成功的大資料團隊需要三駕馬車:一位業務分析師、一位機器學習專家和一位資料工程師。

隨著大資料企業應用的火熱開展,資料科學家正在鬧人才荒,可謂一將難求,但是lithium公司的首席科學家michael wu博士在接受iw採訪時表示:資料科學家的人才荒是因為人們對資料科學家的期望值過高,希望他即懂業務也懂最先進的大資料技術,這樣的人才自然是奇貨可居,而且不是每個企業有錢就能招募到的。

「三個臭皮匠頂個諸葛亮」,對於大多數企業來說,與其指望一位大資料「救世主」,不如重點關注如何搭建乙個成功的大資料團隊。

wu博士認為,資料科學家這個稱謂被過度炒作了,實際上人們口中的資料科學家對應著多個職位:「當人們嚷嚷資料科學家人才匱乏的時候,實際上他們指的是同時具備多個職位技能的人才缺乏。而企業完全能夠通過將業務分析師、機器學習專家和資料工程師這三類人才捏合成乙個團隊來代替資料科學家。」

業務分析師這個角色早在資料科學家之前就已經出現了,業務分析師使用前端工具分析企業核心業務資料並給出能支撐決策的分析結果,這些工具包括excel、tableau的資料視覺化工具或者qlikview的商業智慧型應用。業務分析師通常也有足夠的程式設計技能來開發儀錶盤,對sql和nosql也不陌生。

隨著大資料的熱潮到來,很多業務分析師開始自我標榜為資料科學家,「但實際上他們不是」,wu博士說道。不過,根據alteryx的**,掌握大資料分析技術的業務部門分析人員將比大資料科學家對企業更加重要。這意味著2023年資料科學家的高工資難以持續。

大資料團隊的第三個重要角色是資料工程師,他們是大資料團隊的基石,他們直接面對hadoop、mapreduce、hbase、cassandra這樣的大資料技術。大資料工程師的興趣在於採集、儲存和處理資料,以便演算法團隊能在其上建模。

it經理網點評:業務分析師、機器學習專家和大資料工程師是大資料團隊的三駕馬車,這沒有錯,但是真正成功的大資料團隊也許還需要一些「調料」,在「打造頂級大資料團隊的幾個偏方」一文中,我們了解到物理學家、工商管理人士甚至**人才也是優秀大資料團隊不可或缺的人才。總之,企業需要認識到大資料絕不僅僅是技術和業務工具,而是乙個需要激發創造力、多元文化才能發揮最大價值的戰略性**,而這也往往是成敗的關鍵所在。

谷歌大資料的三駕馬車

本文介紹大資料分析的鼻祖型 谷歌三駕馬車 這包括處理分布式資料的mapreduce 儲存大量資料的gfs以及列式儲存bigtable,當前流行的大資料技術都是在谷歌發表了這三大 以後,不斷的發展起來的,典型的就是apache開源的hadoop和hbase,其中hadoop的mapreduce和hdf...

全面了解大資料「三駕馬車」的開源實現

google file system gfs 的開源實現 hdfs mapreduce 的開源實現 hadoop mapreduce bigtable 的開源實現 hbase1.hdfs 是在乙個大規模分布式伺服器集群上,對資料分片後進行並行讀寫及冗餘儲存。2.hdfs 的關鍵元件有兩個,乙個是 d...

全面了解大資料「三駕馬車」的開源實現

google大資料 三駕馬車 的第一駕是gfs google檔案系統 而hadoop的第乙個產品是hdfs,可以說分布式檔案儲存是分布式計算的基礎,也可見分布式檔案儲存的重要性。hdfs是在乙個大規模分布式伺服器集群上,對資料分片後進行並行讀寫及冗餘儲存。從圖中你可以看到hdfs的關鍵元件有兩個,乙...