大資料分析人才，真如馬雲說的月薪高達30K嗎？

作者 | 王新港

出品 | cda資料分析研究院

馬雲曾在卸任演講的時候說過這樣一段話：

「很多人還沒搞清楚什麼是pc網際網路，移動網際網路來了，我們還沒搞清楚移動互聯的時候，大資料時代又來了。」

而大資料專家埃里克·西格爾博士曾在《大資料**》一書中描繪了乙個大資料時代下的一天：

2023年的一天，在你驅車前往公司的路上，導航系統通過**交通流量，會自動幫你選擇一條最合適的交通路線；車內推薦系統會根據你的飲食習慣**你可能會喜歡吃什麼，並推薦沿途的早餐店；你的電子社交助理已經為你自動選擇了你可能感興趣的社交網資訊。

離埃里克博士所說的2023年雖然還有3個月左右的時間，但是書中闡述的技術如「大資料交通技術」「個性化推薦系統」「人工智慧語音助理」等已經逐漸實現，並被人們廣泛應用。而這些技術都離不開「大資料」。

volume大容量、variety多樣性、value有價值、velocity速度，4個v是業界普遍認定的大資料特點。那麼大資料是如何改變我們的生活方式的呢？我們需要了解最重要的兩個問題。即

「大資料最核心的價值是什麼？」

「大資料最核心的技術是什麼？」

首先，我們需要知道現代人類的衣食住行無外乎三大產業「農業」「工業」「服務業」，而所有產業都會從大資料的發展中受益。

農業：

大資料技術可以應用在如「土壤抽樣分析」「氣象統計監管」等與土壤，農作物，**鏈相關的農業領域上，幫助第一產業的發展。如今國外已經有一些公司把大資料技術與農業進行落地，而在我國，農業大資料還僅僅是乙個起步階段。在未來，農民可以「知天而作」依靠大資料技術實現農作物產量翻倍，降低自然災害對農產品的影響等願景。工業：工業大資料是我國重點發展的乙個方向，工業與資訊化部門一直致力於我國工業大資料的發展。如果工業產業下的各個行業與大資料可以緊密結合，對人類的生活方式的改變將是巨大的。僅僅是電力系統的配電環節，如果可以做到基於海量使用者用電特徵資料分析，進而實現檯區的負荷**、用電排程、有序用電，將極大地優化我國電力資源的分配，實現可持續發展。服務業：

第三產業是與人們的生活貼合最緊密的乙個產業。我們從幼年到老年，教育，交通，醫療，金融等行業或多或少都與我們生活相關，而這些行業與大資料更是密不可分。

醫療：

臨床資料的採集分析，優化診療流程

可穿戴裝置通過監測個人的行為如行走步數等改善我們的健康狀況

通過大資料分析生成報告顯示使用者所在地區的流感活動。

交通：

路網監控優化重點城市交通壓力

電子導航即時分析道路狀況，為車主調整最佳路線

物流行業的車輛，路線，網點建設

娛樂：

網易雲**「個性化推薦」

《紙牌屋》演員的篩選

電信：

通過大資料平台優化網路布局，提公升使用者體驗

記錄使用者在wifi網路中的地理位置等資料銷售給廣告客戶。

銀行：

風控模型的建立與優化

定製化金融服務等

由於某些客觀原因，相對於第一產業和第二產業來說，第三產業憑藉自身的優勢，大多匯聚了當前最海量的資料以及大批的科研中堅力量。而無論在哪一產業，隨著計算機處理能力的日益強大，你能獲得的資料量越大，你能挖掘到的價值就越多。

分布式系統：

hadoop：作為乙個開源的框架，專為離線和大規模資料分析而設計。

資料採集：

sqoop：用來將關係型資料庫和hadoop中的資料進行相互轉移的工具，可以將乙個關係型資料庫中的資料匯入到hadoop(中，也可以將hadoop中的資料匯入到關係型資料庫中。

資料儲存，預處理：

hbase：是乙個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是資料儲存、nosql資料庫。

hql：hibernate query language的縮寫，提供更加豐富靈活、更為強大的查詢能力;hql更接近sql語句查詢語法。

mapreduce：hadoop的查詢引擎，用於大規模資料集的平行計算，」map（對映）」和」reduce（歸約）」，是它的主要思想。它極大的方便了程式設計人員在不會分布式並行程式設計的情況下，將自己的程式執行在分布式系統中。

資料分析：

hive：核心工作就是把sql語句翻譯成mr程式，可以將結構化的資料對映為一張資料庫表，並提供 hql(hive sql)查詢功能。

spark：擁有hadoop mapreduce所具有的特點，它不需要讀取hdfs。spark 啟用了記憶體分布資料集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。

pyspark：由python和spark組合使用，做前期資料處理速度快，還自帶mllib可以實現一些基本的模型

建模，資料探勘：

sparkmllib：是spark的機器學習（ml）庫。其目標是使實際的機器學習可擴充套件和容易，同時包括相關的測試和資料生成器。spark的設計初衷就是為了支援一些迭代的job, 這正好符合很多機器學習演算法的特點。

大資料分析人才，真如馬雲說的月薪高達30K嗎？

雲計算助力大資料分析

大資料人才戰報十大資料分析職業趨勢

信訪分析大資料常見的大資料分析模型

大資料分析人才，真如馬雲說的月薪高達30K嗎？

雲計算助力大資料分析

大資料人才戰報 十大資料分析職業趨勢

信訪分析 大資料 常見的大資料分析模型

相關推薦

大資料人才戰報十大資料分析職業趨勢

信訪分析大資料常見的大資料分析模型