大資料分析人才,真如馬雲說的月薪高達30K嗎?

2021-09-27 10:59:28 字數 2919 閱讀 4995

作者 | 王新港

出品 | cda資料分析研究院

馬雲曾在卸任演講的時候說過這樣一段話:

「很多人還沒搞清楚什麼是pc網際網路,移動網際網路來了,我們還沒搞清楚移動互聯的時候,大資料時代又來了。」

而大資料專家埃里克·西格爾 博士曾在《大資料**》一書中描繪了乙個大資料時代下的一天:

2023年的一天,在你驅車前往公司的路上,導航系統通過**交通流量,會自動幫你選擇一條最合適的交通路線;車內推薦系統會根據你的飲食習慣**你可能會喜歡吃什麼,並推薦沿途的早餐店;你的電子社交助理已經為你自動選擇了你可能感興趣的社交網資訊。

離埃里克博士所說的2023年雖然還有3個月左右的時間,但是書中闡述的技術如「大資料交通技術」「個性化推薦系統」「人工智慧語音助理」等已經逐漸實現,並被人們廣泛應用。而這些技術都離不開「大資料」。

volume大容量、variety多樣性、value有價值、velocity速度,4個v是業界普遍認定的大資料特點。那麼大資料是如何改變我們的生活方式的呢?我們需要了解最重要的兩個問題。即

「大資料最核心的價值是什麼?」

「大資料最核心的技術是什麼?」

首先,我們需要知道現代人類的衣食住行無外乎三大產業「農業」「工業」「服務業」,而所有產業都會從大資料的發展中受益。

農業:

大資料技術可以應用在如「土壤抽樣分析」「氣象統計監管」等與土壤,農作物,**鏈相關的農業領域上,幫助第一產業的發展。如今國外已經有一些公司把大資料技術與農業進行落地,而在我國,農業大資料還僅僅是乙個起步階段。在未來,農民可以「知天而作」依靠大資料技術實現農作物產量翻倍降低自然災害對農產品的影響等願景。工業:工業大資料是我國重點發展的乙個方向,工業與資訊化部門一直致力於我國工業大資料的發展。如果工業產業下的各個行業與大資料可以緊密結合,對人類的生活方式的改變將是巨大的。僅僅是電力系統的配電環節,如果可以做到基於海量使用者用電特徵資料分析,進而實現檯區的負荷**、用電排程、有序用電,將極大地優化我國電力資源的分配,實現可持續發展。服務業:

第三產業是與人們的生活貼合最緊密的乙個產業。我們從幼年到老年,教育,交通,醫療,金融等行業或多或少都與我們生活相關,而這些行業與大資料更是密不可分。

醫療:

臨床資料的採集分析,優化診療流程

可穿戴裝置通過監測個人的行為如行走步數等改善我們的健康狀況

通過大資料分析生成報告顯示使用者所在地區的流感活動。

交通:

路網監控優化重點城市交通壓力

電子導航即時分析道路狀況,為車主調整最佳路線

物流行業的車輛,路線,網點建設

娛樂:

網易雲**「個性化推薦」

《紙牌屋》演員的篩選

電信:

通過大資料平台優化網路布局,提公升使用者體驗

記錄使用者在wifi網路中的地理位置等資料銷售給廣告客戶。

銀行:

風控模型的建立與優化

定製化金融服務等

由於某些客觀原因,相對於第一產業和第二產業來說,第三產業憑藉自身的優勢,大多匯聚了當前最海量的資料以及大批的科研中堅力量。而無論在哪一產業,隨著計算機處理能力的日益強大,你能獲得的資料量越大,你能挖掘到的價值就越多。

分布式系統:

hadoop:作為乙個開源的框架,專為離線和大規模資料分析而設計。

資料採集:

sqoop:用來將關係型資料庫和hadoop中的資料進行相互轉移的工具,可以將乙個關係型資料庫中的資料匯入到hadoop(中,也可以將hadoop中的資料匯入到關係型資料庫中。

資料儲存,預處理:

hbase:是乙個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是資料儲存、nosql資料庫。

hql:hibernate query language的縮寫,提供更加豐富靈活、更為強大的查詢能力;hql更接近sql語句查詢語法。

mapreduce:hadoop的查詢引擎,用於大規模資料集的平行計算,」map(對映)」和」reduce(歸約)」,是它的主要思想。它極大的方便了程式設計人員在不會分布式並行程式設計的情況下,將自己的程式執行在分布式系統中。

資料分析:

hive:核心工作就是把sql語句翻譯成mr程式,可以將結構化的資料對映為一張資料庫表,並提供 hql(hive sql)查詢功能。

spark:擁有hadoop mapreduce所具有的特點,它不需要讀取hdfs。spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

pyspark:由python和spark組合使用,做前期資料處理速度快,還自帶mllib可以實現一些基本的模型

建模,資料探勘:

sparkmllib:是spark的機器學習(ml)庫。其目標是使實際的機器學習可擴充套件和容易,同時包括相關的測試和資料生成器。spark的設計初衷就是為了支援一些迭代的job, 這正好符合很多機器學習演算法的特點。

雲計算助力大資料分析

前記 這是我老婆隨手寫的一篇文章,結合了她當前的分析工作和雲計算,介紹了雲計算對大資料分析的助力。在網際網路後時代,資料分析已經成為企業保持競爭力的必要方法。企業在成長和發展的過程中積累了海量的資料,這些歷史資料不管是通過紙質媒介,還是通過硬碟記錄下來,都是企業寶貴的資料資產。對資料進行數位化處理,...

大資料人才戰報 十大資料分析職業趨勢

與大資料概念知名度和企業熱情形成對比的是 大資料正面臨全球性的人才荒。企業對新型大資料分析和 技術人才的熱情和需求正在超過傳統的商業智慧型和資訊管理人才。無論是資料分析的新手還是老鳥,都需要對大資料引發的資料分析職業革命做好充分的準備,以下是information week根據一次大資料企業應用調查...

信訪分析 大資料 常見的大資料分析模型

今天我們主要為大家講解在做大資料視覺化時,有哪些常見得到資料分析模型。資料模型可以從兩個角度來區分 資料和業務。統計資料視角的實體模型通常指的是統計分析或大資料探勘 深度學習 人工智慧技術等種類的實體模型,這些模型是從科學研究視角去往界定的。1 降維 對大量的資料和大規模的資料進行資料探勘時,往往會...