零基礎大資料該學什麼?

2021-09-19 20:15:39 字數 4197 閱讀 6364

一、如何區分三個大資料熱門職業——資料科學家、資料工程師、資料分析師

這3個職業是如何定位的?

資料科學家是個什麼樣的存在

資料工程師是如何定義的

資料工程師一般被定義成「深刻理解統計學科的明星軟體工程師」。如果你正為乙個商業問題煩惱,那麼你需要乙個資料工程師。他們的核心價值在於他們藉由清晰資料建立資料管道的能力。充分了解檔案系統,分布式計算與資料庫是成為一位優秀資料工程師的必要技能。

資料工程師對演演算法有相當好的理解。因此,資料工程師理應能執行基本資料模型。商業需求的高階化催生了演算高度複雜化的需求。很多時候,這些需求超過了資料工程師掌握知識範圍,這個時候你就需要打**尋求資料科學家的幫助。

資料分析師該如何理解

資料分析師指的是不同行業中,專門從事行業資料蒐集、整理、分析,並依據資料做出行業研究、評估和**的專業人員。他們知道如何提出正確的問題,非常善於資料分析,資料視覺化和資料呈現。

這3個職業具體有什麼職責?

資料科學家的工作職責

資料科學家傾向於用探索資料的方式來看待周圍的世界。把大量散亂的資料變成結構化的可供分析的資料,還要找出豐富的資料來源,整合其他可能不完整的資料來源,並清理成結果資料集。新的競爭環境中,挑戰不斷地變化,新資料不斷地流入,資料科學家需要幫助決策者穿梭於各種分析,從臨時資料分析到持續的資料互動分析。當他們有所發現,便交流他們的發現,建議新的業務方向。他們很有創造力的展示視覺化的資訊,也讓找到的模式清晰而有說服力。把蘊含在資料中的規律建議給boss,從而影響產品,流程和決策。

資料工程師的工作職責

分析歷史、**未來、優化選擇,這是大資料工程師在「玩資料」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。

找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析使用者以往的行為軌跡,就能夠了解這個人,並**他的行為。

通過引入關鍵因素,大資料工程師可以**未來的消費趨勢。在阿里媽媽的營銷平台上,工程師正試圖通過引入氣象資料來幫助**賣家做生意。比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那麼我們就會建立氣象資料和銷售資料之間的關係,找到與之相關的品類,提前警示賣家周轉庫存。

資料分析師的工作職責

網際網路本身具有數位化和互動性的特徵,這種屬性特徵給資料蒐集、整理、研究帶來了革命性的突破。以往「原子世界」中資料分析師要花較高的成本(資金、資源和時間)獲取支撐研究、分析的資料,資料的豐富性、全面性、連續性和及時性都比網際網路時代差很多。

與傳統的資料分析師相比,網際網路時代的資料分析師面臨的不是資料匱乏,而是資料過剩。因此,網際網路時代的資料分析師必須學會借助技術手段進行高效的資料處理。更為重要的是,網際網路時代的資料分析師要不斷在資料研究的方**方面進行創新和突破。

就行業而言,資料分析師的價值與此類似。就新聞出版行業而言,無論在任何時代,**運營者能否準確、詳細和及時地了解受眾狀況和變化趨勢,都是**成敗的關鍵。

此外,對於新聞出版等內容產業來說,更為關鍵的是,資料分析師可以發揮內容消費者資料分析的職能,這是支撐新聞出版機構改善客戶服務的關鍵職能。

想要從事這3個職業需要掌握什麼技能?

a. 資料科學家需要掌握的技能

1、電腦科學

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大資料所必需的hadoop、mahout等大規模並行處理技術與機器學習相關的技能。

2、數學、統計、資料探勘等

除了數學、統計方面的素養之外,還需要具備使用spss、sas等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境「r」最近備受矚目。r的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為cran(the comprehensive r archive network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。

3、資料視覺化(visualization)

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發web原型,使用外部api將圖表、地圖、dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

b. 資料工程師需要掌握的技能

1、數學及統計學相關的背景

對於大資料工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。缺乏理論背景的資料工作者,更容易進入乙個技能上的危險區域(danger zone)—一堆數字,按照不同的資料模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。

2、計算機編碼能力

3、對特定應用領域或行業的知識

大資料工程師這個角色很重要的一點是,不能脫離市場,因為大資料只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大資料工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。

c. 資料分析師需要掌握的技能

1、懂業務。從事資料分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。

2、懂管理。一方面是搭建資料分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建資料分析的框架,後續的資料分析也很難進行。另一方面的作用是針對資料分析結論提出有指導意義的分析建議。

3、懂分析。指掌握資料分析基本原理與一些有效的資料分析方法,並能靈活運用到實踐工作中,以便有效的開展資料分析。基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高階的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。

4、懂工具。指掌握資料分析相關的常用工具。資料分析方法是理論,而資料分析工具就是實現資料分析方法理論的工具,面對越來越龐大的資料,我們不能依靠計算器進行分析,必須依靠強大的資料分析工具幫我們完成資料分析工作。

5、懂設計。懂設計是指運用圖表有效表達資料分析師的分析觀點,使分析結果一目了然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。

二、從菜鳥成為資料科學家的 9步養成方案

首先,各個公司對資料科學家的定義各不相同,當前還沒有統一的定義。但在一般情況下,乙個資料科學家結合了軟體工程師與統計學家的技能,並且在他或者她希望工作的領域投入了大量行業知識。

大約90%的資料科學家至少有大學教育經歷,甚至到博士以及獲得博士學位,當然,他們獲得的學位的領域非常廣泛。一些招聘者甚至發現人文專業的人們有所需的創造力,他們能教別人一些關鍵技能。

因此,排除乙個資料科學的學位計畫(世界各地的著名大學雨後春筍般的出現著),你需要採取什麼措施,成為乙個資料科學家?

1、複習你的數學和統計技能。

乙個好的資料科學家必須能夠理解資料告訴你的內容,做到這一點,你必須有紮實的基本線性代數,對演算法和統計技能的理解。在某些特定場合可能需要高等數學,但這是乙個好的開始場合。

2、了解機器學習的概念。

機器學習是下乙個新興詞,卻和大資料有著千絲萬縷的聯絡。機器學習使用人工智慧演算法將資料轉化為價值,並且無需顯式程式設計。

3、學習**。

資料科學家必須知道如何調整**,以便告訴計算機如何分析資料。從乙個開放原始碼的語言如python那裡開始吧。

4、了解資料庫、資料池及分布式儲存。

資料儲存在資料庫、資料池或整個分布式網路中。以及如何建設這些資料的儲存庫取決於你如何訪問、使用、並分析這些資料。如果當你建設你的資料儲存時沒有整體架構或者超前規劃,那後續對你的影響將十分深遠。

5、學習資料修改和資料清洗技術。

資料修改是將原始資料到另一種更容易訪問和分析的格式。資料清理有助於消除重複和「壞」資料。兩者都是資料科學家工具箱中的必備工具。

6、了解良好的資料視覺化和報告的基本知識。

你不必成為乙個平面設計師,但你確實需要深諳如何建立資料報告,便於外行的人比如你的經理或ceo可以理解。

7、新增更多的工具到您的工具箱。

一旦你掌握了以上技巧,是時候擴大你的資料科學工具箱了,包括hadoop、r語言和spark。這些工具的使用經驗和知識將讓你處於大量資料科學求職者之上。

8、練習。

在你在新的領域有乙個工作之前,你如何練習成為資料科學家?使用開源**開發乙個你喜歡的專案、參加比賽、成為網路工作資料科學家、參加訓練營、志願者或實習生。最好的資料科學家在資料領域將擁有經驗和直覺,能夠展示自己的作品,以成為應聘者。

零基礎學Python

零基礎學python 1 1 python是一門指令碼語言 2 python的優勢 1 語法和結構比較簡單,易入門 2 能夠跨平台使用 3 應用範圍廣,設計到作業系統 3d動畫 web 雲計算,企業應用等多方面。3 idle 是乙個python shell,類似於windows的cmd視窗 4 pr...

零基礎學C C

零基礎學c c 零基礎學c c 199 孿生素數 題目描述 在素數的大家庭中,大小相差為2的兩個素數稱之為一對 孿生素數 如3和5 17和19等。請你程式設計統計出不大於自然數n的素數中,孿生素數的對數。輸入一行乙個正整數n 1 n 10000 輸出若干行,每行2個整數,之間用乙個空格隔開,從小到大...

零基礎學雲計算要注意什麼 該怎麼快速入門

零基礎學雲計算要注意什麼?該怎麼快速入門?雲計算是當前網際網路領域最火爆的技術之一,應用領域廣泛,從業人員薪資待遇好。很多專業或非專業,有基礎或者零基礎的人都想加入這個行列實現高薪,下面一同來看看吧。零基礎學習雲計算應該注意什麼?首先,用心。世上無難事只怕有心人,如果你無法全身心的投入學習,那就很難...