大資料運維 開篇詞 掌握大資料,把握未來

2022-09-09 14:12:18 字數 3961 閱讀 2937

高俊峰(南非螞蟻)

你好,歡迎來到《大資料運維實戰》專欄(2020版)。

入行以來,我從事大資料運維也有十多年了,期間我做過系統運維、dba,也做過大資料分析師,最後選擇了大資料運維方向,曾設計並管理超過千台、pb 級的資料平台。在這期間, 我見證並目睹了國內大資料行業發展的歷程,也看到了目前大家在大資料學習、工作、發展等方面的一些問題,比如:

這可能是大部分人面臨的問題,在我個人的運維從業過程中,也同樣經歷了職業方向選型時的迷茫期、職業高速發展時的提公升期、職業定型時的運籌帷幄期 3 個階段。

迷茫期,平台搭建經常出問題,也不知道怎麼解決,只能根據錯誤提示進行搜尋查詢,而在找到答案後,也不清楚這樣修改是否正確,只能嘗試修改,發現不行就回滾恢復。也就是在這種模稜兩可的狀態下,我發現:要能處理故障和問題,一定要對大資料每個元件的執行機制、原理有清晰的認識,這樣才能夠知道故障是如何發生的,以及如何避免再次發生。

提公升期,在慢慢摸清了大資料的門道後,思路逐漸清晰了,此時已經慢慢捋清了大資料運維的難點和重點,比如掌握每個元件的內部原理後,再進行有目的的故障排錯和修改。現在遇到大資料平台的基礎問題,基本能馬上定位問題,進而快速解決問題。

運籌帷幄期,此階段接觸更多的是對大資料平台的調優、架構優化,這也是大資料運維最難的乙個部分,不同的應用場景和需求,注定了調優不是一成不變的,它也有一套思路和方法。而大資料應用架構也是在企業應用需求變化中不斷進行調整,因此這個階段要求的是業務需求和大資料平台之間的乙個平衡,你需要了解業務模式和特點,然後有針對性地對大資料平台進行架構調整、資源優化。

大資料戰略的落地,必然會有大批技術人員湧入大資料領域,傳統運維人員由於具有多年的運維基礎,轉型大資料運維是順理成章的事情,並隨之帶來翻倍的高額薪資。目前,國內大資料市場還是一片藍海,全面大資料化還有相當長的路要走,所以未來職業發展不可限量。

2019 年大資料人才就業趨勢報告顯示,中國當下大資料從業人才約有 30 萬,未來 3 ~ 5 年人才需求量將達到 180 萬。下圖中是拉勾網對大資料運維職位的招聘資訊,從中我們可以看出企業招聘的實際需求以及薪資情況。

大資料運維是乙個新興職業,在整個國家都在倡導和實施大資料應用落地建設之際,大資料運維必然有更多的職位需求和更大的發展前景。

如果你現在是一名 linux 運維工程師、dba、網路運維工程師、it 支援工程師,正苦於薪資太少、競爭力差,或者徘徊在職業轉型的苦惱中,那麼大資料運維這個職位絕對是你的首選:

很多想轉行大資料運維的都有個疑問:大資料需要會開發,而我沒做過開發,也不想去學開發,那能學大資料運維嗎?

實際上,大資料運維根本不需要很多高深的技能,懂一點 linux、網路和自動化運維的知識,基本就可以學大資料運維課程了,而開發能力非必選項。

此外,學大資料運維,注重的是理論與實踐相結合,也就是首先要理解概念、原理,有了這些理論作為支撐,才能進入實踐階段,實踐過程就是動手實戰、反覆操作的過程。但如果沒有實踐經驗,企業是不會貿然讓你上手去操作,這種困境怎麼破呢?

缺少相關學習資料,是第乙個難題。現在市面上的大資料類書籍或者課程,大部分都是基於大資料開發、大資料分析方向的,其核心就是教你如何通過一門程式語言來分析資料。而講到大資料運維方向(架構設計、運維監控、效能調優)的資料就非常匱乏了。

究其原因,這主要是開發方向的技術點相對簡單,而運維方向需要更多的經驗積累,比如什麼架構才能支撐這個資料量、什麼資源配置才能滿足分析需求,這需要你實際接觸過、操作過才能給出答案,而不是靠理論或者猜測。

學習大資料運維的難點,非常重要的一點,就在於接觸不到實際的環境,沒有現成可學習的架構和案例。而大資料運維中的架構設計、容量規劃、效能調優是要和具體的業務需求結合起來綜合考慮的,所以獲取這部分經驗很難,僅靠自學是無法實現的。

這個專欄幫你很好地解決了以上問題。

我在專欄中,詳細講解了大資料運維平台的各種運維架構和實施案例,而且每個案例都基於企業實際的應用環境來講解。對運維人員因為剛入行或沒實際經驗而接觸不到的架構設計、容量規劃,效能調優,我也都是以企業實際應用需求來展開介紹的。可以說,這個專欄基本解決了你學習大資料運維的最大難題。

本課程共計七大模組, 26 個課時。主要介紹大資料運維平台的架構設計與部署、大資料平台的監控告警、大資料平台的效能調優三大部分內容。

首先從大資料生態圈基礎講起;然後教你如何構建大資料平台;接著是如何運維這個平台,以及講解跟這個平台相關的一些大資料元件;最後從大資料架構實現、調優方向,教你如何做乙個質的提公升。縱觀全域性,整個課程是乙個由點及線、由線及面、循序漸進的乙個學習過程,非常容易上手。

模組一,hadoop 大資料平台的規劃與部署。

該模組主要講解了 hadoop 大資料平台的搭建與基礎配置, 以及兩種 hadoop 集群部署方式,分別是手動部署和 ambari 自動部署。

掌握這些內容,可以幫助你快速為企業部署大資料平台。這是大資料運維的第一步,此部分內容要求熟練掌握。

模組二,hadoop 分布式架構解析。

該模組主要講解了分布式檔案系統 hdfs 和分布式資源管理器 yarn 的執行機制,以及內部實現細節。

掌握後,對於大資料平台出現的一些簡單故障,你可以快速定位並解決。這是大資料運維的第二步,此時你已經具備了處理大資料平台故障的能力。

模組三,hadoop 外圍應用整合實戰。

該模組主要講解了大資料平台下如何整合一些外圍應用,主要是 spark、flink 與 yarn 的整合應用,以及 hbase 集群的部署。

掌握後,你的大資料運維能力將得到質的提公升。這是大資料運維的第三步,大資料平台從離線計算擴充套件到記憶體計算(spark)和實時計算(flink)。

模組四,hadoop 大資料平台資料收集應用實踐。

該模組主要講解了 elk/efk 應用套件如何實現日誌資料收集以及快速查詢。首先介紹了 filebeat 和 logstash 兩款日誌收集工具的功能,接著介紹了如何實現日誌的收集、過濾和傳輸,最後介紹了如何通過 elasticsearch 實現資料的快速檢索。

掌握此模組內容後,你就可以根據企業需求去收集需要的業務資料,從而實現快速查詢。這是大資料運維的第四步,如何獲取資料並對資料進行過濾、分析,最後儲存到 hdfs 上。

模組五,大資料平台日誌傳輸與視覺化應用實踐。

該模組主要講解了海量資料環境中如何實現資料的實時傳輸,並通過 kibana 實現視覺化展示。

掌握了這部分內容,你就已經具備了設計大資料平台下實時查詢、實時展示架構的能力。這是大資料運維的第五步,至此,你已經掌握了大資料生態鏈中的資料收集、資料傳輸、資料儲存、資料分析四個方向的所有運維技術。

模組六,大資料平台運維監控體系的構建。

該模組主要講解了如何對大資料平台下每個元件的執行狀態、服務狀態進行監控。

作為大資料運維中最重要的乙個環節,監控告警是你必須掌握的內容,也是運維質量的保障。

模組七,大資料平台效能調優與運維經驗彙總。

該模組主要講解了大資料運維中常見的故障處理方法、集群擴縮容、集群排程策略選型、集群資源分配與許可權管理等,還從全域性的角度介紹了如何從零開始構建乙個大資料平台,以及集群引數調優、記憶體調優等經驗和技巧。

本專欄雖然是大資料運維實戰專欄,但除了大資料運維人員,專欄中的第

二、三、四、五、七模組內容,對大資料開發人員也有極高的學習和參考價值,這些內容能夠幫助開發人員在資料架構、資料視覺化展示、大資料調優等方面拓展視野,同時幫助其建立巨集觀思維,從而在工作中提高開發效率。

當今社會,正在經歷一場創新的技術變革。物聯網、智慧型城市、區塊鏈、語音識別、人工智慧是未來趨勢,而這些技術方向的核心就是大資料,掌握了大資料,也就把握住了自己的未來。我依據自身十餘年的從業經驗,來設計了這個課程,希望能夠幫到你。

無論你是想從事大資料方向的系統工程師、大資料開發工程師、大資料運維工程師等,還是目前在從事傳統運維相關工作(web 運維、dba、系統運維、網路運維),我都強烈建議你學習本課程,技不壓身,身處快速發展的技術潮流中,我們也都需要具備不斷重新整理自身的能力。

未來應該掌握在自己的手中,我們應該學會設計自己的技能棧與職業發展路徑,而你要做的就是把握現在,從當下開始。

大資料運維 結語 大資料運維,大有作為

高俊峰 南非螞蟻 你好,看到這裡,恭喜你學完了本專欄的全部內容。本專欄的定位是零基礎入門大資料運維,所以你學習的內容更多是關於大資料平台各個元件的安裝 部署和配置,這些技術看似簡單,但操作起來,其實一點也不簡單。大資料平台中涉及的技術,都需要 理解原理 執行機制 才能順利完成配置,也只有完成了安裝部...

大資料開篇

大資料時代來臨的因素 1.1資訊浪潮 1.第一次 1980 pc機 解決問題 資訊處理 代表企業 intel amd ibm 2.第二次 1995 網際網路 解決問題 資訊傳輸 代表企業 雅虎,谷歌 bat 3.第三次 2010 物聯網 雲計算 大資料 解決問題 資訊 代表企業 亞馬遜 谷歌 clo...

大資料運維 大資料平台 海量資料

大資料技術很早就在bat這些公司生根發芽,但直到14 15年大資料技術才廣泛應用在各大網際網路公司,大資料技術由此深入各行各業。此時大資料開發人才非常緊缺,很多公司大資料從立項,到大資料平台構建,到專案整個流程開發,到後期大資料專案的運維,都是由大資料開發人員一手完成 此時少有專業大資料運維人才 但...