秋天的第一杯奶茶?NO,是第乙份大資料學習寶典

2021-10-09 21:17:13 字數 1933 閱讀 1954

秋天的第一杯奶茶,大意是代表著秋天很適合談戀愛,舒適的氣候,好喝的奶茶,甜蜜的問候,如果在這個秋天,有人給你買了奶茶,說明你是被關心的、被惦記的人兒,如果沒有,也沒關係,我們給你送來秋天的第乙份大資料學習寶典,掌握了它,代表著秋天很適合找到好工作,是大廠高薪的味道

在大資料學習中,我們可以分為資料採集、資料傳輸、資料儲存、資料處理、資料治理五大板塊的學習。

在資料採集方確認後了之後,接下來的問題就是以什麼規則分配資料儲存、資料採集。資料量的暴增已經無法把pb級別的資料直接儲存在單機系統裡了,以分布式模式來儲存資料是必須的,通過hash分片方式可以把資料分配到不同的機器中,再配合路由機制,就可以快速找到某一台機器上的某條記錄。在資料的取捨上,可根據分布式的cap/acd/base原則來決定,在資料的更新上可採用主從式更新、各個機器節點同步更新、任乙個節點更新的策略來處理資料。

資料傳輸方面,一般有訊息佇列、資料同步等方式可以將採集的資料傳輸到儲存通道。訊息佇列應該是現在網際網路企業最常用的手段了,通過kafka、rabbitmq等訊息佇列,將服務之間解耦,生產者負責資料的生產,消費者按需訂閱資料進行消費和業務處理。資料同步一般應用在數倉中,在各類資料來源中將沒有進行過任何加工的資料傳遞到資料倉儲中。

在資料採集、傳輸之後,便是資料的儲存了。儲存方面一般有物理儲存、分布式物件儲存、大資料庫儲存等模式。物理儲存定義是資料儲存在磁碟上。儲存型別方面支援檔案儲存、塊儲存、物件儲存。分布式儲存主要是提供多儲存節點來實現海量資料的儲存和方面,支援高可用、高效能、高伸縮性。大資料庫儲存主要是針對特定型別或離線分析使用,比如clickhouse、hbase、elasticsearch等大資料庫直接統計分析使用,mongodb等文件資料庫主要是儲存半結構化資料。

資料處理方面,主要使用流式計算、大規模批量計算等方式將資料進行加工處理,賦能業務。在實時處理方面,一般是使用flink、spark、storm等流式計算方式來對資料實時處理。大規模批量計算主要就是離線分析了,通過mapreduce、hive等離線計算方式來對資料進行加工處理,適合資料實時性要求不高的業務。

經過了資料採集、傳輸、儲存、處理階段後,資料產生了它的價值,可以更好的用於業務決策、運營分析。但是隨著資料量的越來越大、業務的越來越複雜,對於資料的治理是勢在必行。資料治理包括元資料管理、資料質量把控、資料安全三方面。元資料一般是指資料與資料之間的關聯資訊,通過生命週期管理、業務屬性管理可以讓管理員更好的做系統維護管理。在資料質量上主要通過一些流程上的質量管理控制體系進行把控,在資料安全方面主要從資料採集安全、資料傳輸安全、儲存安全、應用安全等幾方面去把控,企業在掌握了更多的使用者資訊之後更應該做好安全方面的管控。

對海量資料的儲存、計算、分析、治理除了上面介紹的專業內容之外,還需要掌握分布式技術、高併發處理、高可用處理、集群、實時計算,需要了解微服務架構、雲計算、雲原生、物聯網、5g等概念。秋天的第一杯奶茶如果沒有喝到,那趕緊努力學習吧,否則就只能喝到冬天的第一口西北風了~新技能你get到了嘛?

第乙份工作

第乙份工作,算是比較傳奇。自己本著經驗不足,找個工作高階的心態,卻找了乙份國內鮮有研究的工作領域 編譯器 我現在對他的理解只是 這是乙個類似以gun的gcc的編譯器,具體來講,我一概不知。套用pm的一句話就是,我現在是一張白紙,我所要做的就是盡情書寫。第一天,也就是12月21日。早上早早來到公司卻被...

第乙份隨筆

q1 學習 c 語言程式設計 課程之前,你知道什麼是程式設計嗎?談談上這門課之前你對程式設計的理解,以及你對自己程式設計能力的評估。a 來到廣外來到計算機專業之前我對程式設計的理解就只有打 用一些類似英語的語言給計算機下命令,然後電腦施行。我對課程的理解是程式設計可以能用很嚴謹很規範的 加以相應的數...

記第乙份工作

2010年我獲得了第乙份正式的工作,在上海張江,乙個不錯的地方。話說當時還沒畢業,但是在學校裡大家都已經各自在尋找著各自的歸屬了。起初經過了各種碰壁後,決定投簡歷到上海看看,畢竟是大城市,離家也不算遠。沒想到投簡歷後的第二天就來了 對方是乙個中年男人 也就是後面的老總 問了我兩個超級白痴的問題。乙個...