關於Spark和Spark的學習資料

2021-07-27 03:27:24 字數 2153 閱讀 9746

hadoop社群依然發展迅速,2023年推出了2.3,2.4, 2.5

的社群版本,比如增強 resource manager ha, yarn rest api, acl on hdfs, 改進 hdfs 的 web ui…

hadoop roadmap

根據我的觀察,主要更新在yarn,hdfs,而mapreduce幾乎停滯了,還有一些feature 屬於安全,穩定可靠性一方面是比較穩定了,但也可以說是瓶頸了。

apache hadoop project members

這個是hadoop project member and committee, 裡面好多來自hortonworks,也有不少國人上榜。

sparkspark 介紹

spark今年大放溢彩,spark簡單說就是記憶體計算(包含迭代式計算,dag計算,流式計算 )框架,之前mapreduce因效率低下大家經常嘲笑,而spark的出現讓大家很清新。

其實起名字也很重要,spark就佔了先機,cto說where there』s spark there』s fire: the state of apache spark in 2014

spark 起源

2023年berkeley amplab,發表在hotcloud

是乙個從學術界到工業界的成功典範,也吸引了頂級vc:andreessen horowitz的 注資

amplab這個實驗室非常厲害,做大資料,雲計算,跟工業界結合很緊密,之前就是他們做mesos,hadoop online, crowddb, twitter,linkedin等很多知名公司都喜歡從berkeley找人,比如twitter也專門開了門課程 analyzing big data with twitter

還有個bdas

(bad ass)引以為傲: the lab that created spark wants to speed up everything, including cures for cancer

在2023年,這些大牛從berkeley amplab出去成立了databricks,半年就做了2次summit參會1000人,引無數hadoop大佬盡折腰,大家看一下summit的sponsor ,所有hadoop廠商全來了,並且各個技術公司也在巴結,cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根據cto說 spark新增**量活躍度今年遠遠超過了hadoop本身,要推出商業化產品cloud。

spark人物

spark基本概念

rdd——resillient distributed dataset a fault-tolerant abstraction for in-memory cluster computing彈性分布式資料集。

operation——作用於rdd的各種操作分為transformation和action。

job——作業,乙個job包含多個rdd及作用於相應rdd上的各種operation。

stage——乙個作業分為多個階段。

partition——資料分割槽, 乙個rdd中的資料可以分成多個不同的區。

dag——directed acycle graph,有向無環圖,反應rdd之間的依賴關係。

narrow dependency——窄依賴,子rdd依賴於父rdd中固定的data partition。

wide dependency——寬依賴,子rdd對父rdd中的所有data partition都有依賴。

caching managenment——快取管理,對rdd的中間計算結果進行快取管理以加快整 體的處理速度。

目前還有一些子專案,比如 spark sql, spark streaming

, mllib, graphx 工業界也引起廣泛興趣,國內taobao, baidu也開始使用:powered by spark

apache spark支援4種分布式部署方式,分別是amazon ec2, standalone、spark on mesos和 spark on yarn 比如aws

spark summit

10月份還有個培訓在灣區的培訓,只不過3天就要1500刀,看來做個講師也不錯:)

第三方專案

相關參考資料

spark關於分割槽和sortBy的學習

首次學習spark時,對分割槽沒有直觀的了解,在使用sortby方式時也不能得預期的結果,通過實踐了解spark分割槽和sortby的原理 val sc new sparkcontext conf master設定為 local 4 利用4個執行緒 executor 來測試,模擬分布式環境 val ...

spark關於分割槽和sortBy的學習

學習目的 首次學習spark時,對分割槽沒有直觀的了解,在使用sortby方式時也不能得預期的結果,通過實踐了解spark分割槽和sortby的原理 partitionindex1 26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45...

從0開始學spark

參考 local 模式 即單機模式,這種安裝加壓即可,具體安裝方法穿插在 standalone 模式 standalone 模式 即搭建 spark 集群,但不與其他框架整合,如 yarn,此時 spark 執行在集群中 基於 yarn 的 spark 集群部署 yarn 集群 spark 集群,此...