spark學習系列

2021-09-08 03:49:59 字數 417 閱讀 8046

以spark原始碼為參照分析模式匹配及種類

graphx

核心理解

spark 核心排程理解

效能spark效能相關引數配置

搜狗實驗室(sogou labs)

富貴有定數,學問則無定數。求一分,便得一分  (關於博主:許鵬,花名@徽滬一郎,2023年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從事相關產品研發,個人關注於linux 核心及實時計算框架如storm、spark等。)

rdd:基於記憶體的集群計算容錯抽象

過往記憶

fxjwind

岑玉海 (此人最近忙於泡妞,部落格更新緩慢)

colorant

瞌睡中的葡萄虎

spark 1.x 大資料平台 (七牛技術總監、spark contributor之一 陳超老師主講)

(三)Spark學習系列

本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割,再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來,然後再重新分組,以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...

Spark學習系列一

1 spark 是什麼?spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架 包含核心元件 spark core 互動式查詢 spark sql 準實時流式計算 spark streaming 機器學習 spark mllib 圖計 算 spark graphx 2 spark...

待續 四)spark學習系列

這章節主要延續的 三 中的shuffle模組提供的shuffle read。在spark 中,shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候,1.每次只會開最多5個執行緒進行讀取 2.每次請求的數量不會超過maxmbinflight,預設是...