Spark Spark2 x版的新特性

2022-08-13 10:12:09 字數 1047 閱讀 9920

1. 出現新的上下文介面:sparksession,統一了sqlcontext和hivecontext,並且為sparksession開發了新的流式呼叫的configuration api

2. 統一了dataframe和dataset。dataframe相當於dataset[row],以及dataset的增強聚合api

3. 增強了累加器accumulator的功能,支援web ui,便捷的api,效能更高

1. 支援sql2003標準

2. 支援ansi-sql 和hive ql的sql parser(sql解析器)

3. 支援ddl,支援子查詢(in/not in 、 exists/ not exists)

2. 通過vectorization(向量化)技術提公升parquet檔案的掃瞄吞吐量

3. 提公升orc檔案的讀寫效能

4. 提公升catalyst查詢優化器的效能

5. 通過native實現方式提公升視窗函式的效能

1. structured streaming在spark2.0中是測試版,2.0之後是released版,它基於sparksql和catalyst引擎構建,支援dataframe風格的api進行流式計算。

2. 基於dstream的api支援kafka0.10版本

1.  基於dataframe的api支援持久化儲存、載入模型、pipeline,支援更多的演算法,支援向量和矩陣使用效能更高的序列化機制。

2.  spark r支援mllib演算法,包括線性回歸、樸素貝葉斯等

3. 未來spark mllib將主要基於dataset api來實現,基於rdd和api將轉為維護階段

1. 支援csv檔案

2. 支援hive風格的bucket表

3. 支援快取和程式執行的堆外記憶體管理

4. 完全移除了對akka的依賴

5. 使用scala2.11代替了scala2.10,要求基於scala2.11版本進行開發,而不是scala2.10

6. mesos粗粒度模式下,支援啟動多個executor

Spark Spark2 x版的新特性

1.出現新的上下文介面 sparksession,統一了sqlcontext和hivecontext,並且為sparksession開發了新的流式呼叫的configuration api 2.統一了dataframe和dataset。dataframe相當於dataset row 以及dataset...

Hadoop基礎(十四) HDFS 2 X新特性

1 scp實現兩個遠端主機之間的檔案複製 scp r hello.txt root hadoop103 user atguigu hello.txt 推 push scp r root hadoop103 user atguigu hello.txt hello.txt 拉 pull scp r r...

新手該學習Python2 x版本還是3 x版本

如果你是乙個初學者,或者你以前接觸過其他的程式語言,你可能不知道,在開始學習python的時候都會遇到乙個比較讓人很頭疼的問題 版本問題!是學習python2 還是學習 python3 這是非常讓人糾結的!搜尋一下便會發現python3 和 python2 是不相容的,而且差異比較大,到底學習哪個版...