Spark Spark2 x版的新特性

1. 出現新的上下文介面：sparksession，統一了sqlcontext和hivecontext，並且為sparksession開發了新的流式呼叫的configuration api

2. 統一了dataframe和dataset。dataframe相當於dataset[row]，以及dataset的增強聚合api

3. 增強了累加器accumulator的功能，支援web ui，便捷的api，效能更高

1. 支援sql2003標準

2. 支援ansi-sql 和hive ql的sql parser(sql解析器)

3. 支援ddl，支援子查詢（in/not in 、 exists/ not exists）

2. 通過vectorization(向量化)技術提公升parquet檔案的掃瞄吞吐量

3. 提公升orc檔案的讀寫效能

4. 提公升catalyst查詢優化器的效能

5. 通過native實現方式提公升視窗函式的效能

1. structured streaming在spark2.0中是測試版，2.0之後是released版，它基於sparksql和catalyst引擎構建，支援dataframe風格的api進行流式計算。

2. 基於dstream的api支援kafka0.10版本

1. 基於dataframe的api支援持久化儲存、載入模型、pipeline，支援更多的演算法，支援向量和矩陣使用效能更高的序列化機制。

2. spark r支援mllib演算法，包括線性回歸、樸素貝葉斯等

3. 未來spark mllib將主要基於dataset api來實現，基於rdd和api將轉為維護階段

1. 支援csv檔案

2. 支援hive風格的bucket表

3. 支援快取和程式執行的堆外記憶體管理

4. 完全移除了對akka的依賴

5. 使用scala2.11代替了scala2.10，要求基於scala2.11版本進行開發，而不是scala2.10

6. mesos粗粒度模式下，支援啟動多個executor

Spark Spark2 x版的新特性

1.出現新的上下文介面 sparksession，統一了sqlcontext和hivecontext，並且為sparksession開發了新的流式呼叫的configuration api 2.統一了dataframe和dataset。dataframe相當於dataset row 以及dataset...

Hadoop基礎（十四） HDFS 2 X新特性

1 scp實現兩個遠端主機之間的檔案複製 scp r hello.txt root hadoop103 user atguigu hello.txt 推 push scp r root hadoop103 user atguigu hello.txt hello.txt 拉 pull scp r r...

新手該學習Python2 x版本還是3 x版本

如果你是乙個初學者，或者你以前接觸過其他的程式語言，你可能不知道，在開始學習python的時候都會遇到乙個比較讓人很頭疼的問題版本問題！是學習python2 還是學習 python3 這是非常讓人糾結的！搜尋一下便會發現python3 和 python2 是不相容的，而且差異比較大，到底學習哪個版...

Spark Spark2 x版的新特性

Spark Spark2 x版的新特性

Hadoop基礎（十四） HDFS 2 X新特性

新手該學習Python2 x版本還是3 x版本

相關推薦