Apache Spark機器學習3 8 小結

2021-09-23 16:19:18 字數 463 閱讀 8193

3.8 小結

本章,我們一步一步實現了從資料到商業的整體檢視,通過這個過程我們在

spark

上處理了大量的資料,並且為

ifs公司建立了乙個生成銷售團隊成功的整體檢視的模型。

具體來講,首先我們在準備好spark計算環境和載入預處理資料之後,為每個商業需求選擇了模型。第二,我們準備並約減了特徵。第三,估計模型係數。第四,評估了估計模型。接著,我們解釋了分析結果。最後,部署了估計得到的模型。

這一處理過程與小資料集處理過程十分相似。然而,要處理大資料,我們需要平行計算,因此,我們使用了spark。在前面描述的處理過程中,spark使用簡單、處理迅速。

學習完本章,讀者全面了解了spark在獲得整體檢視的過程中如何使我們的工作更容易和快捷。與此同時,讀者應該熟悉了處理大量資料的rm4e建模和開發**性模型的過程,尤其有能力生成自己的商業整體檢視。

Apache Spark 入門知識

目錄spark sql 阿里雲emp架構 spark的總體執行流程 程式 在driver段執行 通過cluster manager 如yarn等 申請到硬體資源 任務排程至executor中執行 rdd dataframe dataset之間的關係不是更新換代,它們用於解決不同的問題,各有各的用處 ...

Apache Spark集群模式選擇

2019獨角獸企業重金招聘python工程師標準 standalone是最容易搭建的模式,在只執行spark的情況下,standalone提供了跟其他兩種模式差不多的特性。所以如果在只執行spark,並且spark集群節點小於100的情況下,可以選擇standalone模式。如果已經使用docker...

雙倍提公升Apache Spark排序效能

2015 1 25 13 18 發布者 joejoe0332 檢視 466 摘要 區別常見的embarrassingly parallel系統,類似mapreduce和apache spark apache hadoop的下一代資料處理引擎 這樣的計算引擎主要區別在於對 all to all 操作的...