讓Spark成為你的瑞士軍刀

2021-09-23 18:02:20 字數 822 閱讀 2038

依託於spark streaming /spark sql,封裝了一套通過配置和sql就能完成批處理和流式處理的引擎,這樣可以很好的完成複雜的etl處理過程,實現了資料的流轉和變換。

完成了資料的流轉和變換,接著就是查詢了,通過對spark sql的封裝,我現在可以任意指定多個資料來源,舉個例子,將es的索引a` 命名為表a,將來自hdfs 的parquet 檔案命名為表b,這個時候我就可以寫sql作任意的處理了。使用者要做的就是選擇對應資料**,接著就是完成sql就好。

能實現上面的功能得益於spark

spark 背後的databricks公司是我見過最重視

api 我就不說了,spark的使用者層api都是經過精心設計的,rdd自然不必說,上層的df/ds 已經很好用,在2.0又更進一步統一了df/ds (df 是ds 型別為row的乙個特例),這樣可以讓使用者進一步減少使用和理解障礙。而且機器學習相關的api 也要慢慢遷移到 df/ds ,進一步簡化使用者學習和使用成本。

對領域問題的高度抽象能力,我覺得給我特別印象深刻的是機器學習相關的,幾經發展,目前形成了一套完善的ml-pipelines 的東西,結果是啥呢? 機器學習通過抽象以下幾個概念

實現了模組化。基於之上,你可以實現配置化來完成機器學習流程。

大資料現階段在我目前看來從功能上可劃分資料處理和機器學習。從架構上而言,則是流式計算和批處理。 spark 目前的元件已經涵蓋了大部分你需要的東西。加上上面我提及的幾點,用好了,你會覺得很多事情變得很簡單了。

讓spark成為你的瑞士軍刀

nc瑞士軍刀的引數

d 後台模式 e prog 程式重定向,一旦連線,就執行 危險 g gateway source routing hop point s up to 8 g num source routing pointer 4,8,12,h 幫助資訊 i secs 延時的間隔 l 監聽模式,用於入站連線 l 連...

Unix 除錯的瑞士軍刀 lsof

這是 你應該知道的unix和linux命令 系列的第三篇,在這篇文章中,我會介紹lsof這個工具,如果說netcat是進行網路診斷的瑞士軍刀,那麼lsof就是unix除錯的瑞士軍刀。lsof是遵從unix哲學的典範,它只做一件事情,並且做的相當完美 它可以列出某個程序開啟的所有檔案資訊。開啟的檔案可...

Unix除錯的瑞士軍刀 lsof

by yuanyi published 2011 06 19 lsof是遵從unix哲學的典範,它只做一件事情,並且做的相當完美 它可以列出某個程序開啟的所有檔案資訊。開啟的檔案可能是普通的檔案,目錄,nfs檔案,塊檔案,字元檔案,共享庫,常規管道,明明管道,符號鏈結,socket流,網路socke...