大資料生態與Spark

2021-10-21 03:17:49 字數 610 閱讀 6184

**spark簡介

1.什麼是spark

1、介紹

spark是加州大學伯克利分校amp實驗室(algorithms, machines, and people lab)開發通用記憶體平行計算框架。spark在2023年6月進入apache成為孵化專案,8個月後成為apache頂級專案,速度之快足見過人之處,spark以其先進的設計理念,迅速成為社群的熱門專案,圍繞著spark推出了spark sql、spark streaming、mllib和graphx等元件,也就是bdas(伯克利資料分析棧),這些元件逐漸形成大資料處理一站式解決平台。從各方面報道來看spark抱負並非池魚,而是希望替代hadoop在大資料中的地位,成為大資料處理的主流標準,不過spark還沒有太多大專案的檢驗,離這個目標還有很大路要走。

spark使用scala語言進行實現,它是一種物件導向、函式式程式語言,能夠像操作本地集合物件一樣輕鬆地操作分布式資料集(scala 提供乙個稱為 actor 的並行模型,其中actor通過它的收件箱來傳送和接收非同步資訊而不是共享資料,該方式被稱為:shared nothing 模型)。在spark官網上介紹,它具有執行速度快、易用性好、通用性強和隨處執行等特點。

l執行速度快

大資料生態

目前而言,不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版本 cloudera s distribution including apache hadoop,簡稱cdh hortonworks版本 horton...

Python與Spark大資料

資料分析經常會遇到資料量大的問題,比如用python語言時經常會遇到記憶體溢位的問題,即使把整個機器記憶體全部使用,達到最大使用率,還是無濟於事,比如資料量是10t,並且在大資料量下,既要保證資料能夠得出結果,還要乙個好的模型進行迭代訓練,得到乙個好的模型。這些很難。對於第乙個問題,就算單機記憶體再...

大資料 Spark(八)

dag directed acyclic graph 叫做有向無環圖 有方向,無閉環,代表著資料的流向 原始的rdd通過一系列的轉換就形成了dag。下圖是基於單詞統計邏輯得到的dag有向無環圖 乙個job會被拆分為多組task,每組任務被稱為乙個stage。stage表示不同的排程階段,乙個spar...