Spark 使用Spark Shell的兩個示例

** 注意： **使用的是hadoop的hdfs作為持久層，需要先配置hadoop

# pyspark
>>> lines = sc.textfile("/user/mint/readme.md") # 建立乙個名為lines的rdd.首先要確保readme.md在hdfs檔案系統相應的路徑中.這裡的文件是spark在安裝目錄下,選擇其他文件.
>>> lines.count() # 行數
>>> lines.first() # 顯示第乙個元素，這裡就是第一行

如果執行出錯,可以排查如下情況：

>>> lines = sc.textfile("readme.md")
>>> lines.count()
99>>> lines.first()
u'# apache spark'
>>> lines = sc.textfile("/user/mint/readme.md")
>>> lines.first()
u'# apache spark'

# spark-shell
scala> val lines = sc.textfile("readme.md")
scala> lines.count()
res0: long = 99
scala> lines.first()
res1: string = # apache spark

Spark簡單使用

spark的乙個主要特點就是可以在記憶體中使用，因此他的計算速度比較快。在初學之前按照 quick start.html 中的示例來做一遍。先來初步理解一下操作流程。1.首先是搭建spark,網上有很多教程，cmd中最後執行pyspark 我們首先來分析spark資料夾中的 readme.md 檔案...

spark基本使用

啟動pysparkcd usr local spark bin pyspark統計文字的行數lines sc.textfile file usr local spark readme.md lines.count rdd的persisit方法會將該rdd物件持久化到記憶體中，對於可能會被重複呼叫的r...

spark使用pandasdataframe優化

項 pandas spark 工作方式單機，無法處理大量資料分布式，能處理大量資料儲存方式單機快取可以呼叫 persist cache 分布式快取是否可變是否 index索引自動建立無索引行結構pandas.series pyspark.sql.row 列結構pandas.se...

Spark 使用Spark Shell的兩個示例

Spark簡單使用

spark基本使用

spark使用pandasdataframe優化

相關推薦