Spark 使用Spark Shell的兩個示例

2022-05-22 15:27:08 字數 762 閱讀 7813

** 注意: **使用的是hadoop的hdfs作為持久層,需要先配置hadoop

# pyspark

>>> lines = sc.textfile("/user/mint/readme.md") # 建立乙個名為lines的rdd.首先要確保readme.md在hdfs檔案系統相應的路徑中.這裡的文件是spark在安裝目錄下,選擇其他文件.

>>> lines.count() # 行數

>>> lines.first() # 顯示第乙個元素,這裡就是第一行

如果執行出錯,可以排查如下情況:

>>> lines = sc.textfile("readme.md")

>>> lines.count()

99>>> lines.first()

u'# apache spark'

>>> lines = sc.textfile("/user/mint/readme.md")

>>> lines.first()

u'# apache spark'

# spark-shell

scala> val lines = sc.textfile("readme.md")

scala> lines.count()

res0: long = 99

scala> lines.first()

res1: string = # apache spark

Spark簡單使用

spark的乙個主要特點就是可以在記憶體中使用,因此他的計算速度比較快。在初學之前按照 quick start.html 中的示例來做一遍。先來初步理解一下操作流程。1.首先是搭建spark,網上有很多教程,cmd中最後執行pyspark 我們首先來分析spark資料夾中的 readme.md 檔案...

spark基本使用

啟動pysparkcd usr local spark bin pyspark統計文字的行數lines sc.textfile file usr local spark readme.md lines.count rdd的persisit方法會將該rdd物件持久化到記憶體中,對於可能會被重複呼叫的r...

spark使用pandasdataframe優化

項 pandas spark 工作方式 單機,無法處理大量資料 分布式,能處理大量資料 儲存方式 單機快取 可以呼叫 persist cache 分布式快取 是否可變 是 否 index索引 自動建立 無索引 行結構pandas.series pyspark.sql.row 列結構pandas.se...