Spark系列二 Spark的資料讀入

真的是超級忙碌的一周，所幸的是我們迎來了新的家庭成員乙隻小貓咪--大王。取名為大王的原因竟然是因為之前作為流浪貓的日子總是被其他貓所欺負，所以希望他能做乙隻霸氣的霸王貓啦。

言歸正傳，在周一見的悲傷中唯有寫一篇部落格才能緩解我的憂傷吧。

spark讀取文字檔案--textfile()

def textfile(

path: string,

minpartitions: int = defaultminpartitions): rdd[string] = withscope

引數path為乙個string型別，是乙個uri，這個uri可以是hdfs、本地檔案（全部的節點都可以），或者其他hadoop支援的檔案系統uri返回的是乙個字串型別的rdd，也就是是rdd的內部形式是iterator[(string)]，可以傳遞引數minpartitions控制分割槽。

針對sparkcontext的textfile方法從讀取單個檔案、讀取多個檔案、讀取檔案目錄下的檔案以及萬用字元四個方面介紹textfile()的使用。無論是檔案還是資料夾，本地路徑加字首file://，hdfs路徑加字首hdfs://

讀取單個檔案

val rdd = sc.textfile("file1")

讀取多個檔案

val rdd = sc.textfile("file1,file2")

讀取乙個資料夾,目標資料夾為code，也就是說spark讀取code資料夾下的檔案

val rdd = sc.textfile("file:///home/work/code/")

萬用字元讀取制定檔案

讀取多個資料夾下的檔案（該目錄下既包含檔案也包含資料夾）

val rdd = sc.textfile("/home/work/code/*/*")

在指定目錄下讀取檔名以part-開頭的檔案

val rdd = sc.textfile("/home/work/code/part-*.txt")

spark讀取資料庫hbase的資料

由於 org.apache.hadoop.hbase.mapreduce.tableinputformat 類的實現，spark 可以通過hadoop 輸入格式訪問 hbase。這個輸入格式會返回鍵值對資料，其中鍵的型別為 org.apache.hadoop.hbase.io.immutablebyteswritable，而值的型別為org.apache.hadoop.hbase.client.result。result 類包含多種根據列獲取值的方法，在其 api 文件（https://hbase.

apache.org/apidocs/org/apache/hadoop/hbase/client/result.html）中有所描述。

val conf = hbaseconfiguration.create() 
conf.set(tableinputformat.input_table, "tablename") //確定要掃瞄hbase資料庫的哪張表

val rdd = sc.newapihadooprdd(conf, classof[tableinputformat], classof[immutablebyteswritable],classof[result])

大王不出門，如何快速的讓乙隻孤僻貓熟悉自己呢？

Spark系列二 Spark的資料讀入

Spark系列三 Spark的工作機制

Spark入門系列

spark學習系列

Spark系列 二 Spark的資料讀入

Spark系列 三 Spark的工作機制

Spark入門系列

spark學習系列

相關推薦

Spark系列二 Spark的資料讀入

Spark系列三 Spark的工作機制