使用SparkRDD實現HBase分布式scan

利用spark rdd的分布式計算，將乙個scan任務按照自定義的範圍切分為小的scan，使用這些rdd實現對scan的並行查詢，提高查詢效率。核心是手動實現rdd的compute方法與getpartitions方法。

本文中使用到的關於spark rdd方面的知識主要集中在rdd分割槽計算上，檢視spark原始碼即可知道，spark rdd中有兩個比較重要的方法，乙個是compute 用於計算乙個指定的分割槽給當前rdd，乙個是getpartitions用於獲取當前rdd的一組分割槽。

下面是主要的**實現，具體關於分割槽範圍的值需要自己根據實際情況和自己的需求實現

class hbasescanrdd(sc: sparkcontext, val table: table) //此處table值不應該出現，僅用於跳過編譯錯誤

extends rdd[result](sc, nil)

ps.asinstanceof[array[partition]]

}@developerapi

override def compute(partition: partition, context: taskcontext): >iterator[result] =

}//並行scan

scans.par.map .map(toresultiterator)

.fold(iterator.empty: iterator[result])

}//這裡用於獲取scanner的值

private def toresultiterator(scanner: resultscanner): iterator[result] = else

}cur.isdefined

} override def next(): result =

}iterator}}

case class hbasepartition(

override val index: int,

scanranges: seq[hregioninfo]) extends partition以上**只是用於描述思路，實際使用時還需要對**細節進行處理

注意：由於spark原始碼定義rdd為private[spark],所以該類只能放置與名稱為org.apache.hadoop.hbase.spark的包或子包中，否則會出現編譯錯誤。

u非tips：由於hbase的scan在服務端查詢時，會分為兩類scanner，乙個查詢memstore，乙個查詢hfile，

其中查詢hfile的scanner會根據設定引數」hbase.storescanner.parallel.seek.enable」

決定是否使用多執行緒對檔案進行查詢，所以建議將該引數設定為true。