spark本地除錯內網hdfs

2021-10-01 14:52:03 字數 1038 閱讀 7710

/**獲取具有任意輸入格式的hadoop檔案的rdd

** 因為hadoop的recordreader類對每條記錄重新使用相同的可寫物件,

* 所以直接快取返回的rdd或直接將其傳遞給聚合或無序處理操作將建立同一物件的多個引用。

* 如果計畫直接快取、排序或聚合hadoop可寫物件,您應該首先使用「map」函式複製它們。

* @param path 輸入檔案的目錄,路徑可以是逗號分隔的路徑作為輸入列表

* @param inputformatclass 要讀取的資料的儲存格式

* @param keyclass map階段輸入的k1

* @param valueclass map階段輸入的v2

* @param minpartitions 生成的rdd的建議最小分割槽數

* @return 鍵元組與對應值的rdd

*/def hadoopfile[k, v](

path: string,

inputformatclass: class[_ <: inputformat[k, v]],

keyclass: class[k],

valueclass: class[v],

minpartitions: int = defaultminpartitions): rdd[(k, v)] = withscope

上面描述了,spark在載入hdfs的時候,是內部建立filesystem去載入,所以需要hadoop的配置檔案

core-site.xml

hdfs-site.xml

方法本地。

在hdfs-site.xml加上配置項

dfs.client.use.datanode.hostname

true

這個配置可以允許用namenode的訪問ip去訪問datanode

同理,如果要訪問hive、hbase需要在加上相關配置項。

當然,您也可以單獨在本地配置hadoop環境,這裡不涉及

內網生成介面除錯

呼叫部門介面裡面有個加密簽名,需要post json 開始試了半天要麼提示引數缺少,要麼是簽名不對 後來介面方給提供了他們收到後處理的 如下 params.remove xxmsign params.remove sign stringbuilder sb new stringbuilder for...

spark 讀取 hdfs 資料分割槽規則

下文以讀取 parquet 檔案 parquet hive table 為例 hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertmetastoreparquet 控制,預設為 true。如果設定為 true 會使用 org.apache.s...

spark 讀取 hdfs 資料分割槽規則

下文以讀取 parquet 檔案 parquet hive table 為例 hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertmetastoreparquet 控制,預設為 true。如果設定為 true 會使用 org.apache.s...