spark資料匯入 處理例項

2021-08-01 14:43:50 字數 586 閱讀 9502

當專案中遇到所要分析的資料量較大情況時,本地python直接處理或匯入資料庫等普通的處理方式顯然並不合適,不僅效率低下,且容易引起資料庫崩潰。用spark將本地資料上傳hdfs,寫入hive,會更加高效。

import com.databricks.spark.csv

import org.apache.spark._

import org.apache.spark.sql.hive.hivecontext

import scala.xml._

import org.apache.hadoop.fs.filesystem

import org.apache.hadoop.fs.path

import org.apache.hadoop.conf.configuration

class cdataprocess

catch case e:exception => e.printstacktrace()

finally fs.delete(new path(hdfspath),false)

}    }

}以上**為將本地檔案上傳hdfs,在寫入hive,如有不當之處,歡迎指正。

Spark之json資料處理

預設情況下,sparkcontext物件在spark shell啟動時用namesc初始化。使用以下命令建立sqlcontext。val sqlcontext new org.apache.spark.sql.sqlcontext sc employee.json 將此檔案放在currentscal...

spark如何匯入資料到hbase資料庫

在實際生產過程中,因為資料的複雜性,我們通常將處理好的資料快取到hbase中。本篇文章目的在於在學習過程中做筆記,以備後面的鞏固複習。如下 package com.aura.bigdata.dmp.util import org.apache.hadoop.conf.configuration im...

匯入Oracle例項

建立使用者 create user iagent identified by ia profile default default tablespace users temporary tablespace temp account unlock 刪除使用者 drop user iagent cas...