大資料量的建表 導資料

2021-08-15 02:03:01 字數 1089 閱讀 9927

-----跨機器轉移資料檔案-----(scp 在linux伺服器之間複製檔案和目錄,cp只能在本機複製,不可以跨伺服器)

scp -r 20170907.tar.gz username@ip~:/export/

---解壓

tar -zxvf 20170907.tar.gz

或者-------將電腦本地檔案在跨集群間hdfs傳檔案-----

建立hdfs資料夾

hadoop fs -mkdir /gpcc

將本地檔案上傳到hdfs資料夾

hdfs dfs -put /home/gpdbadmin/greenplum-cc-web-3.3.1-linux-x86_64.zip /gpcc

傳檔案hadoop dfs -get hdfs://namenode1:50070/gpcc

將第乙個集群中的/gpcc資料夾以及資料夾下的檔案複製到第二個集群中的/home/gpadmin目錄下

hadoop distcp hdfs://namenode1:50070/gpcc hdfs://namenode2:50070/home/gpadmin

(hadoop distcp 集群內部或者集群之間分布式拷貝資料)

小總結一下:

distcp(distributed copy)是用於大規模集群內部或者集群之間的高效能拷貝工具

,和在linux上執行cp,scp實現效果是一致的,不同的是,cp是將本機的檔案和目錄拷貝到本機的其它地方,scp則可以將a機器的檔案或者目錄拷貝到b機器,而distcp則可以實現的是a(hdfs)集群的資料拷貝到b(hdfs)集群,而分布式

使得資料拷貝時,可以實現a級群的dn節點同時向b集群的dn節點傳送資料,突破了單機拷貝的網絡卡速率限制,拷貝效率更高。

---建表

create table....

---檢視表資料位置

desc fromatted tablename;

hadoop fs -put dt=

2017-09-07

---新增分割槽

alter table tablename add partition(dt='2017-09-07');

大資料量採用什麼方式建表

以下是幾種常見的分表演算法。1.按自然時間來分表 分庫 2.按數字型別hash分表 分庫 如果我們要儲存使用者的資訊,我們應用的註冊量很大,我們用單錶是不能滿足儲存需求的,那麼我們就可以用使用者的編號來進行hash,常見的是用取餘操作,如果我們要分30張表來儲存使用者的資訊,那麼使用者編號為1的使用...

大資料量的分表方法

以下是幾種常見的分表演算法。1.按自然時間來分表 分庫 2.按數字型別hash分表 分庫 如果我們要儲存使用者的資訊,我們應用的註冊量很大,我們用單錶是不能滿足儲存需求的,那麼我們就可以用使用者的編號來進行hash,常見的是用取餘操作,如果我們要分30張表來儲存使用者的資訊,那麼使用者編號為1的使用...

大資料量演算法

給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...