hadoop遷移資料應用例項

2021-08-14 08:30:54 字數 2681 閱讀 9064

專案開發中hadoop一直裝在虛擬機器上,最近要遷移到伺服器上。記錄下遷移過程。

虛擬機器的初始硬碟只有30g,容不開要匯出的資料。兩種方式,一是給虛擬機器擴容;二是為虛擬機器新增一塊新的硬碟。這裡採取第二種方式。

至此,新增硬碟成功。

要使用一塊新的硬碟,需要先將硬碟分割槽,然後掛在檔案系統上才能使用。

這裡普及一下linux的檔案系統與硬碟以及分割槽的關係。按照乙個「由硬到軟」的順序來講,首先是硬碟,是物理的;我們要使用這個物理硬碟,需要將物理硬碟分成乙個乙個的分割槽;而我們在使用作業系統時,則通過檔案系統來操作檔案。檔案系統這個「軟體「是通過分割槽與硬碟這個「硬體」進行聯絡的:硬碟分成區後,以分割槽的形式掛在檔案系統上。

舉例比較windows與linux檔案系統的區別:

對於windows來講,比如我們的電腦上只安裝了一塊硬碟,這個硬碟分了四個區,對應我們檔案系統中的cdef盤。即四個分割槽在我們使用者看來是平級的。這時如果新增了乙個

對於linux來講,硬碟也是以分割槽的形式掛載在檔案系統上。這點與windows一致。不同的是,windows有多個檔案系統樹(c:d:e:f:),而linux只有乙個檔案系統樹,也就是我們看到的,所有的目錄以及檔案都是在根目錄  /  下的。那麼linux是怎麼掛的呢?linux會將不同的分割槽掛在不同的目錄下。

如圖:

圖中,檔案系統其實就是我們上邊講的分割槽,這些檔案系統(分割槽)共同組成了我們linux整個的檔案系統。這裡注意,其實檔案系統與分割槽是統一的,可以認為分割槽是檔案系統的載體,我們上邊講它們兩者的關係,只是為了進一步幫助理解。那麼既然分割槽是掛在linux的基於根目錄的這棵「樹」上的,我們就將分割槽掛的這個目錄稱為掛載點。如上。

下邊我們來具體講解一下關於將硬碟分割槽的命令:

a、使用:fdisk -l 命令檢視硬碟及分割槽資訊,如圖:

圖中,使用矩形圍起來的是硬碟,一般硬碟會按照sda、sdb、sdc的順序依次新增。下邊兩塊硬碟暫時不要考慮。

使用橢圓圈起來的是分割槽,如硬碟sda有三個分割槽,分別是sda1、sda2、sda3。

可以看到箭頭指向的硬碟sdc沒有分割槽,這意味著這塊硬碟尚未被使用,這就是我們新新增的硬碟。

b、通過  fdisk /dev/sdc  對新硬碟進行分割槽

輸入m可以列印我們的操作選單,注意上邊紅線圈出 的命令,n代表新建乙個分割槽,p代表列印當前硬碟的分割槽表,w代表向硬碟寫入分割槽表。接下來我們依次執行。如圖:

輸入n,新建乙個分割槽,兩個選項,p代表主分割槽,e代表擴充套件分割槽,選擇p主分割槽;第二次輸入p是為了列印分割槽表,可以看到分割槽sdc1建立成功。建立過程中的分割槽好,起始扇區,last扇區使用預設值直接回車即可。最後輸入w,寫入分割槽。

c、使用  mkfs -t ext4 /dev/sdc1 將新分割槽格式化成ext4的格式
如圖:

d、通過  mount /dev/sdc1 /disk5 將新的分割槽sdc1掛載到目錄disk5下邊
如圖:

最後,我們通過df -lh /disk5 命令檢視目錄disk5,發現其確實是新的分割槽sdc1,掛在成功。如此,便可正常使用新加的硬碟了。

小結:用到了  fdisk  df  mkfs  mount  等幾個命令,注意複習。

export path=$path:/home/hadoop/hadoop-2.5.2/bin
hadoop fs -ls /  表示列出根目錄下的所有檔案(夾)
hadoop fs -put readme.txt /user/hadoop/test/  表示將readme.txt檔案上傳到hdfs的/user/hadoop/test/目錄下
hadoop fs -get / /hadoop_data  表示將hdfs檔案系統根目錄/下的所有檔案(夾)匯出到本地的/hadoop_data目錄下
hadoop fs -rm /  表示刪除hdfs檔案系統中的所有檔案(夾)
等等。

hadoop遷移資料應用例項詳解

專案開發中hadoop一直裝在虛擬機器上,最近要遷移到伺服器上。記錄下遷移過程。一 為虛擬機器新增一塊新的硬碟 虛擬機器的初始硬碟只有30g,容不開要匯出的資料。兩種方式,一是給虛擬機器擴容 二是為虛擬機器新增一塊新的硬碟。這裡採取第二種方式。1 新增虛擬硬碟 至此,新增硬碟成功。2 將硬碟分割槽 ...

遷移資料方案

我們在做系統的時候,有時候會遇到遷移資料或者處理任務 任務量又比較大 比如把redis的資料取出來做一些操作,然後處理完的資料在存到hbase 我們需要考慮到資料處理過程中失敗情況,需要處理高併發去執行,具體怎麼設計,怎麼做呢,有一種簡單的方式如下 1我們先把任務資料存到redis任務佇列裡 2定義...

oracle遷移資料

往本地oracle的 user使用者遷移資料,生成遷移日誌 imp user user 127.0.0.1 orcl file f user 20191203.dmp statistics none fromuser user touser user log d user.log建立使用者 user...