Sqoop的資料處理方法

2021-09-01 00:19:45 字數 2502 閱讀 5026

-2 ,檢視 mysql 的資料

--connect ## jdbc 連線位址

--connection-manager ## 指定使用的連線管理類

--driver ## 指定jdbc要使用的驅動類

--help ## 列印用法幫助資訊

-p ## 從控制台讀取輸入的密碼

-m ## 複製過程中使用1個map作業,若是不寫預設是使用4個map任務並行匯入

--password ## 密碼

--username ## 賬號

--table ## mysql表名

--fields-terminated-by ## 輸出檔案中的行的字段分隔符

--target-dir ## 指定hdfs路徑

--where ## 指定匯出時所使用的查詢條件

--verbose ## 在控制台列印出詳細執行資訊

--connection-param-file ## 可選,乙個記錄著資料庫連線引數的檔案

命令:

sqoop import \

--connect jdbc:mysql://hadoop01:3306/mysql \

--username root \

--password shiny \

--table help_keyword \

-m 1

驗證結果

缺省會儲存在 hdfs 上的 /user/shiny/help_keyword 目錄中,用逗號對欄位進行分隔

命令:

sqoop import \

--connect jdbc:mysql://hadoop01:3306/mysql \

--username root \

--password shiny \

--table help_keyword \

--target-dir /mysqltohdfs/help_keyword \

--fields-terminated-by '\t' \

-m 1

驗證結果:

使用 --target-dir 引數,指定匯出的檔案儲存路徑為/mysqltohdfs/help_keyword,並指定用"\t"對欄位進行分隔

命令:

sqoop import \

--connect jdbc:mysql://hadoop01:3306/mysql \

--username root \

--password shiny \

--table help_keyword \

--where 'name = "only"' \

--target-dir /mysqltohdfs/where/help_keyword \

--fields-terminated-by '\t' \

-m 1

驗證結果:

將name = 「only」 的記錄寫入 /mysqltohdfs/where/help_keyword 目錄中,並用"\t"對欄位進行分隔

命令:

sqoop import \

--connect jdbc:mysql://hadoop01:3306/mysql \

--username root \

--password shiny \

--query 'select * from help_keyword where help_keyword_id < 10 and $conditions' \

--split-by help_keyword_id \

--target-dir /mysqltohdfs/query/help_keyword \

--fields-terminated-by '\t' \

-m 2

驗證結果:

將hql查詢的結果寫入/mysqltohdfs/query/help_keyword 目錄中,並用"\t"對欄位進行分隔

1,普通匯入

2,指定分隔符和資料庫

3,覆蓋表中資料普通匯入語法

資料匯出詳細步驟1,語法

2,資料匯出詳細步驟沒有直接的命令將 hbase 的資料匯出到 mysql

(1)先將 hbase 的資料匯出到 hdfs;

(2)再將資料匯出到 mysql。

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...

pandas 的資料處理方法

import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...

資料處理方法總結

讀取資料 data pd.read csv print data.head 10 處理資料 1.縮小資料,查詢資料篩選,query相當於sql語句,進行條件查詢 data data.query x 1.0 x 1.25 y 2.5 y 2.75 2.處理時間處理 time value pd.to d...