資料採集工具之Sqoop

2022-06-19 13:39:11 字數 716 閱讀 2242

sqoop專案開始於2023年,最早是作為hadoop的乙個第三方模組存在,後來為了讓使用者能夠快速部署,也為了讓開發人員能夠更快速的迭代開發,sqoop獨立成為乙個apache專案。

sqoop是一款開源的工具,主要用於在hadoop(hive)與傳統的資料庫(mysql 、 postgresql...)間進行資料的傳遞,可以將乙個關係型資料庫(例如 : mysql ,oracle , postgresql等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

sqoop這個工具是做資料遷移用的,是關係型資料庫和hive/hadoop的資料遷移,方便大量資料的匯入匯出工作。sqoop底層是通過mapreduce去實現的,但只有map沒有reduce。

匯入資料:mysql,oracle 匯入資料到 hadoop 的 hdfs、hive、hbase 等資料儲存系統

匯出資料:從 hadoop 的檔案系統中匯出資料到關聯式資料庫 mysql 等 sqoop 的本質還是乙個命令列工具

1、sqoop import原理:

2、sqoop export 原理:

獲取匯出表的schema、meta資訊,和hadoop中的字段match; 並行匯入資料: 將hadoop 上檔案劃分成若干個分片,每個分片由乙個map task進行資料匯入。

sqoop資料遷移工具

注 為了表達清晰做了換行,執行時請放在一行中,使用空格隔開,或者加 進行行連線 在profiles中新增sqoop到環境變數 將資料庫連線驅動拷貝到 sqoop home lib裡 sqoop import connect jdbc mysql username root password 123 ...

sqoop工具資料遷移

sqoop 發音 skup 是一款開源的工具,主要用於在hadoop hive 與傳統的資料庫 mysql postgresql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql oracle postgres等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資...

字段型別 sqoop 資料遷移工具Sqoop

熬過去,出眾。熬不過,出局。這是最真實的人生,人都是熬過來的。sqoop 是乙個用來將hadoop和關係型資料庫中的資料相互轉移的工具,它是hadoop環境下連線關聯式資料庫與hadoop儲存系統的橋梁,支援多種關係型資料來源和hive hdfs hbase的相互匯入。支援全表匯入,也支援增量資料匯...