分庫分表mysql到hdfs

2021-10-02 15:19:33 字數 904 閱讀 5744

前面文章寫入如何將hdfs的資料分表插入mysql。這裡主要講解如何進行分庫分表抽取。

需求:公司線上庫的一些資料量比較大的表是存在多庫多表的。數倉進行資料抽取的時候,需要將這些表統一抽取過來,然後進行合併到一張hive表。

以前的方案:1、通過 mysqluldr2 這個工具將多表抽取到本地,user_1.txt,user_2.txt,user_3.txt…。

2、cat user*.txt > user.txt

3、hdfs dfs -put user.txt

4.load data inpath 『』 into table …

原來方案的資料檔案都要落地,同時原始碼在某次編譯過程中丟失,需要進行重構。

新方案使用spark進行抽取:

1、mysqljdbc讀取資料,write到hdfs檔案

2、將hdfs檔案對映到表插入最終src表

大概**如下:
sc.parallelize(newimportconfs,1).map(conf=>(conf.gethashcode,conf)).partitionby(new hashpartitioner(partitionnum)).foreachpartition(

partition => else

partition.foreach(result => else

}while (rs.next()) else

}os.write(line.getbytes("utf-8"))

}rs.close()

ps.close()

conn.close()})

}catch

}finally

if (fs != null)

}}

mysql分表分庫實現 MySql分表分庫思路

一.資料庫瓶頸 1.1io瓶頸 第一種 磁碟讀io瓶頸,熱點資料太多,資料庫快取放不下,每次查詢時會產生大量的io 分庫和垂直分表 第二種 網路io瓶頸,請求的資料太多,網路頻寬不夠 分庫 1.2cpu瓶頸 第一種 sql問題,如sql中包含join,group by,order by,非索引字段條...

MySQL範圍分表分庫 mysql 分表分庫策略

唯一id的生成 下面列舉幾種常見的唯一id生成方案,需要滿足兩大核心需求 1.全域性唯一 2趨勢有序 1.用資料庫的auto increment 自增id 來生成,每次通過寫入資料庫一條記錄,利用資料庫id自增的特性獲取唯一,有序的id。優點 使用資料庫原有的功能,相對簡單 能夠保證唯一 能夠保證遞...

mysql 分庫分表實戰 MySQL分庫分表實戰

為什麼要分庫分表 在大型 中,當使用者量以及使用者產生的業務資料量達到單庫單錶效能極限時,為了支撐業務可持續發展,對於重要的核心業務必然要進行分庫分表來儲存業務資料。對於非核心業務產生的大量資料,例如爬蟲爬取的資訊,論壇產生的資料等,可以考慮把資料儲存在像mongodb這樣的nosql儲存裡面,這些...