做大資料心得

2021-08-27 22:05:53 字數 577 閱讀 4760

1 sql嫻熟,這體現在etl的hive階段,自定義函式,分析函式,sql各種關聯寫 (類dba傾向)

2 hive sql優化要懂

3 mr流程要很熟悉, mr 優化,配置要知道,這在hive sql優化上有幫助,甚至有的hive寫法很消耗效率,

啟動多個mr的時候,

能自定義mr 來替代

4 大資料的etl流程架構結合(mr hive hbase)

大資料的流處理結構結合(flume kafka storm hbase)

5 spark 替代方案

6 資料完整性, 這裡是指 從關係庫oracle等到 hadoop系統後,

你處理的資料個數要兩者保證一致,  比如前者5000w 到後者 4900w

你在大資料業務下處理後的資料結果要和業務要求匹配對,比如前者期待結果為 15元 後者結果為14元

7 linux運維能力,這裡為啥提這一點,在配合運維同事測試的時候,對問題的定位,這種對hadoop的熟悉

linux的熟悉程度,決定了你處理問題的速率, 也間接決定了你的威信,價值。

這個過程需要很多硬功的積累,注定要很多壓力,糾結, 且行且努力吧。

SqlBulkCopy做大資料插入

在做大批量資料插入的時候,如果用insert into values 這種方式的話效率極低,這裡介紹兩種效能比較好的批量插入方法。1.使用sqlbulkcopy private static long sqlbulkcopyinsert sqlbulkcopy sqlbulkcopy new sql...

Python為什麼可以做大資料分析?

python很適合做大資料相關的分析,內建的c編譯的模組能應對常見的操作,個別極端的演算法建議用c重寫相關模組。python本身的特點更多的是高效率的開發和簡單的維護,速度交給c去吧,更多的問題其實出自寫 的人沒有更好的使用,而不是效率不夠高。比如排序,本來python有非常高效的內建c編譯的模組,...

基於Hadoop平台做大資料的幾種應用

1 自己寫mapreduce任務,雖然開發難度大一點,但執行效率比pig和hive高,像google的pagerank排名,機器學習 推薦,全盤掃瞄的etl都是這種方式的典型應用 2 用hive做分析,hive的一大好處就是能使用程式設計師熟悉的sql進行計算任務編寫,但某些運算效率不及m r 3 ...