做大資料心得

1 sql嫻熟，這體現在etl的hive階段，自定義函式，分析函式，sql各種關聯寫 (類dba傾向)

2 hive sql優化要懂

3 mr流程要很熟悉， mr 優化，配置要知道，這在hive sql優化上有幫助，甚至有的hive寫法很消耗效率，

啟動多個mr的時候，

能自定義mr 來替代

4 大資料的etl流程架構結合(mr hive hbase)

大資料的流處理結構結合(flume kafka storm hbase)

5 spark 替代方案

6 資料完整性，這裡是指從關係庫oracle等到 hadoop系統後，

你處理的資料個數要兩者保證一致，比如前者5000w 到後者 4900w

你在大資料業務下處理後的資料結果要和業務要求匹配對，比如前者期待結果為 15元後者結果為14元

7 linux運維能力，這裡為啥提這一點，在配合運維同事測試的時候，對問題的定位，這種對hadoop的熟悉

linux的熟悉程度，決定了你處理問題的速率，也間接決定了你的威信，價值。

這個過程需要很多硬功的積累，注定要很多壓力，糾結，且行且努力吧。

SqlBulkCopy做大資料插入

在做大批量資料插入的時候，如果用insert into values 這種方式的話效率極低，這裡介紹兩種效能比較好的批量插入方法。1.使用sqlbulkcopy private static long sqlbulkcopyinsert sqlbulkcopy sqlbulkcopy new sql...

Python為什麼可以做大資料分析？

python很適合做大資料相關的分析，內建的c編譯的模組能應對常見的操作，個別極端的演算法建議用c重寫相關模組。python本身的特點更多的是高效率的開發和簡單的維護，速度交給c去吧，更多的問題其實出自寫的人沒有更好的使用，而不是效率不夠高。比如排序，本來python有非常高效的內建c編譯的模組，...

基於Hadoop平台做大資料的幾種應用

1 自己寫mapreduce任務，雖然開發難度大一點，但執行效率比pig和hive高，像google的pagerank排名，機器學習推薦，全盤掃瞄的etl都是這種方式的典型應用 2 用hive做分析，hive的一大好處就是能使用程式設計師熟悉的sql進行計算任務編寫，但某些運算效率不及m r 3 ...

做大資料心得

SqlBulkCopy做大資料插入

Python為什麼可以做大資料分析？

基於Hadoop平台做大資料的幾種應用

相關推薦