經驗總結7 資料準確性

1、乙個版本開發過程，可能瑣碎的需求比較多，一定要記下來，否則後面可能會忘記或遺漏，不要太自信自己的記憶力

2、a left join b on 1=1 ,一般用來把b表的字段加到a表的每一行上，比如b表計算出當天是否是工作日，這是乙個常量，和a表沒有關係，所以就直接加到a表的每一行

3、資料包表開發是件很嚴謹的事，有的報表是全國各機構的人都在看的，一旦資料準確性出現問題，會引來很多人的質問，一定要重視

4、如果a和b是相同的表結構，只是名稱不同，則兩張表在關聯取數的時候一定要寫出具體的欄位名並加表名，如果只是單純的 select a.* ,b.* ，查出來的資料是混亂的

5、一般來說，sqoop任務是不可以並行跑的，因為在導數的時候會先把從hive查出來的資料放到乙個路徑下，如果多個任務則時跑則會把多份資料放到同乙個路徑，導致報錯，可以在平台配置，每個任務的資料放到不同的路徑

6、開發時不能只考慮日常版本，還要考慮到回刷歷史資料的場景，比如計算年累計指標，除了限制日期年，還要限制日期<=當前日期，否則回刷歷史時全有問題

7、開發過程中一定要多想一步，如果發現某一處有問題，那可能問題不止這一處，排查下其他地方有沒有相同的問題，而不是等到其他地方的問題冒出來後再解決

8、別人給出來的邏輯，自己一定要過下腦子想下合不合理，不要偷懶，自己是開發，很多時候需求分析時沒有考慮到具體的細節，但作為開發人員，在實操過程中一定要判斷可行性，如果不考慮合理性，出問題了還是得自己改

9、在負責乙個模組的時候，首先把模組所涉及的任務和指令碼名列出來，梳理下資料處理流程，在改動一處邏輯時，根據任務名和資料處理流程思考下是否還要改動其他相關指令碼，正所謂牽一髮而動全身，很多時候只改一處邏輯或乙個指令碼是不行的，比如手工數的改動，新增了乙個字段，修改了關聯邏輯，則根據指令碼名和資料處理流程來說，要改表結構、hql指令碼、用到這張表的hql、初始化任務hql、下游表hql等，一定要顧全大局

10、給業務驗數的時候必須保證給出的資料和生產上線後的資料是一致的，如果生產上線後的資料和給出的不一致，業務要罵街的

11、不要總是一次又一次的出錯，尤其是給業務驗數這種事，如果經常出錯會導致領導、同事對你的不信任，明明自己累得要死，但是做出來的東西也不行

經驗總結7 資料準確性

資料準確性和模型準確性

大資料的監控和資料準確性保證

經驗總結資料預處理經驗總結1

經驗總結7 資料準確性

資料準確性和模型準確性

大資料的監控和資料準確性保證

經驗總結 資料預處理經驗總結1

相關推薦

經驗總結資料預處理經驗總結1