統計踩坑日記(三)

2021-10-09 15:50:17 字數 677 閱讀 1977

統計踩坑日記(三)

細心決定一切

程式設計師的下班時間是由他對當前手裡專案有沒有想法決定的,上週對三張表進行統計工作,就被細節問題折磨的欲仙欲死

1.寫**的時候可以隨心所欲點,但涉及到指標的生成、統計時就需要嚴陣以待。每個指標都建議大寫,因為不是每個資料庫都不區分大小寫,比如kudu,他就不支援小寫字母來對應指標名,所以一開始就養成指標名大寫的習慣總是不會錯的。如果不是在這上面耽誤了幾百分鐘,我也不會在意。

2.每條**都事先寫好所有的指標名的集合,可以省下繁複的drop(「column_name」)工作,

def select(df:dataset[row]):datafrme =
3.寫hive和kudu的時候最好關注一下其他前輩是怎麼寫的,盡量和別人保持一致,不搞特殊化

4.寫表的時候有檔案表,職能表之分,檔案表理論上可以做一切分析,但檔案表裡存的資料量大,所以載入檔案表時間會耗時太多,有這時間不如問領導有沒有統計好的表拿來直接用。沒辦法再想著join檔案表。

5.寫表的時候hive有insert方法和insert overwrite方法,有些部落格對insert overwrite方法介紹的不是很清晰,insert overwrite方法是匹配完全一致的重複資料只保留最後一次寫進去的那乙個。所以要視情況用。merge方法不熟悉,開發中最好選擇熟悉的能夠掌握它每一步執行的方法

統計踩坑日記(五)

技術的熟練度來自於日復一日的堅持 技術的提公升來自於高熟練度以及偶然的靈光 加油!遇到事情不能坐以待斃 filter的n種寫法 filter expr colname 15 filter colname 1 filter a 1 and b 2 and c 3 filter expr colname...

統計踩坑日記(二)

todf 構造測試資料,有兩個字段 名字和年齡 val userdata array a 16 b 21 b 14 b 18 建立測試df val userdf spark.createdataframe userdata 1 2 a 16 b 21 c 14 d 18 todf name age ...

React Native 踩坑日記

問題 於示圖 findpage title 發現 解決辦法 react native 中無論是 tabbarios.item 還是 tabbar.item 必須有且只有乙個元件,說白了就是需要有子元件的存在,並且只存在乙個子元件。findpage title 發現 onpress selected ...