資料處理技巧

2021-08-30 21:45:39 字數 556 閱讀 9060

1.相關分析後指標二選一怎麼選?

相關分析後我們需要對高度相關的指標組進行處理,選擇原則如下:

(1)優先留下業務上更重要的指標。比如,歷史購買總金額與歷史購買次數高度相關了,由於某次分析的目的是尋找重點客戶(目標導向很重要,這個需要與業務方進行溝通,統一業務口徑),所以這次分析中歷史購買總金額指標在重要性上略勝一籌,留下歷史購買總金額這個指標。

(2)優先留下包含更多資訊的指標。比如,a類客戶人數與a類客戶佔比這兩個指標高度相關了,那麼我們會優先留下a類客戶佔比這個指標,因為這個指標包含了a類客戶人數和所有類別客戶總人數兩方面的資訊。

(3)優先留下資料真實性、準確性更高的特徵。比如,使用者月收入這個特徵由於各種原因其數值並不靠譜,那麼它與其他特徵高度相關時,我就會考慮放棄他。

(4)優先留下仍具有時效性的特徵。比如說a指標與b指標衝突了,a指標的資料是一年前更新的,b指標資料則是每日更新的,那麼我會考慮留下b指標。

另外,當我們出現兩個數值類特徵衝突時,去掉其中乙個數值特徵之後,可以補上該特徵所計算出來的佔比類特徵,這可以盡我們最大努力保留更多的資訊以供演算法學習。

海量資料處理技巧

資料時代來臨,資料量的 式增長是最為顯著的特徵。當高效能硬體的普及還跟不上這樣的資料大潮時,如何在有限的時空資源內處理海量資料成為了電腦科學以及數理統計等領域最大的挑戰。海量資料處理的困難用一句話概括,就是時空資源不夠。具體來說,對於時間受限的問題,我們一般的解決辦法是高效的演算法配合恰當的資料結構...

python資料處理小技巧 2

1,拆分含有多種分隔符的字串 import re s sdjjg,jsa jjalg tjljl.ljei,jks dji 方法 使用s.split 分割單個符合 使用正規表示式的re.split 方法,一次性拆分字串,使用 號表示分割連續多個 newstr re.split r t s print...

mysql中資料處理小技巧

平時開發中經常與資料庫打交道,mysql又是現在比較常用的資料庫,此文總結下平時會用到的mysql的小技巧。create table x like y 快速建立和y結構一樣的表x select last insert id 處理資料時比較有用,比如插入一條資料後,要獲取插入資料的自增主鍵id,就可以...