乾貨資料探勘比賽大資料處理和建模經驗

有同學反饋，我們決賽的資料比較大，由於機器資源的限制，在處理資料和構建模型的時候，會遇到一些瓶頸。以下來拋一下我們了解的一些處理思路：

1 取樣

可以對資料進行下取樣，然後使用不同的子集進行特徵抽取和建模，最後再進行整合。

2 特徵處理

在處理大規模原始資料時，需要充分借助外存（硬碟）空間，只把真正需要處理的資料放進記憶體。一般而言，採用流式、分塊的方式處理資料可以解決大部分問題。以下是一些具體的技巧。

a）只載入需要的資料到記憶體。有些特徵可以通過單條資料直接得到，如星期特徵。這種情況下，可以使用 streaming 的方式進行處理，每次讀入若干資料（chunk），處理，生成特徵，然後再寫到硬碟。使用 pandas 的 read_csv，可以設定 chunksize 引數，譬如 for chunk in read_csv ( infile, chunksize=10000 )；

b）只保留需要的資料在記憶體。決賽的資料可以直接裝到 16g 記憶體中，每次生成一條樣本的特徵，就把特徵直接寫入硬碟，不在記憶體保留。如果生成的特徵較多，可以分多次生成，寫到分散的特徵檔案，最後進行乙個 merge 操作。在 merge 的時候，可以對多個特徵檔案按照統一的 key 進行排序，然後同時掃瞄多個特徵檔案，進行merge，再寫到硬碟；

b) libffm：支援外存學習

c) xgboost：支援外存學習

d) keras：通過模型的 fit_generator 方法，支援批量讀入資料進行訓練

4寫在最後

本次比賽提供了比較大的資料，也是想讓選手們體驗現實業務場景裡面的大資料問題。在這樣的情況下，如何找到乙個高效有效的資料處理和模型構建方法，也是本次比賽的乙個挑戰。

乾貨資料探勘比賽大資料處理和建模經驗

資料探勘資料處理

資料探勘（資料處理基礎）

資料探勘資料處理概念

乾貨 資料探勘比賽大資料處理和建模經驗

資料探勘 資料處理

資料探勘（資料處理基礎）

資料探勘 資料處理概念

相關推薦

乾貨資料探勘比賽大資料處理和建模經驗

資料探勘資料處理

資料探勘資料處理概念