對機器學習與資料競賽的一些總結

回顧比賽

最近半年參加的比賽成績：

1. 阿里**流行趨勢**大賽 2016.5.17-7.15 top 15/5476

2. 最後一公里極速配送 2016.7.4-9.9 top 31/1460

3. 阿里雲安全演算法挑戰賽 2016.8.22-10.13 top 1/940

4. 機場客流量的時空分布** 2016.9.28-11.28 top 28/3038 12

34比賽感悟，有了成長，更有了堅定的目標，比賽中深刻發現自己學習方面的缺陷，封賽專心學習，重打基礎，做更靠譜的方案。

基本過程

具體問題需要具體分析

資料清洗/處理

資料清洗直接影響後期特徵和模型的效果，必須重視！

一些常用python預處理方法參考：

1. 缺失值處理(刪除、補全、標記為缺失特徵等)

2. 異常資料處理(刪除、平滑等)

3. 不規範資料規範化

4. 構建合適樣本(解決樣本傾斜等)

5. 劃分資料集(train validation test)

特徵工程

特徵工作是重中之重，特徵提不好，模型很難提公升上去，特徵好了，效果提公升很模型。

特徵構造

根據業務場景來構建特徵(特徵不要時間穿越，不要用到標籤)

交叉特徵(多項式組合，gbdt與lr構造組合特徵)

時間視窗特徵

變換特徵(log、歸一化等)

連續特徵離散化

離散特徵連續化(獨熱編碼、向量化等)

特徵選擇

參考

模型選擇

regression (回歸)，classification (分類)，clustering (聚類)

常見的回歸演算法

常見的分類演算法

常見的聚類方法

規則結合實際業務背景，簡單有效的規則，可用於模型融合。

推薦演算法

引數優化

交叉驗證避免過擬合，針對評測函式優化，重構模型損失函式。

網格搜尋遍歷優化等，與模型本身數學推導和資料情況有關，具體略。

資源分配

預處理10%

特徵過程60%

模型調整/融合30%

文字處理

不平滑資料處理

暫略 - 過取樣/欠取樣

- 代價敏感

整合學習

參考：遷移學習

暫略參考數加平台

統計分析

網路分析

大規模機器學習

對機器學習開源框架的一些認識

開源框架有 theano tensorflow caffe torch scikit learn等各自的應用 1.theano開發於2007年，擅長處理多維陣列的庫，偏底層，需要從底層建立模型。與後來出現的tensorflow非常相似。它的優點有使用計算圖，rnn 與計算圖相容良好，有 kera...

對Photoshop的一些總結

以前也用過photoshop，回家以後幫乙個朋友的忙，修改一些，以前都是老婆給弄的，現在沒有辦法，只好自己來弄，說實話，我對ps也是二百五，對一些簡單的東西會，稍微複雜一點的就不行了。偶決定過幾天後到書店去買幾本ps的書，好好的看看，學習一些經典的製作。偶發現現在很多東西都離不開ps了，總不能有事情...

一些與機器學習有關的概念

有監督學習是從標籤化訓練資料集中推斷出函式的機器學習任務。訓練資料由一組訓練例項組成。其基本思想是，我們資料集中的每個樣本都有相應的正確答案再根據這些樣本作出就像房子和腫瘤的例子中做的那樣。我們還介紹了回歸問題，即通過回歸來推出乙個連續的輸出，之後我們介紹了分類問題，其目標是推出一組離散的結果...

對機器學習與資料競賽的一些總結

對機器學習開源框架的一些認識

對Photoshop的一些總結

一些與機器學習有關的概念

相關推薦