第五屆百度西安交大大資料競賽總結

資料集中資料為4萬張100*100的jpg格式，下圖所示：

行人訪問資料為每乙個地點的各個行人不同時間的訪問資訊，例如屬於居民區的某一地點的行人訪問記錄：

資料集中有很多雜訊比如全黑或者全白，全黑應該是切割時候將黑色位置也切割進去了，白色位置為雲遮蓋，將這些雜訊全部過濾掉。資料集下了不少的功夫卻收效甚微，實驗了大量的模型vgg16、vgg19、resnet系列、inception系列、resnext、nasnet、se-resnext等最好的結果是nasnet和se-resnext的accuracy在0.4左右。也通過這幾個表現較好的網路進行融合將結果投票、將各個網路輸出的每個類別的概率相加等做法，有些類似於bagging中隨機森林的思想，但是效果還是不太好，沒有明顯的提公升，

總體baseline思路是這樣的（inspired by ：

通過兩個網路提取特徵，通過網路的最後一層256和612後進行拼接成768再進行fully connected最後9個類別（而在我的團隊中是**出來9個位置的概率後整合在一起），啟用函式設成soft max即可可以達到0.5左右。這裡的visit network如果是卷積網路等比較容易整合到一起訓練，如果使用xgboost、ligntgbm等就得分開訓練了。這裡值得注意的一點是使用了dpn卷積網路來處理序列資料，具體的做法是把visit資料轉換為7x26x24的矩陣（7天26周24小時），將這個矩陣看作的格式7個通道，26*24的大小輸入dpn卷積網路進行訓練，使用了處理的思想來處理序列資料，非常值得參考，記得2023年北郵有乙個大資料競賽就是給定了行人訪問資料判斷地點的標籤，便可以使用這個模型。

下面的這個思路是將行人資料和資料訓練的不同模型的結果輸入到xgboost模型進行融合能達到0.6左右成績。inspired by（，與上乙個架構不同點在於最後一層不再使用全連線作為融合，而是使用xgboost融合。架構如下圖所示，使用了xgboost取代了dpn網路，這提高了模型的準確率，這裡值得指出的是我們團隊使用的是lightgbm準確率卻低百分之零點幾的百分點，可見ligntgbm提高了訓練的速度卻犧牲了模型的精度為代價。

接下來的思路在上一版的基礎上進行迭代，使用如下的架構，作者因為時間原因並沒有實現其中的分割網路，只使用了其餘的三個網路，準確率最終也達到了0.7左右，這個思路結合了第乙個和第二個思路中處理序列的網路，將se-resnext、xgboost、dpn分別訓練**出各個位置的概率後輸入到xgboost中。

第五屆百度西安交大大資料競賽總結

2018百度西交大大資料競賽商家招牌的分類與檢測

百度西交大大資料戰略合作共建創新人才平台

西安郵電大學第五屆ACM ICPC校賽校車

第五屆百度 西安交大大資料競賽總結

2018百度西交大大資料競賽 商家招牌的分類與檢測

百度西交大大資料戰略合作共建創新人才平台

西安郵電大學第五屆ACM ICPC校賽 校車

相關推薦

第五屆百度西安交大大資料競賽總結

2018百度西交大大資料競賽商家招牌的分類與檢測

西安郵電大學第五屆ACM ICPC校賽校車