點選率預估界的「神運算元」是如何煉成的？

好地滿足嚴苛的響應時間的限制。為了獲得滿足響應時間限制、具有優良表現的模型，我們提出了乙個新型框架：訓練階段，同時訓練繁簡兩個複雜度有明顯差異的網路，簡單的網路稱為輕量網路（light net），複雜的網路稱為助推

器網路（booster net），它相比前者有更強的學習能力。兩網路共享部分引數，分別學習類別標記。此外，輕量網路通過學習助推器的soft target來模仿助推器的學習過程，從而得到更好的訓練效果。測試階段，僅採用輕量網路進行**。

火箭發射過程中，初始階段，助推器和飛行器一同前行，第二階段，助推器剝離，飛行器獨自前進。在我們的框架中，訓練階段，有繁簡兩個網路一同訓練，複雜的網路起到助推器的作用，通過引數共享和資訊提供推動輕量網路更好的訓練；在**階段，助推器網路脫離系統，輕量網路獨自發揮作用，從而在不增加**開銷的情況下，提高**效果。整個過程與火箭發射類似，所以我們命名該系統為「火箭發射」。

我們框架的創新在於它新穎的訓練方式：

1、繁簡兩個模型協同訓練，協同訓練有以下好處：

b) 另一方面，助推器網路全程提供soft target資訊給輕量網路，從而達到指導輕量網路整個求解過程的目的，使得我們的方法，相比傳統方法，獲得了更多的指導資訊，從而取得更好的效果。

2、採用梯度固定技術：訓練階段，限制兩網路soft target相近的loss，只用於輕量網路的梯度更新，而不更新助推器網路，從而使得助推器網路不受輕量網路的影響，只從真實標記中學習資訊。這一技術，使得助推器網路擁有更強的自由度來學習更好的模型，而助推器網路效果的提公升，也會提公升輕量網路的訓練效果。

助推器網路和輕量網路共享部分層的引數，共享的引數可以根據網路結構的變化而變化。一般情況下，兩網路可以共享低層。在神經網路中，低層可以用來學習資訊表示，低層網路的共享，可以幫助輕量網路獲得更好的資訊表示能力。

如圖1所示，訓練階段，我們同時學習兩個網路：light net 和booster net, 兩個網路共享部分資訊。我們把大部分的模型理解為表示層學習和判別層學習，表示層學習的是對輸入資訊做一些高階處理，而判別層則是和當前子task目標相關的學習，我們認為表示層的學習是可以共享的，如multitask learning中的思路。所以在我們的方法裡，共享的資訊為底層引數（如影象領域的前幾個卷積層，nlp中的embedding），這些底層引數能一定程度上反應了對輸入資訊的基本刻畫。

整個訓練過程，網路的loss如下：

loss包含三部分：第一項，為light net對ground truth的學習，第二項，為booster net對ground truth的學習，第三項，為兩個網路softmax之前的logits的均方誤差（mse），該項作為hint loss, 用來使兩個網路學習得到的logits盡量相似。

兩個網路一起訓練，從而booster net 會全程監督輕量網路的學習，一定程度上，booster net指導了light net整個求解過程，這與一般的teacher-student 正規化下，學習好大模型，僅用大模型固定的輸出作為soft target來監督小網路的學習有著明顯區別，因為boosternet的每一次迭代輸出雖然不能保證對應乙個和label非常接近的**值，但是到達這個解之後有利於找到最終收斂的解。

hint loss這一項在snn-mimic中採用的是和我們一致的對softmax之前的logits做l2 loss：

hinton的kd方法是在softmax之後做kl散度，同時加入了乙個rl領域常用的超參temperature t：

也有乙個半監督的工作再softmax之後接l2 loss：

實驗方面，我們驗證了方法中各個子部分的必要性。同時在公開資料集上，我們還與幾個teacher-student方法進行對比，包括knowledge distillation(kd),attention transfer(at)。為了與目前效果出色的at進行公平比較，我們採用了和他們一致的網路結構寬殘差網路（wrn）。實驗網路結構如下：

圖2：實驗所用網路結構

紅色+黃色表示light net, 藍色+紅色表示booster net。(a)表示兩個網路共享最底層的block，符合我們一般的共享結構的設計。(b)表示兩網路共享每個group最底層的block，該種共享方式和at在每個group之後進行attention transfer的概念一致。

我們通過各種對比實驗，驗證了引數共享和梯度固定都能帶來效果的提公升。

固定booster net, 改變light net的層數，rocket launching始終取得比kd要好的表現，這表明，light net始終能從booster net中獲取有價值的資訊。

通過視覺化實驗，我們觀察到，通過我們的方法，light net能學到booster net的底層group的特徵表示。

除了自身方法效果的驗證，在公開資料集上，我們也進行了幾組實驗。

在cifar-10上, 我們嘗試不同的網路結構和引數共享方式，我們的方法均顯著優於已有的teacher-student的方法。在多數實驗設定下，我們的方法疊加kd，效果會進一步提公升。

這裡wrn-16-1,0.2m 表示wide residual net, 深度為16，寬度為1，參數量為0.2m。

同時在cifar-100和svhn上，取得了同樣優異的表現。

同時，在阿里展示廣告資料集上，我們的方法，相比單純跑light net，可以將gauc提公升0.3%。

原文發布時間為：2018-10-9

阿里技術」。

點選率預估界的「神運算元」是如何煉成的？

阿里DMR點選率預估模型解讀

點選率模型的二三事

如何調整廣告位置提高聯盟廣告的點選率

點選率預估界的「神運算元」是如何煉成的？

阿里DMR點選率預估模型解讀

點選率模型的二三事

如何調整廣告位置提高聯盟廣告的點選率

相關推薦