AutoML 系列 Hyperband介紹

背景

隨著資料量的增大以及模型複雜度的增加，使用類似貝葉斯優化等方法進行超引數優化會消耗大量的計算資源，所以有必要尋求一種更加快速的演算法。

該文章的作者將尋找最優超引數的過程視為乙個在給定資源( 迭代次數，資料量，特徵量等 )下，在無限臂***上進行非隨機地探索的過程。在這種想法下提出了 hyperband 演算法框架。

hyperband 就是通過合理的分配資源，從而提高超引數組合的評價速度。

hyperband 演算法框架

successive halving

這個演算法做的事情大致是這樣的，對於一系列超引數組合分配相同的資源，然後對這些超引數組合進行評價，扔掉表現較差的一半超引數，重複上述流程直到只剩下一組超引數。

這個演算法需要超引數組合的總數量n

nn與總資源b

bb作為輸入，這樣，每個待評價的組合平均分配b

n\frac

nb的資源。但是，對於乙個確定的b

bb來說，我們很難知道是應該選用較大的n

nn配備較少的資源還是較小的n

nn配置較多的資源，哪種選擇會得到更好的結果。

具體來說，如下圖所示，v

1v_1

v1和v

2v_2

v2是在兩組超引數配置下驗證集上最終達到的loss大小，可以發現隨著被分配資源的增加，v

1v_1

v1和v

2v_2

v2的值也逐漸趨於穩定（陰影部分可以理解為v

1v_1

v1和v

2v_2

v2的errorbar）。而當陰影有重合的時候，我們無法分辨出哪種超引數更好。因為我們在拿到乙個任務的時候，是無法事先就知道如下圖所示的那種誤差曲線的，所以也就不知道分配給每組超引數多少的資源能夠達到無陰影重合的情況，也就是有把握說一種超引數要優於另一種超引數。

hyperband演算法框架如下圖所示，對於上面 successive halving 中的n−b

nn-\frac

n−nb

的問題，hyperband 對於乙個確定的b

bb，在可行的n

nn範圍內對n

nn進行 grid search。

hyperband 需要兩個輸入：

在 hyperband的偽****現的3個函式及其意義如下：

從上面的偽**和對r和η

\eta

η的介紹中，可以看出，當s=0

s=0s=

0時，此時r=r

r=rr=

r，相當於baseline。隨著s的增加，相應的分配個每個超引數組合的資源就變少了，相當於逐漸加大訓練 early stopping 的力度，但是可以在總利用資源相同的情況下，增加探索過的超引數組合的個數，s的增加直到分配給每個超引數組合的資源為一單位。

資源

上面總提到說分配的資源，那麼資源都包括哪些呢？

demo

文中給出了乙個 mnist 資料集的例子，設定了r=81

,η=3

r=81,\eta=3

r=81,η

=3，此時，sma

x=4s_=4

smax=

4。每次 successive halving 的資源與超引數組合的數量如下表所示。

從實驗結果可以發現，並不是s=0或者s=4效果最好。

AutoML 系列 Hyperband介紹

automl 演化演算法

Auto ML自動調參

automl學習與整理2

AutoML 系列 Hyperband介紹

automl 演化演算法

Auto ML自動調參

automl學習與整理2

相關推薦