Tensorflow中的dropout的使用方法

2022-09-27 05:27:11 字數 3621 閱讀 6216

hinton在**《improving neural networks by preventing co-adaptation of feature detectors》中提出了dropout。dropout用來防止神經網路的過擬合。tensorflow中可以通過如下3中方式實現dropout。

tf.nn.dropouwww.cppcns.comt

def dropout(x, keep_prob, noise_shape=none, seed=none, name=none):

其中,x為浮點型別的tensor,keep_prob為浮點型別的scalar,範圍在(0,1]之間,表示x中的元素被保留下來的概率,noise_shape為一維的tensor(int32型別),表示標記張量的形狀(representing the shape for randomly generated keep/drop flags),並且noise_shape指定的形狀必須對x的形狀是可廣播的。如果x的形狀是[k, l, m, n],並且noise_shape為[k, l, m, n],那麼x中的每乙個元素是否保留都是獨立,但如果x的形狀是[k, m, n],並且noise_shape為[k, 1, 1, n],則x中的元素沿著第0個維度第3個維度以相互獨立的概率保留或者丟棄,而元素沿著第1個維度和第2個維度要麼同時保留,要麼同時丟棄。

關於tensorflow中的廣播機制,可以參考《tensorflow 和 numpy 的 broadcasting 機制探秘》

最終,會輸出乙個與x形狀相同的張量ret,如果x中的元素被丟棄,則在ret中的對應位置元素為0,如果x中的元素被保留,則在ret中對應位置上的值為

,這麼做是為了使得ret中的元素之和等於x中的元素之和。

tf.layers.dropout

def dropout(inputs,

rate=0.5,

noise_shape=none,

seed=none,

training=false,

name=none):

引數inputs為輸入的張量,與tf.nn.dropout的引數程式設計客棧keep_prob不同,rate指定元素被丟棄的概率,如果rate=0.1,則inputs中10%的元素將被丟棄,noise_shape與tf.nn.dropout的noise_shape一致,training引數用來指示當前階段是出於訓練階段還是測試階段,如果training為true(即訓練階段),則會進行dropout,否則不進行dropout,直接返回inputs。

自定義稀疏張量的dropout

上述的兩種方法都是針對dense tensor的dropout,但有的時候,輸入可能是稀疏張量,仿照tf.nn.dropout和tf.layers.dropout的內部實現原理,自定義稀疏張量的dropout。

def sparse_dropout(x, keep_prob, noise_shape):

keep_tensor = keep_prob + tf.random_uniform(noise_shape)

drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool)

out = tf.sparse_retain(x, drop_mask)

return out * (1.0/keep_prob)

其中,引數x和keep_prob與tf.nn.dropout一致,noise_shape為x中非空元素的個數,如果x中有4個非空值,則noise_shape為[4],keep_tensor的元素為[keep_prob, 1.0 + keep_prob)的均勻分布,通過tf.floor向下取整得到標記張量drop_mask,tf.sparse_retain用於在乙個 sparsetensor 中保留指定的非空值。

案例def nn_dropout(x, keep_prob, noise_shape):

out = tf.nn.dropout(x, keep_prob, noise_shape)

return out

def layers_dropout(x, keep_prob, noise_shape, training=false):

out = tf.layers.dropout(x, keep_prob, noise_shape, training=training)

return out

def sparse_dropout(x, keep_prob, noise_shape):

keep_tensor = keep_prob + tf.random_uniform(noise_shape)

drop_mask = tf.cast(tf.floor(keep_tensor), dtype=tf.bool)

out = tf.sparse_retain(x, drop_mask)

return out * (1.0/keep_prob)

if __name__ == '__main__':

inputs1 = tf.sparsetensor(indices=[[0, 0], [0, 2], [1, 1], [1, 2]], values=[1.0, 2.0, 3.0, 4.0], dense_shape=[2, 3])

inputs2 = tf.sparse_tensor_to_dense(inputs1)

nn_d_out = nn_dropout(inputs2, 0.5, [2, 3])

layers_d_out = layers_dropout(inputs2, 0.5, [2, 3], training=true)

sparse_d_out = sparse_dropout(inputs1, 0.5, [4])

with tf.session() as sess:

sess.run(tf.global_variables_initializer())

(in1, in2) = sess.run([inputs1, inputs2])

print(in1)

print(in2)

(out1, out2, out3) = sess.run([nn_d_out, layers_d_out, sparse_d_out])

print(out1)

print(out2)

print(out3)

tensorflow中,稀疏張量為sparsetensor,稀疏張量的值為sparsetensorvalue。3種dropout的輸出如下,

sparsetensorvalue(indices=array([[0, 0],

[0, 2],

[1, 1],

[1, 2]], dtype=int64), values=array([ 1., 2., 3., 4.], dtype=float32), dense_shape=array([2, 3], dtype=int64))

[[ 1. 0. 2.]

[ 0. 3. 4.]]

[[ 2. 0. 0.]

[ 0. 0. 0.]]

[[ 0. 0. 4.]

[ 0. 0. 0.]]

sparsetensorvalue(indices=array(, shape=(0, 2), dtype=int64), values=程式設計客棧array(, dtype=float32), dense_shape=array([2, 3], dtype=int64))

Tensorflow中的Lazy load問題

用tensorflow訓練或者inference模型的時候,有時候會遇到執行越來越慢,最終記憶體被佔滿,導致電腦宕機的問題,我們稱之為記憶體溢位。出現這種問題很可能是因為在乙個session中,graph迴圈建立重複的節點所導致的lazy load問題。舉個例子,用tensorflow迴圈做多次加法...

tensorflow中的函式

執行當前tensor的run 操作 a tf.variable tf.ones 10 with tf.session as sess tf.global variables initializer run b sess.run a 1 b a eval 2 print b 中的 1 2 行的功能一樣...

tensorflow中的global step引數

global step在滑動平均 優化器 指數衰減學習率等方面都有用到,這個變數的實際意義非常好理解 代表全域性步數,比如在多少步該進行什麼操作,現在神經網路訓練到多少輪等等,類似於乙個鐘錶。global step經常在滑動平均,學習速率變化的時候需要用到,這個引數在tf.train.gradien...