資料增廣筆記

深度學習資料增強筆記

首先，網路上已經有了各種的常見增廣方法，如旋轉，平移色彩抖動等，需要的麻煩見下面的部落格。

本文的寫作目的是為了提醒自己除了上述的常見增廣方法外，還有一些高階的增強方法，如利用神經風格遷移或者gan來生成更多的，以及影象合成。影象合成有時候能給我們提供大量的資料，但是其也有一些限制。總的來說，要記得資料合成這種有效方法，也要記住資料合成這種方法的挑戰：有時候，合成的資料在人看來很真實，但是在機器看來就沒有那麼真實了。在合成資料的時候，要有意識的提醒自己是不是真的合成出了有代表性的樣本。盡量避免使用那些能夠被學習演算法識別出人工合成的痕跡，比如所有資料都是從20種車子合成而來，或是所有的音訊樣本都是僅由1個小時的汽車噪音而來。這個建議實際上很難遵守。當合成資料時，我們的團隊有時會在產生資料之前花上好幾個星期在⼀些重要的細節上，來保證合成的資料可以足夠接近真實的資料分布。如果你想正確的獲知這些細節，你必須提前就接觸非常大量的訓練樣本集。吳恩達關於資料合成的論述見部落格：