TensorFlow訓練過程遇到的問題

2021-08-26 05:17:29 字數 749 閱讀 9113

第一次自己實現乙個完整程式,遇到不少坑。等我這個程式搞完,我要入坑pytorch。。。。

我的程式是乙個分類程式,剛開始的時候訓練不收斂,accuracy基本為零,**輸出只輸出一類。愁的我腦仁疼。解決辦法:對輸入加乙個正則化。不得不說,微調對訓練過程太重要啦。

只是我訓練過程中遇到的第二大坑!為了解決這個問題,google了兩周,然並卵。網上的解決辦法並不適用我。哭唧唧

1.損失函式有log操作,要注意加乙個極小值,防止計算出現問題

2.網上說學習率的問題,然後我就不停的調。。然鵝並沒有啥變化,只是出現nan的步數變化了,我的時間啊,全浪費這上面了。

3.重點來了!其實這個問題吧,還是具體**具體分析,仔細通讀一下**!簡化一下,然後就發現中間的操作有可能會出現問題。比如我吧,沒有充分利用python的優點,程式裡面太多for迴圈,把自己繞暈了不說,浪費時間,邏輯也可能出現我問題!python的計算優勢就是矩陣運算~能簡化就簡化啦,在簡化的過程中還發現了之前出現nan也有可能是除法分母是0 ,改了之後就ok啦

不要在session中定義計算,會增加節點數。導致記憶體**!!運算操作在session外面定義哦

調**不能著急,乙個問題不能耗太久,emmm碎碎念結束!大家都要加油啊!

Tensorflow訓練過程中validation

tensorflow因為靜態圖的原因,邊train邊validation的過程相較於pytorch來說複雜一些。分別獲取訓練集和驗證集的資料。我這裡使用的是從tfrecoed讀入資料。training data img name batch train,img batch train,gtboxes...

訓練過程 GPU訓練

為什麼y2b的8m,8張普通tt為啥要跑幾個月?因為gpu其實有60 的時間都是在等待資料填充完成,簡直蠢。1 換個固態硬碟試試?沒用。問題出在系統匯流排上,一幀的資料量入視訊記憶體後有1.58g 當前最優的分布式訓練方式是通過引數伺服器 parameter server 執行的同步隨機梯度下降演算...

Adaboost 訓練過程

每個haar特徵對應看乙個弱分類器,但並不是任伺乙個haar特徵都能較好的描述人臉灰度分布的某一特點,如何從大量的haar特徵中挑選出最優的haar特徵並製作成分類器用於人臉檢測,這是adaboost演算法訓練過程所要解決的關鍵問題。paul viola和michael jones於2001年將ad...