關於深度學習的一些思考

2021-08-01 15:49:59 字數 1916 閱讀 6927

問1:有監督學習中,機器學習是什麼?

答1:機器學習就是先假設乙個函式,使用訓練樣本來選取最優的引數;當有新樣本時,把特徵輸入已訓練好的函式中,得到**值。

問2:神經網路中,神經元的作用是什麼?

答2:1)對輸入特徵進行線性加權:z=w1*a1+w2*a2+w3*a3+...+b,其中wi是權重,ai是特徵值,b是bias

2)使用啟用函式使神經網路可以逼近任何函式:s(z)=1/(1+e^(-z))

問3:神經網路中,啟用函式的作用是什麼?

答3:如果沒有啟用函式,那麼每個隱層都是線性的,整個神經網路都是線性的,相當於沒有隱層(相當於原始的感知機),加入啟用函式後,神經網路可以逼近任何函式

問4:啟用函式,為什麼引入relu呢?

答4:1)sigmod函式求導涉及除法,計算量大

2)sigmod函式接近飽和區時,導數趨於0,會出現梯度消失的情況,無法完成網路訓練

3)relu會使一部分神經元輸出為0,造成網路稀疏,防止過擬合

問5:深度學習的'深度'體現在**?

答5:1)體現在有很多隱層。

2)意義在於需要更少的樣本量。

3)每層都學習到更抽象的特徵

問6:輸出層是什麼樣的?

答6:1)softmax層作為輸出層

2)yi'=e^zi/∑(e^zi)

問7:深度學習的loss function是什麼?

答7:∑(|yi『-yi|) yi'是**向量,yi是真實向量

問8:怎麼求解深度神經網路?

答8:1)loss function=∑(|yi『-yi|) 

2) yi'=e^zi/∑(e^zi)

3)zi=1/(1+e^(-zi』))

4)zi』=w1*a1+w2*a2+w3*a3+...+b

5)loss function中引數為wi,b,使用隨機梯度下降法對各個wi求偏導,進而求得最優解

問9:隨機梯度下降會存在什麼問題?

答9:會出現區域性最優解

問10:深度學習如何調優?

答10:1)選擇合適的loss function

2)mini-batch 分批處理

3)新的啟用函式

4)設定學習率

5)使用momentum找到全域性最優解

6)early stopping

7)weight decay

8)dropout

問11:loss function有哪些?

答11:1)square error = ∑(yi-yi')^2

2)cross entropy = - ∑yi'*lnyi

問12:mini-batch是什麼,有哪些好處?

答12:1)把樣本分成多個batch,每次最小化乙個batch的loss function,更新相應引數,並非對整個樣本集的loss進行最小化

2)好處:mini-batch速度更快,效果更好

問13:mini-batch和epoch有什麼區別?

答13:1)乙個epoch由多個mini-batch訓練過程組成

2)乙個epoch對應了乙個完整的樣本集

問14:常用的啟用函式都有哪些?

答14:1)logit函式 1/(1+e^(-z))

2)relu函式 z小於0時,輸出0;z大於0時,輸出z

3)leaky relu函式 z小於0時,輸出0.01*z;z大於0時,輸出z

4)parametric relu函式 z小於0時,輸出a*z;z大於0時,輸出z

5)maxout 多個輸入,輸出最大的元素

問15:為什麼設定學習率?

答15:1)學習速度太快,可能在本次epoch後,已經求得最優解;下次epoch後,loss反而增大;即跳過了最優解

2)學習速度太慢,訓練很慢

問16:常見的學習率的形式?

答16:1)所有引數相同的學習率,時間衰減:

深度學習入手後的一些思考

1.深度學習的數學構建還不夠充分,我可以問你很多的東西,bn層有什麼用,這些東西很多人都會,達叔的課程都氾濫了,我區分不開大家的程度,所以會問一些數學依賴更重一些的ml的基礎知識,所以對於校招還是需要學好西瓜書。2.問 我競賽取得的名次不是很高誒,面試官會不會覺得有些水?答 我覺得面試官更重視的是你...

關於英語學習的一些思考

怎麼樣,聽完有木有一種想把新概念背上100遍的衝動?至少我是有的。簡單的總結一下強浩老師所講的內容 一 英語學習弊端 貪多,對英語的學習只是走馬觀花,蜻蜓點水,淺嘗輒止。就圖乙個新鮮感,而不是深入 反覆地去學習同乙個資料。就那我們現在來說,新舊走遍美國 小烏龜 900句 365等等,各種英語學習資料...

關於深度學習的一些淺見

就是更深層次的學習,它是機器學習的乙個子領域,就我個人理解而言,它就是乙個深度神經網路。就是擁有很多隱藏層的神經網路,通常只要隱藏層超過2個,我們就可以把這個神經網路定義為深度神經網路,當然,隱藏層的啟用函式應該是非線性的,如果是線性的,即使10000層,它的學習能力也僅僅相當於帶有乙個隱藏層的神經...