構建深度學習系統的十條經驗

2021-09-23 18:08:51 字數 1567 閱讀 1109

深度學習是機器學習的乙個子領域,它有著自己的獨特研究物件。以下是我們在構建深度學習系統時總結的

10條經驗。這些經驗雖然看似有些籠統,但他們確實是關於深度學習在結構化和非結構化資料領域裡的應用。

更多的專家會更好

通過使用更多的網路來進行推理和整合結果確實能夠提高精確度。事實上,像

dropout這類技術就是建立「隱含聚合」的方法,就是建立共享權重的疊加網路的多個子集。

尋找具備豐富標記資料的問題

目前,只有當在乙個受監督的上下文環境中,深度學習才能很好地工作。而最重要的一點就是每條規則大約需要

1000個左右的樣本。因此,當你需要解決的問題沒有足夠多的資料來進行訓練時,那嘗試尋找乙個具有更多資料的中間問題來進行訓練,然後用乙個更簡單的演算法來處理這個中間問題的訓練結果,從而解決最終的問題。

探索合成資料的方法

並不是所有的資料都已經為機器學習做好了準備和標記。許多情況下,你手頭有的資料標記得並不那麼理想。如果你可以加入來自不同資料來源的資料來實現乙個弱標記資料集合,那麼這種方法會給你帶來意想不到的效果。最著名的例子就是

word2vec,其中的單詞理解訓練就是從恰好與該單詞意思接近的其他單詞開始的。

利用預先訓練的網路

引導乙個已經經過訓練的網路在新的領域中進行訓練,這種方法的效率也往往令人非常滿意。這也是深度學習網路的乙個突出特性。

不要忘記增加資料

資料通常會擁有一些人類能夠意識到,而機器卻永遠發現不了的意義。乙個簡單的例子就是時間特徵。從人類的角度來看,一星期中的某一天或一天中某個時間點可能是重要的屬性,然而深度學習系統可能永遠不能理解其中的重要性。因為對系統來說,時間這個概念從

unix誕生以來都是以秒來進行表述的。這就需要我們為深度學習系統新增新的時間資料來對其進行訓練。

探索不同的正則化

l1和l2

正則化並不是唯一的正則化。

通過觀察每個層次來探索不同型別的正則化。

擁抱隨機性

我們有許多技術能夠在訓練之前對學習網路進行初始化。事實上,當你只訓練學習網路的最底層,而其上層多數是隨機產生的話,你能得到更出色的效果。這種技術將加快超調探索的速度。

不要只注重深度學習

很多深度學習的研究人員熱衷於只在深度學習領域內進行研究。然而事實是深度學習離不開與外部技術的結合。比如,如果離開了蒙特卡洛樹搜尋,

alphago就不會如此成功。

避免分布式

盡量避免同時訓練多台機器(除了超級引數調優)。訓練單台機器是最有效的方法。

卷積網路功能強大 且不單單對資料而言

卷積網路顯然是深度學習領域中最成功的網路。更重要的是,它不僅能用於處理影象資料,還可以使用它作用於其他型別的資料(如,聲音,時間序列和文字資料)

以上就是我想分享的經驗。

當然還有很多其他的經驗這裡沒有提到。

如果你在工作中遇到了,也請分享給大家

。還可以通過這個鏈結找到更多相關詳細資訊

學好外語的十條經驗

1.學習外語一天也不能中斷,那怕每天擠出10分鐘也好。早晨是學外語的大好時光,尤應充分利用。2.如果學厭了,不必勉強繼續,也不要放下不學,可以變換一下其它的學習方法和形式,如改聽錄音,看外語電視節目等。3.絕不要脫離上下文孤立地死記硬背。4.應隨時記下並背熟常用的 句套子 並多多練習套用。5.盡可能...

關於創業的十條經驗共享

十條經驗共享 1 你是誰?創業者往往都不清楚,自己是誰 你想幹什麼?你適合幹什麼?你有什麼資源?創業者創業之前一定要清楚你自己所有的,與你追求的創業目標之前還存在多少鴻溝?還有多少難點?在為諮詢者提出一些創業諮詢意見的過程中,我們碰到了很多創業者,或是乙個網頁製作師,或是乙個剛剛畢業的文員,或是一家...

英語學習方法(外語學習的十條經驗)

匈牙利有一位叫卡莫 洛姆布的人說 我大致用了25年的時間學習了16種語言,10種達到能說的程度,另外6種達到能翻譯專業書刊,閱讀和欣賞文藝作品的程度。把自己漫遊外語天地所獲得的心得體會總結為十條 1 學習外語一天也不能中斷。倘若確實沒有時間,哪怕每天擠出10分鐘也行 早晨是學習外語的大好時光。2 要...