機器學習第一次作業

經過這乙個月的課程學習，算是對機器學習和模式識別這方面有了一定認識，畢竟以前也只是聽說過，沒有特地的進行了解。課程不知不覺已經過半了，但是相對已經學習的課程來說我掌握的東西並不是很多（學習果然還是在學校效率比較高）。這門課程涉及的數學知識很多，對於我這種線性代數知識已經忘的差不多的來說，很多公式推導起來確實很費勁，所以後面的課程在這方面要多下些努力。

automl問題定義

automl問題構成

automl的主要問題可以由三部分構成：特徵工程、模型選擇、演算法選擇。

特徵工程

特徵工程在機器學習中有著舉足輕重的作用。在automl中，自動特徵工程的目的是自動地發掘並構造相關的特徵，使得模型可以有最優的表現。除此之外，還包含一些特定的特徵增強方法，例如特徵選擇、特徵降維、特徵生成、以及特徵編碼等。這些步驟目前來說都沒有達到自動化的階段。

上述這些步驟也伴隨著一定的引數搜尋空間。第一種搜尋空間是方法自帶的，例如pca自帶降維引數需要調整。第二種是特徵生成時會將搜尋空間擴大。

模型選擇

模型選擇包括兩個步驟：選擇乙個模型，設定它的引數。相應地，automl的目的就是自動選擇出乙個最合適的模型，並且能夠設定好它的最優引數。

演算法選擇

對於演算法選擇，automl的目的是自動地選擇出乙個優化演算法，以便能夠達到效率和精度的平衡。常用的優化方法有sgd、l-bfgs、gd等。使用哪個優化演算法、對應優化演算法的配置，也需要一組搜尋空間。

從全域性看

將以上三個關鍵步驟整合起來看，乙個完整的automl過程可以分成這麼兩類：一類是將以上的三個步驟整合成乙個完整的pipeline；另一類則是network architecture search，能夠自動地學習到最優的網路結構。在學習的過程中，對以上三個問題都進行一些優化。

基本的優化策略

一旦搜尋空間確定，我們便可以實用優化器(optimizer)進行優化。這裡，automl主要回答三個問題： - 選擇的優化器可以作用在哪個搜尋空間上？ - 它需要什麼樣的反饋？ - 為了取得乙個好的效果，它需要怎樣的配置？

簡單的優化搜尋方式包括grid search和random search。其中grid search被廣泛使用。

從樣本中進行優化的方法主要包括啟發式搜尋、derivative-free優化、以及強化學習方法。梯度下降法是一種重要的優化策略。

基本的評價策略包括：

應用展望

未來可能的研究方向：

第乙個方面，在人工智慧產業發展這方面，應該說中國創新的基礎還不是十分的牢靠。從《報告》分析來看，不管是人工智慧**的發表，還是人工智慧技術專利的產出，中國企業在這方面跟國外同行相比，還是比較落後的，與學術研究形成對比。在全球ai**產出最多的20家企業中，中國只佔了一席之位，而且還是大家想都想不到的國家電網。而我們耳熟能詳的其他中國在人工智慧領域的領先企業，卻看不到他們的身影，這是值得我們關注的。

第二個方面，是人才短板的問題。從國際人工智慧人才投入數量來看，中國在人工智慧方面的人才投入在全球是領先的，位列第二，僅次於美國。但是，人工智慧傑出人才中國佔比很低，美國在人工智慧傑出人才佔比遙遙領先，累計高達5158人，佔據世界總量的25.5%，是排名第二英國的4.4倍。在這方面，我們的差距非常大，還需要有乙個長期的積累。也就是說，我們不光要培養出人工智慧浩浩蕩蕩的人才大軍，同時還要有大量頂尖的領軍人才，這也是我們需要關注的。

機器學習第一次作業

機器學習第一次作業

機器學習第一次作業

機器學習第一次作業

相關推薦