統計機器學習綜述

#記錄學習心得

一、什麼是機器學習（統計學習）

統計學習就是根據資料來構建概率統計模型並用該模型對資料進行**與分析。那麼其中可以看出，資料是基礎，目的是對資料進行**與分析。

根據定義可以提出幾個問題：需要什麼樣的資料？構建什麼樣的模型？以什麼方法構建？如何評價構建出來的模型的好壞？

1、需要什麼樣的資料

需要的資料必須是同類的，統計學習的前提是假設同類資料具有一定的統計規律性（模型就是來體現這一規律性的），輸入變數和輸出變數具有聯合概率分布。同類資料指的是具有某種共同性質的資料。

2、模型的選擇

所謂模型，可以理解為函式。假設所有模型的集合是fs，我們希望得到的是某乙個確定的模型f（即最優的模型），那麼統計學習就是要從集合fs中選出來這個模型f。假如f屬於某個函式的集合f，則稱f為假設空間。在進行監督學習時，假設空間需要預先確定，假設空間的確定意味著學習範圍的確定。

3、以什麼方法構建

統計學習的方法分為監督學習、半監督學習、無監督學習和強化學習等。這裡只討論監督學習，監督學習的任務就是學得乙個模型，之後只要給這個模型乙個輸入(即資料)，就會得到乙個很好的輸出（即**）.。若輸入和輸出均為連續變數，則稱為回歸問題，學得的模型稱為回歸模型。若輸出為離散變數，則稱為分類問題，學得的模型稱為分類模型（概率模型）。

既然需要從f挑選出乙個最優的模型，那麼就需要知道怎麼樣去挑，這就需要對假設空間裡的所有模型定義乙個通用評價標準，然後由最優化的演算法根據評價準則從f中選出最優的f。

一句話總結：在假設空間中，按照模型的評價準則，將最優的模型選出來。這三步，分別對應了統計學習三要素：模型、策略、演算法。

統計機器學習綜述

機器學習綜述

機器學習綜述

機器學習（一）綜述

相關推薦