統計機器學習綜述

2021-09-11 21:07:15 字數 790 閱讀 8993

#記錄學習心得

一、什麼是機器學習(統計學習)

統計學習就是根據資料來構建概率統計模型並用該模型對資料進行**與分析。那麼其中可以看出,資料是基礎,目的是對資料進行**與分析。

根據定義可以提出幾個問題:需要什麼樣的資料?構建什麼樣的模型?以什麼方法構建?如何評價構建出來的模型的好壞?

1、需要什麼樣的資料

需要的資料必須是同類的,統計學習的前提是假設同類資料具有一定的統計規律性(模型就是來體現這一規律性的),輸入變數和輸出變數具有聯合概率分布。同類資料指的是具有某種共同性質的資料。

2、模型的選擇

所謂模型,可以理解為函式。假設所有模型的集合是fs,我們希望得到的是某乙個確定的模型f(即最優的模型),那麼統計學習就是要從集合fs中選出來這個模型f。假如f屬於某個函式的集合f,則稱f為假設空間。在進行監督學習時,假設空間需要預先確定,假設空間的確定意味著學習範圍的確定。

3、以什麼方法構建

統計學習的方法分為監督學習、半監督學習、無監督學習和強化學習等。這裡只討論監督學習,監督學習的任務就是學得乙個模型,之後只要給這個模型乙個輸入(即資料),就會得到乙個很好的輸出(即**).。若輸入和輸出均為連續變數,則稱為回歸問題,學得的模型稱為回歸模型。若輸出為離散變數,則稱為分類問題,學得的模型稱為分類模型(概率模型)。

既然需要從f挑選出乙個最優的模型,那麼就需要知道怎麼樣去挑,這就需要對假設空間裡的所有模型定義乙個通用評價標準,然後由最優化的演算法根據評價準則從f中選出最優的f。

一句話總結:在假設空間中,按照模型的評價準則,將最優的模型選出來。這三步,分別對應了統計學習三要素:模型、策略、演算法。

機器學習綜述

機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。基本目標是學習乙個x y的函式 對映 來做分類或者回...

機器學習綜述

監督學習 無監督學習 強化學習 遷移學習 演算法 線性回歸 k 近鄰演算法 決策樹 隨機森林 pca 神經網路 將標註好的和測試的樣本對映到座標系中,選取距離該測試樣本歐式距離最近的k個訓練樣本,其中哪個訓練樣本佔比最大,我們就認為它是該測試樣本所屬類別。knn可以處理數值型和標稱型資料,原因在於計...

機器學習(一)綜述

剛碩士畢業了,趁著對所學知識還有記憶,趕快把之前筆記整理下,寫成部落格也方便整理。機器學習真是一門詭異的課程啊,感覺學了什麼又感覺什麼也沒學 主要內容 機器學習的基本過程 評估機器學習演算法 交叉檢驗 機器學習分為 監督學習 分類 1.1 決策樹 1.2 knn 1.3 svm 1.4 人工神經網路...