3 機器學習概論(1) 統計學習三大要素

2021-09-30 14:08:52 字數 2844 閱讀 4920

目錄:機器學習發展歷程簡單介紹;簡單的概念介紹;統計學習三大要素:模型(主要解決模型是什麼的問題),策略(選擇模型的準則),演算法(概念性的描述)

感覺是所有學科的共性:概論部分一般是全書的概括和後期內容的基礎,而往往又由於對該領域不熟悉,所以感覺學習概論部分很枯燥乏味又晦澀難懂,此時需要看一些後面的具體內容,再回過頭來看概論。這樣前前後後反覆幾次就可以更深入的了解了~概論部分更多是記錄基礎知識,所以摘抄性內容比較多~

一.前記(僅作為了解):

機器學習的發展也是經歷過乙個階段的,從推理期(讓機器具備邏輯推理能力)---》知識期(各種專家系統)---》智慧型期(可以像人一樣去自主學習),其中的研究方法也涉及基於神經網路的「連線主義」(connectionism)學習,基於邏輯表示的「符號主義」(symbolism),還有以決策理論為基礎的學習技術以及強化學習技術等也得到發展。目前應用最多的是基於統計學習理論的機器學習和基於神經網路的深度學習。

(1)「統計學習」(statistical learning)的代表性技術是支援向量機(support vector machine)以及更一般的「核方法」(kernel methods)。遵循結構風險最小化原則。

(2)深度學習,在語音,影象等複雜物件應用中,深度學習技術取得優越性能,為機器學習技術走向工程實踐帶來便利。推動該技術的發展主要有以下三個原因:大資料,計算力(硬體效能提高,集群,雲計算,平行計算等),演算法。

二.略過的概念:

下面的一些簡單概念只是提一下,很好理解,任何一本機器學習的書也都會有介紹。

1.機器學習任務分類:監督學習(有標記資訊,也就是知道每個樣本對應的真實結果),無監督學習,半監督學習,強化學習

2.輸入空間,特徵空間(我們通常用乙個特徵向量表示乙個樣本,這裡涉及一些線性代數的概念),假設空間(模型,帶有引數的函式集合)

3.監督學習分為:分類問題(**值為離散值,比如好瓜還是壞瓜,有沒有生病等),回歸問題(**值為連續值,比如房價,股價),標註問題(輸入變數與輸出變數均為變數序列的**問題)

4.聯合概率分布,條件概率分布,先驗概率,後驗概率

5.訓練集,驗證集,測試集

以監督學習為例,看一下簡易的示例圖:

接下來的問題:我們主要以監督學習為主。

三.統計學習三要素

1.模型。目前機器學習主要分為兩大類(有可能說的不太準,只是平常的一種感覺):統計機器學習和神經網路深度學習。統計機器學習(statictical machine learning)是計算機基於資料構建概率統計模型,並運用概率統計模型對資料進行**與分析的學科。

整個過程是資料驅動的,我們把輸入的資料x和輸出的**值y都看作是隨機變數,他們遵循一定的概率分布(比如正態分佈,二項分布)。

我們所謂的模型要麼是非概率模型的決策函式:乙個函式,輸入x,產生輸出y

要麼是條件概率分布:在輸入x的條件下,輸出y的概率。條件概率就相當於後驗概率。

而模型又是帶有未知引數的,未知引數可能不止乙個,所以我們用引數向量表示:

或者

2.策略。

通過上面的介紹,模型(也就是假設空間),是由乙個引數向量決定的函式族或者條件概率分布族,我們通過資料驅動出乙個最優模型,這個最優模型的選擇是基於什麼樣的準則?這個準則就是策略。這部分就會引入一些比較專業性的術語和公式。

(1)損失函式(loss function或者cost function):度量模型一次**的好壞(**值和真實標記值之間的差距)。下列公式中,f(x)是**值,y是真實值

顯而易見,損失函式值越小,模型越好。

(2)風險函式(risk function)或期望損失(expected loss):度量平均意義上模型**的好壞,也就是損失函式的期望。

我們的目標是期望損失最小,這裡面要用到聯合分布,但是聯合分布是未知的,無法進行計算。

(3)經驗風險(empirical risk)或經驗損失(empirical loss):

我們明顯觀察到,期望損失rexp(f)是模型關於聯合分布的期望損失,經驗風險remp(f)是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量n趨於無窮時,remp(f)趨於期望風險rexp(f)。自然而然的,我們可以用remp估計rexp。

remp是我們可以根據訓練資料來確定的,經驗風險最小化策略(empirical risk minimization,erm)認為,經驗風險最小的模型是最優的模型。那我們就要根據訓練資料,去求解乙個經驗風險最小的模型咯~最優問題的求解!!!我覺得這是機器學習的核心!

但是問題又來了,我們說樣本容量n趨向於無窮時,大數定律才會起作用,當樣本容量小的時候,效果就不太好,會產生「過擬合」(over-fitting)現象,所謂的過擬合就是在訓練集上表現的很好,但是在測試集上表現的比較差。結構風險最小化(structural risk minimization,srm)是為了防止過擬合提出的策略。這部分下篇部落格(模型評估與模型選擇)再學習~

這裡面有一點感受,數學公式和函式是用來刻畫事實的,我們要通過函式形態和公式來準確無誤的表達事實!而在求解的過程中,會有一些小技巧,比如係數的設定等。

3.演算法:通過上面的介紹知道,統計學習問題最終就是歸結為最優化問題,統計學習的演算法也就是指求解最優化問題的演算法,這裡通常要用到數值計算的方法求解,保證找到全域性最優解。

確定了模型、策略和演算法,統計學習方法也就隨之確定。我們程式設計時也是從這三個方面考慮。

機器學習 統計學習方法概論

統計學習由監督學習 supervised learning 非監督學習 unsupervised learning 半監督學習 semi supervised learning 和強化學習 reinforcement learning 組成。統計學習方法包括模型的假設空間 模型的選擇準則以及模型學習...

統計學習方法 機器學習概論

統計學習,或者說機器學習的方法主要由監督學習 無監督學習和強化學習組成 它們是並列的,都屬於統計學習方法 1 假設資料獨立同分布。同資料來源的不同樣本之間相互獨立 2 假設要學習的模型屬於某個函式的集合,稱為假設空間。你確定了這個函式的樣式,就是假設空間,但是函式裡面的引數不確定,要學習。學習的是引...

統計學習 三大奇技(1)

最近在處理訊號的過程中發現自己的理論水平還是太低,因此需要提高自己的技術,因此開始惡補理論,寫下了這個系列的文章。n n 在原樣本進行有放回的抽樣,抽取 m role presentation m m對於分布y y 要估計的引數為 的近似統計量。具體方法是 從 y y 中重複抽取 n role pr...