統計學習概論

2021-09-27 06:20:37 字數 2100 閱讀 3338

統計學習(statistical learning):關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的一門學科。統計學習也稱為統計機器學習。

學習的定義:如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器學習。現在,當人們提及機器學習時,往往是指機器學習。

統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指某種共同性質的資料。由於他們具有統計規律性,所以可以用概率統計方法加以處理。

統計學習用於對資料進行**與分析,特別是對未知新資料進行**與分析。對資料的**可以是計算機更加智慧型化,或者說使計算機的某些效能得到提高;對資料的分析可以讓人們獲得新的知識,給人們帶來新的發現。

對資料的**與分析是通過構建概率統計模型實現的。統計學習總的目標就是考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的**與分析,同時也要考慮盡可能地提高學習效率。

非監督學習(unsupervised learning):輸出未明,作為監督與增強學習的預處理。

統計學習方法三要素,方法=模型+策略+演算法。下面以監督學習中的統計學習三要素為例說明,非監督學習、強化學習也同樣擁有這三要素,可以說構建一種統計學習方法就是具體的統計學習三要素。

統計學習研究一般包括統計學習方法、統計學習理論及統計學習應用三個方面。統計學習方法的研究旨在開發新的學習方法;統計學習理論的研究在於探求統計學習方法的有效性與效率,以及統計學習的基本理論問題;統計學習的研究主要考慮將統計學習方法應用到實際問題中去,解決實際問題。

近20年來,統計學習無論在理論還是在應用方面度得到了巨大的發展,有許多重大突破,統計學習已被成功地應用到人工智慧、模式識別、資料探勘、自然語言處理、語音識別、影象識別、資訊檢索和生物資訊等許多計算機應用領域中,並且稱為這些領域的核心技術。人們確信,統計學習將會在今後的科學發展和技術應用中發揮越來越大的作用。

統計學習學科在科學技術中的重要性體現在以下幾個方面:

(1)處理海量資料

(2)計算機智慧型化

(3)電腦科學發展的乙個重要組成部分

統計學習的目的是學到的模型不僅對已知資料而且對位置資料都能有很好的**能力。不同的學習方法會給出不同的模型,當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準

統計學習方法具有採用的損失函式未必是評估時使用的損失函式,當然,兩者一致是比較理想的。

訓練誤差的大小,對判斷給定的問題是不是乙個容易學習的問題是有意義的,但本質上不重要。測試誤差反應學習方法對未知的測試資料集的**能力,是學習中重要概念,顯然,給定兩種學習方法,測量誤差小的方法具有更好的**能力,是更有效的方法。通常將學習方法對未知資料的**能力稱為泛化能力

當假設空間含有不同複雜度(如不同的引數個數)的模型時,就要面臨模型選擇的問題。我們希望選擇或學習乙個合適的模型。如果在假設空間中存在「真」模型,那麼所選擇的模型應該逼近模型。具體地,所選擇的模型要與真模型的引數個數相同,所選擇模型的引數向量與真模型的引數向量相近。

過擬合:如果一味追求提高對訓練資料的**能力,所選模型的複雜度則往往會比真模型高,這種現象稱為過擬合(over-fitting)。過擬合是指學習時選擇的模型所包含的引數過多,以致於出現這一模型對已知資料**的很好,但對未知資料**很差的現象。可以說模型選擇旨在避免過擬合併提高模型的**能力

交叉驗證

在學習到不同複雜度模型中,選擇對驗證集有最小**誤差的模型,由於驗證集有足夠多的資料,用它對模型進行選擇也是有效的。但是在很多實際應用中資料是不充足的。為了選擇好的模型,可以採用交叉驗證方法,交叉驗證方法的基本思想是重複地使用資料;把給定的資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆地進行先練、測試以及模型選擇

分類

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...

統計學習概論

統計學習 statistical learning 關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習。學習的定義 如果乙個系統能夠能夠執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器...