統計學一些基礎

1）回歸問題：輸入變數和輸出變數均為連續變數的**問題稱為回歸問題

2）輸出變數為有限個離散變數的**問題稱為分類問題

3）輸入變數與輸出變數均為變數序列的**問題稱為標註問題

1）損失函式：度量模型一次**的好壞。損失函式值越小，模型越好

2）風險函式：風險函式是損失函式的期望

3）經驗風險：訓練資料集上的平均損失稱為經驗風險

4）經驗風險最小化：經驗風險最小的模型為最優模型。適用於樣本容量足夠大的情況，當樣本容量足夠大時，則會產生過擬合

5）結構風險最小化：為解決過擬合現象而產生。結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。

若一味追求提高對訓練資料的**能力，所選模型的複雜度則會比「真」模型更高，這種現象稱為過擬合。過擬合是指學習時選擇的模型所包含的引數過多，以致於出現這一模型對已知資料**的很好，但對未知資料**得很差的現象。可以說模型選擇旨在避免過擬合併提高模型的**能力。——統計學方法

因為訓練資料本身存在雜訊，所以過擬合訓練集的模型對未知資料的**效果並不理想。

相同點：都用於避免過擬合

不同點：

l1可以讓一部分特徵的係數縮小到0，從而間接實現特徵選擇。所以l1適用於特徵之間有關聯的情況。

l2讓所有特徵的係數都縮小，但是不會減為0，它會使優化求解穩定快速。所以l2適用於特徵之間沒有關聯的情況

泛化能力指模型對未知資料的**能力，通常採用測試誤差來評價學習方法的泛化誤差。

五種抽樣方法 1 簡單隨機選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統簡單的系統抽取樣本 3 任意使用乙個碰巧很容易被選擇的樣本 4 整群先將總體分為不同組群，從中隨機挑選幾個組群作為樣本 5 分層定義層級，在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...

總體 population 包含所研究的全部個體資料的集合樣本 sample 研究中實際觀測或調查的一部分個體選擇性偏差 selection bias 在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差，屬於系統誤差。eg.在一項身高研究中，選擇籃球運動員作為樣本。測量偏差 measu...

分類資料眾數出現最多的變數值，峰值順序資料中位數位置在中間的變數值位置分位數上四分位位置假設目前有9個資料，則下四分位 9 4 2.25，資料位於第二位和第三位資料的25 的位置。假設目前有9個資料，則上四分位 3 9 4 6.75，資料位於第六位和第七位資料的75 位置。數值型資...