機器學習基礎知識

2022-07-13 09:33:13 字數 3052 閱讀 6606

訓練樣本帶有標籤,y=f(x),f(x)是標籤

回歸:y可以產生許多值,並且這些值具有連續排序

分類:y是離散的,只有很少的值

訓練樣本沒有標籤

聚類:將資料分割成相似專案的單個類的過程

降維:指為了檢視資料而在更簡單的視角下運算元據

通過觀察環境如何對動作做出反應來手機資訊,是一種與環境互動的機器學習型別,以學習哪些動作組合能夠產生最有利的結果。

資料預處理、特徵選擇、特徵降維、特徵構造

(1).標準化

(2).歸一化/區間縮放法

例如:國家這個特徵有中、美、德、法四個取值,則獨熱編碼會使用乙個四維特徵向量來表示該特徵,每個維度對應乙個國家。

如果該列特徵的缺失值較多,則可以直接捨棄該列特徵,否則可能帶來較大的雜訊。如果缺失值較少(如少於10%),則可以對缺失值進行填充。

用乙個異常值填充並將缺失值作為乙個特徵處理(比如0或-9999)

用均值或者條件均值填充,如果資料是不平衡的,那麼應該使用條件均值填充,條件均值指的是與缺失值所屬標籤相同的所有資料的均值

用相鄰資料填充

利用插值演算法

資料擬合,就是將缺失值也作為乙個**問題來處理。簡單來說,就是將資料分為正常資料或缺失資料,對有值的資料採用隨機森林等方法擬合,然後對有缺失值的資料用**的值來填充

先對資料集進行特徵選擇,然後再訓練學習器,特徵選擇過程和後續的學習器無關。

根據目標函式(通常是**效果評分),每次選擇若干特徵,或者排除若干特徵。

先用機器學習模型進行訓練,得到各特徵的權值係數,根據權值係數從大到小選擇特徵。

基於樹的方法(決策樹、隨機森林、gbdt)

pca通過線性變換將原始資料變換為一組各維度線性無關的表示,可用於提取資料的主要特徵分量,常用於高維資料的降維。pca追求的是在降維之後能夠最大化保持資料的內在資訊,並通過衡量在投影方向上的資料方差的大小來衡量該方向的重要性。

lda是一種有監督的降維方法,主要是將高維的模式樣本投影到最佳鑑別的空間。其目的是投影後保證模式樣本在新的子空間有最大的類間距離和最小的類內距離。

特徵構造指的是從原始資料構造新特徵的處理過程,一般需要根據業務分析,生成能更好體現業務特性的新特徵,這些新特徵要與目標關係緊密,能提公升模型表現或更好地解釋模型。

正則化中我們將保留所有的特徵變數,但是會減小特徵變數的數量級(引數數值的大小θ(j))。

這個方法非常有效,當我們有很多特徵變數時,其中每乙個變數都能對**產生一點影響。正如我們在房價**的例子中看到的那樣,我們可以有很多特徵變數,其中每乙個變數都是有用的,因此我們不希望把它們刪掉,這就導致了正則化概念的發生。

batch normalization是一種深度學習中減少泛化誤差的正則化方法,主要作用是通過緩解梯度消失加速網路的訓練,防止過擬合,降低了引數初始化的要求。

優化演算法參考:

絕大部分優化問題都可以使用梯度下降法(gd)處理,數學原理是函式沿梯度方向具有最大的變化率,那麼在優化目標函式時沿負梯度方向去減小函式值,以此達到優化目標。

是一種優化演算法,通過迭代的方式尋找模型的最優引數;最優引數即指使目標函式達到最小值的引數。

bgd指在每一次迭代時使用所有樣本來進行梯度的更新。批量梯度下降法計算梯度時,使用全部樣本資料,分別計算梯度後除以樣本個數(取平均)作為一次迭代使用的梯度向量。

每次迭代使用batch_size個樣本來對引數進行更新。

sgd是每次迭代使用乙個樣本來對引數進行更新,使得訓練速度加快。

速度更新:

v=αv-εg;(α是動量引數,一般取0.5、0.9、0.99,分別對應最大2倍,10倍以及100倍;ε是學習率;g是梯度)

引數更新:θ=θ-v

特點:隨機梯度下降法每次更新的步長只是梯度乘以學習率;而動量演算法的步長還取決於歷史梯度序列的大小和排列,要是當前時刻的梯度與歷史時刻梯度方向相似,這種趨勢在當前時刻則會加強;要是不同,則當前時刻的梯度方向減弱。

鑑於神經網路都是非凸條件下的,rmsprop在非凸條件下結果更好,改變梯度累積為指數衰減的移動平均以丟棄遙遠的過去歷史。

結合nesterov動量的rmsprop,直觀上理解就是:

rmsprop改變了學習率,nesterov引入動量改變了梯度,從兩方面改進更新方式。

凸優化問題(opt,convex optimization problem)指定義在凸集中的凸函式最優化的問題。

凸優化問題的區域性最優解就是全域性最優解

很多非凸問題都可以被等價轉化為凸優化問題或者被近似為凸優化問題(例如拉格朗日對偶問題)

直觀來說,任取乙個集合中的兩點練成一條線段,如果這條線段完全落在該集合中,那麼這個集合就是凸集。

一階充要條件從幾何意義上講,即定義域內所有函式值都大於等於該點的一階近似。

這裡的表示的是半正定。

機器學習基礎知識

machine learning的主要兩個應用方面 人工智慧 資料科學。什麼是人工智慧 artificial intelligence ai是不確定性管理 uncertainty management 的體現 ai what to do when you don t know what to do ...

機器學習基礎知識

機器學習基礎知識 1 誤差 學習器實際 輸出與樣本的真實輸出之間的差異稱為 誤差 有經驗誤差 也成訓練誤差 和泛化誤差。我們實際需要的是泛化誤差較小的學習器。2 過擬合與欠擬合 過擬合 學習能力太過強大,把訓練樣本中的特殊特性當作一般特性導致泛化效能下降。欠擬合 學習能力低下,不能很好的 輸出。3 ...

機器學習基礎知識

為了解決任務t,設計一段程式,從經驗e中學習,達到效能度量值p,當且僅當有了經驗e後,經過p評判,程式在處理t時的效能得到提公升1.特徵表示 2.選擇模型 3.訓練模型 4.模型評估 1.模型 2.策略 3.演算法 1.有監督學習 1.1 分類 樣本標籤屬於離散變數 判別模型 1.2 回歸 樣本標籤...