機器學習中的基礎知識（入門下篇）

機器學習作為人工智慧的核心學科，倍受大家的關注，所以對於機器學習的知識掌握的要求是比較嚴格的，只有紮實的基礎知識我們才能夠學好機器學習。雖然說機器學習知識是十分廣泛的，但我們還是要一步一步慢慢了解其中的內容，這樣我們才能夠做好機器學習知識的儲備。好了，我們現在就進入正題。

（1）測試資料就是有意不用於訓練的樣本。驗證資料集和測試資料集是測試資料的兩個例子。測試資料幫助評估模型泛化到除了訓練資料之外的資料的能力。測試集的損失比訓練集的損失提供了對未知資料集的損失更好的估計。

（2）超引數就是連續訓練模型的過程中可以擰動的旋鈕。

（3）隱藏就是神經網路中位於輸入層和輸出層之間的合成層。乙個神經網路包含乙個或多個隱藏層。

（4）評分者間一致性是用來衡量一項任務中人類評分者意見一致的指標。如果意見不一致，則任務說明可能需要改進。有時也叫標註者間信度或評分者間信度。

（5）kernel 支援向量機是一種分類演算法，旨在通過將輸入資料向量對映到更高維度的空間使正類和負類之間的邊際最大化。當我們考慮乙個輸入資料集包含一百個特徵的分類問題。為了使正類和負類之間的間隔最大化，ksvm 從內部將特徵對映到百萬維度的空間。ksvm 使用的損失函式叫作 hinge 損失。

（6）推斷就是在機器學習中，通常指將訓練模型應用到無標註樣本來進行**的過程。在統計學中，推斷指在觀察到的資料的基礎上擬合分布引數的過程。

（7）輸入層就是神經網路的第一層（接收輸入資料）。

（8）l1損失函式，損失函式基於模型對標籤的**值和真實值的差的絕對值而定義。l1損失函式比起 l2損失函式對異常值的敏感度更小。

（9）l1正則化就是一種正則化，按照權重絕對值總和的比例進行懲罰。在依賴稀疏特徵的模型中，l1 正則化幫助促使不相關的特徵的權重趨近於0，從而從模型中移除這些特徵。

（10）l2 正則化是一種正則化，按照權重平方的總和的比例進行懲罰。l2正則化幫助促使異常值權重更接近0而不趨近於 0。l2正則化通常改善線性模型的泛化效果。