機器學習1 基本概念

參考：

資料集

(色澤=青綠；根蒂=蜷縮；敲聲=濁響）
(色澤=墨綠；根蒂=稍蜷；敲聲=沉悶）
(色澤=淺白；根蒂=硬挺；敲聲=清脆）
······

基本概念:

1、樣本——這批資料裡的每對括號。

2、資料集——樣本的集合。

3、特徵、屬性——色澤、根蒂、敲聲等反映事物的本質的可觀察方面。

4、屬性值——青旅、墨綠、蜷縮、濁響等，是屬性的取值。

5、屬性空間、樣本空間、輸入空間——屬性張成的空間。把屬性當作座標軸，形成乙個空間，那麼樣本就是這個空間中乙個個的點。例如，吧「色澤」、「根蒂」、「敲聲」作為座標軸，則生成乙個三維空間，每個西瓜都是這個空間裡的乙個點。

6、維數——資料集的特徵數量。本例中的維數是3。

7、假設——也稱假設函式，指計算機通過學習後得到的乙個函式（**模型）。

8、標記——關於樣本結果的資訊，比如乙個(色澤=青綠；根蒂=蜷縮；敲聲=濁響）的西瓜是好瓜，那麼「好瓜」就是(色澤=青綠；根蒂=蜷縮；敲聲=濁響）這個樣本的標記。

9、樣例——帶有標記的樣本，比如（(色澤=青綠；根蒂=蜷縮；敲聲=濁響），好瓜）

10、標記空間、輸出空間——所有標記的集合。本例中就是指｛好瓜、壞瓜｝。

11、泛化——如果用某個資料集的樣本訓練出的乙個模型（假設函式），能夠適用於新的樣本資料，就說這個模型具有泛化能力。模型能適用於越多的新資料，則說明其泛化能力越強。

12.假設空間----所有假設組成的空間，假設顏色有2種（深綠，淺綠），根蒂有2種（蜷縮，稍蜷），敲聲有2種（濁響，沉悶），有可能好瓜與顏色無關，因此顏色有3種可能性（深綠，淺綠，無關），依次類推，根蒂，敲聲都有3種可能性，共有3*3*3種可能，還有可能好瓜這種假設根本不成立，因此一共有3*3*3+1種假設

推廣：假設乙個事物有2個特徵，每個特徵的屬性分別有x 種和y種，那麼假設空間就有（x+1）*（y+1）+1種

13. 版本空間：可能對於乙個訓練集，有多種假設都滿足要求，這多種符合要求的假設構成了版本空間

分類 : **離散值，比如好瓜和壞瓜

回歸：**連續值，比如房價與面積的關係

歸納偏好：演算法對某種型別假設的偏好

過擬合：機器學習需要從訓練集訓練處乙個模型，能夠很好的應用於新的樣本，當模型把訓練集中的某些特徵當做了普遍規律，很可能無法適用於新集合，就產生了過擬合

機器學習1 基本概念

機器學習（1）基本概念

機器學習1 基本概念

機器學習基本概念（1）

機器學習1 基本概念

機器學習（1） 基本概念

機器學習1 基本概念

機器學習基本概念（1）

相關推薦

機器學習（1）基本概念