人工智慧 1 樣本空間假設空間版本空間

這兒主要歸納一下，樣本空間、假設空間、版本空間的定義，三者的聯絡與區別。

西瓜資料集編號

色澤根蒂

敲聲好瓜1青綠

蜷縮濁響是2

烏黑蜷縮濁響是

3青綠硬挺清脆否4

烏黑稍蜷沉悶否

一：樣本空間

上表中給出了四種實際存在的情況，也即是我們目前所能獲得的訓練集。樣本空間的標準定義是：所有可能存在的、合理的、情況的集合。機器學習的主要工作就是尋找從屬性空間（x）到標記空間（y）的乙個對映關係。說法很多，但可以認為xi-yi實際存在的乙個組合就是乙個樣本，而所有樣本的集合，就是樣本空間。而上述的的訓練集只是樣本空間乙個很小的取樣。

二：假設空間

起初，我們並不能得到樣本空間。只有樣本空間的乙個很小的子集，也就是上面的四條樣本。但可以確定的是（目前姑且這樣認為）每一條示例有三條屬性，即乙個瓜的好或不好，由三個屬性確定，而每個屬性有三個值。就拿西瓜的顏色來說，表中有青綠、烏黑，姑且加一種淺白（僅為演示何為假設空間），可以確定的是乙個好瓜應該是青綠或烏黑色；但也可能，西瓜的好或不好與顏色無關，即在好瓜的情況下西瓜的顏色可能是*（*代表任意顏色），那麼西瓜的顏色這一屬性就有四個可能的取值。

即假設空間可以這樣定義：色澤：*、根蒂：*、敲聲：*是好瓜。色澤：*、根蒂：*、敲聲：濁響是好瓜。色澤：*、根蒂：*、敲聲：清脆是好瓜。色澤：*、根蒂：*、敲聲：沉悶是好瓜。這是乙個簡單的排列組合問題。一共有4*4*4+1=65種情況。最後的1表示任何情況都不是好瓜，即沒有好瓜的情況。

可以看出來，假設空間是在已知屬性和屬性可能取值的情況下，對所有可能滿足目標（好瓜）的情況的一種毫無遺漏的假設集合。

三：版本空間

從上面可以看到，假設空間，單純的羅列的所有可能的情況，這更多的是一種數學上的羅列。顯然假設空間中肯定有很多是不滿足情況的，或是不合理的。…………比如根據上述**中的訓練資料（樣本空間的子集）可以看出，「色澤：青綠、根蒂：硬挺、敲聲：清脆不是好瓜「，所以假設空間中的「色澤：青綠、根蒂：硬挺、敲聲：清脆是好瓜」顯然是錯誤的假設，應當捨去。…………上面是刪除假設空間明顯錯的假設。但還有那種不錯誤，但會有嚴重誤導傾向的假設也需要刪除。比如假設空間中有「色澤：青綠、根蒂：蜷縮、敲聲：濁響是好瓜」，這和訓練資料集正好吻合，顯然是正確的，但是對於假設空間來說，此條假設也應該被刪除。因為如果說「色澤：青綠、根蒂：蜷縮、敲聲：濁響是好瓜」那麼「色澤：烏黑、根蒂：蜷縮、敲聲：濁響就不是好瓜了」這顯然有種「過度精確」的錯誤。僅根據上述訓練集中的四條資料來判斷，「色澤：*、根蒂：蜷縮、敲聲：濁響是好瓜」便比較合適了。這能很好的契合表中的四條資料。…………如果按照上述原則「色澤：淺白、根蒂：蜷縮、敲聲：濁響」會被判斷為好瓜，這正確與否顯然是不知道的。所以，如果想做出正確的判斷，就需要全面大量的訓練，目的就是盡量的排出假設空間中不合理的假設。而剩下的假設就是在滿足已有訓練資料集的情況下，做出的最優選擇了。…………現實問題中，我們常面臨很大的假設空間，但學習過程是根據有限的樣本訓練集進行的，那麼對於不同版本的訓練集，應該會有不同版本的「刪除後」的假設空間與之對應。便稱之為版本空間。

人工智慧 1 樣本空間假設空間版本空間

人工智慧之我見（1）

人工智慧 1 概論

人工智慧實踐 1 概述

人工智慧 1 樣本空間 假設空間 版本空間

人工智慧之我見（1）

人工智慧 1 概論

人工智慧實踐 1 概述

相關推薦

人工智慧 1 樣本空間假設空間版本空間