第一天開始學習機器學習慢慢進步

看周志華《機器學習》的第1,2章，了解分類、交叉驗證、分類精度、檢驗等概念

分類：**的是離散值

1.[classify;assort]

按照種類、等級或性質分別歸類。

2.把無規律的事物分為有規律的，按照不同的特點劃分事物，使事物更有規律。

3.建立生物類別的分級系統的實踐，其基礎是推測生物間存在著一些自然關係。

生物分類

的科學一般稱為

分類學(taxonomy)。

交叉驗證：

交叉驗證（

cross validation

），有的時候也稱作迴圈估計（

rotationestimation

），是一種統計學上將資料樣本切割成較小子集的實用方法，該理論是由

seymour geisser

提出的。

在給定的建模樣本中，拿出大部分樣本進行建模型，留小部分樣本用剛建立的模型進行預報，並求這小部分樣本的預報誤差，記錄它們的平方加和。這個過程一直進行，直到所有的樣本都被預報了一次而且僅被預報一次。把每個樣本的預報誤差平方加和，稱為

press(predictederror sum of squares)

。分類精度：

檢驗：校驗（

ecc）是資料傳送時採用的一種校正資料錯誤的一種方式，分為奇校驗和偶校驗兩種。

1.1表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本空間。

資料集是有三個特徵，分別是色澤，根蒂，敲聲來判斷是否是好瓜。

只有1,4可得色澤青綠，根蒂蜷縮，敲聲濁響是好瓜；色澤烏黑，根蒂稍蜷，敲聲沉悶不是好瓜。三個特徵值排列組合得到的集合共有3*3*3=27後再加上空集情況為28種集合。

色澤=青綠根蒂=蜷縮敲聲=濁響

色澤=青綠根蒂=蜷縮敲聲=泛化取值

色澤=青綠根蒂=泛化取值敲聲=濁響

色澤=泛化取值根蒂=蜷縮敲聲=濁響

色澤=青綠根蒂=泛化取值敲聲=泛化取值

色澤=泛化取值根蒂=蜷縮敲聲=泛化取值

色澤=泛化取值根蒂=泛化取值敲聲=濁響

（1）資料應包含豐富的屬性資訊，應具備可靠性和穩定性；

（2）資料的屬性應具有對於分類任務的相關性。大多數的分類任務只與資料庫中部分屬性有關，多餘的、無關的屬性介入分類，常會減慢甚至錯誤引導分類過程，應此必須去掉無關屬性。

（3）資料應具有高層資料資訊，以發現清晰的、高層的、具有統計意義的分類規則。在本文的研究中，為了使資料環境達到上述要求，在資料準備階段採用了資料泛化的策略，這個策略用概念層次作為背景，結合了olap技術與jiawei han等人的面向屬性歸納的方法，明顯提高了工作效率。

1.2與使用單個合取式來進行假設表示相比，使用「析合正規化」將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間，試估算有多少種可能的假設。

因為使用的是1.1中西瓜分類的假設空間，所以這就有了4個樣例，每個樣例有3個特徵值。所以得到3*4*4=48後加上空集泛化得到49種。

第一天開始學習機器學習慢慢進步

C 學習第一天開始

機器學習第一天

機器學習第一天

第一天開始學習機器學習 慢慢進步

C 學習第一天 開始

機器學習第一天

機器學習 第一天

相關推薦

第一天開始學習機器學習慢慢進步

C 學習第一天開始

機器學習第一天