11 分類與監督學習，樸素貝葉斯分類演算法

1.理解分類與監督學習、聚類與無監督學習。

簡述分類與聚類的聯絡與區別。

簡述什麼是監督學習與無監督學習。

2.樸素貝葉斯分類演算法例項

利用關於心臟病患者的臨床歷史資料集，建立樸素貝葉斯心臟病分類模型。

有六個分類變數(分類因子)：性別，年齡、killp評分、飲酒、吸菸、住院天數

目標分類變數疾病：

–心梗–不穩定性心絞痛

新的例項：–(性別=『男』，年齡<70, killp=『i'，飲酒=『是』，吸菸≈『是」，住院天數<7)

最可能是哪個疾病？

上傳手工演算過程。

性別年齡

killp

飲酒吸菸

住院天數疾病男

>80是是

7-14心梗女

70-80否是

<7心梗女

70-81否否

不穩定性心絞痛

女<70否是

>14心梗男

70-80是是

7-14心梗女

>80否否

7-14心梗男

70-80否否

7-14心梗女

70-80否否

7-14心梗女

70-80否否

<7心梗男

<70否否

7-14心梗女

>80否是

<7心梗女

70-80否是

7-14心梗女

>80否是

7-14

不穩定性心絞痛

男70-80是是

>14

不穩定性心絞痛

女<70否否

<7心梗男

70-80否否

>14心梗男

<70是是

7-14心梗女

70-80否否

>14心梗男

70-80否否

7-14心梗女

<70否否

不穩定性心絞痛

3.使用樸素貝葉斯模型對iris資料集進行花分類。

嘗試使用3種不同型別的樸素貝葉斯：

並使用sklearn.model_selection.cross_val_score()，對各模型進行交叉驗證。

1.分類簡單來說，就是根據文字的特徵或屬性，劃分到已有的類別中。也就是說，這些類別是已知的，通過對已知分類的資料進行訓練和學習，找到這些不同類的特徵，再對未分類的資料進行分類。而聚類不知道資料會分為幾類，通過聚類分析將資料或者說使用者聚合成幾個群體，那就是聚類了。聚類不需要對資料進行訓練和學習。

分類屬於監督學習，聚類屬於無監督學習。常見的分模擬如決策樹分類演算法、貝葉斯分類演算法等聚類的演算法最基本的有系統聚類，k-means均值聚類

有監督學習：對具有標記的訓練樣本進行學習，以盡可能對訓練樣本集外的資料進行分類**。

無監督學習：對未標記的樣本進行訓練學習

2.設x為影響疾病的因素

y為疾病型別，y1為心梗、y2為不穩定性心絞痛

則p(y1)=16/20，p(y2)=4/20，p(x)=1

p(y1|x)=p(x|y1)p(y1)/p(x)=p(x1|y1)p(x2|y1)p(x3|y1)p(x4|y1)p(x5|y1)p(x6|y1)p(y1)/p(x)=7/16*4/16*9/16*3/16*7/16*4/16*16/20/1=0.1009%

p(y2|x)=p(x|y2)p(y2)/p(x)=p(x1|y2)p(x2|y2)p(x3|y2)p(x4|y2)p(x5|y2)p(x6|y2)p(y2)/p(x)=1/4*1/4*1/4*1/4*2/4*2/4*4/20/1=0.0195%

根據上述結果：最可能是心梗

11 分類與監督學習，樸素貝葉斯分類演算法

11 分類與監督學習，樸素貝葉斯分類演算法

11 分類與監督學習，樸素貝葉斯分類演算法

機器學習學習筆記之 監督學習之樸素貝葉斯分類器

相關推薦

機器學習學習筆記之監督學習之樸素貝葉斯分類器