《機器學習》西瓜書習題 第 4 章

2022-09-03 23:24:17 字數 2149 閱讀 3362

試證明對於不含衝突資料 (即特徵向量完全相同但標記不同) 的訓練集, 必存在與訓練集一致 (即訓練誤差為 0)的決策樹.

既然每個標記不同的資料特徵向量都不同, 只要樹的每一條 (從根解點到乙個葉節點算一條) 枝幹代表一種向量, 這個決策樹就與訓練集一致.

試析使用 "最小訓練誤差" 作為決策樹劃分選擇準則的缺陷.

\(4.1\) 說明了如果資料不衝突, 可以完全擬合資料集, 這正是使用 "最小訓練誤差" 作為決策樹劃分選擇準則的結果. 而這是絕對的過擬合.

試程式設計實現基於資訊熵進行劃分選擇的決策樹演算法, 並為表 \(4.3\) 中資料生成一棵決策樹.

《機器學習》西瓜書 第 3 章 程式設計例項

試程式設計實現基於基尼指數進行劃分選擇的決策樹演算法, 為表 \(4.2\) 中資料生成預剪枝、後剪枝決策樹, 並與未剪枝決策樹進行比較.

《機器學習》西瓜書 第 3 章 程式設計例項

試程式設計實現基於対率回歸進行劃分選擇的決策樹演算法, 並為表 \(4.3\) 中資料生成一棵決策樹.

《機器學習》西瓜書 第 3 章 程式設計例項

試選擇 \(4\) 個 \(\mathrm\) 資料集, 對上述 \(3\) 種演算法所產生的未剪枝、預剪枝、後剪枝決策樹進行實驗比較, 並進行適當的統計顯著性檢驗.

《機器學習》西瓜書 第 3 章 程式設計例項

圖 \(4.2\) 是一種遞迴演算法, 若面臨巨量資料, 則決策樹的層數會很深, 使用遞迴方法易導致 "棧" 溢位. 試使用 "佇列" 資料結構, 以引數 \(maxdepth\) 控制樹的最大深度, 寫出與圖 \(4.2\) 等價、但不使用遞迴的決策樹生成演算法.

偽**:

# 輸入: 訓練集 d

# 屬性集 a

array[0] = [d, a]

for d, a in array:

生成節點node;

if d中樣本全屬於同一類別c:

將node標記為c類葉節點

continue

elif a = 空 or d中樣本在a上取值相同:

將node標記為葉節點, 其類別標記為d中樣本數最多的類

continue

從a中選擇最優劃分屬性a

for a_v in a每個取值:

為node生成乙個分支, 令d_v表示d在a上取值為a_v的樣本子集

if d_v == null:

將分支節點標記為葉節點, 其類別標記為d中樣本最多的類

continue

elif

# 輸出: 以node為根節點的一棵決策樹

試將決策樹生成的深度優先搜尋過程修改為廣度優先搜尋, 以引數 \(maxnode\) 控制樹的最大結點數, 將題 \(4.7\) 中基於佇列的決策樹演算法進行改寫. 對比題 \(4.7\) 中的演算法, 試析哪種方式更易於控制決策樹所需儲存不超出記憶體.

\(4.7\) 其實已經是廣度優先搜尋了...

防止記憶體溢位就是要讓深度優先搜尋不要遞迴過深, 廣度優先搜尋不要太多結點在同乙個深度, 因此如果樹比較長, 建議用廣度優先搜尋, 如果樹比較寬, 建議用深度優先搜尋.

試將 \(4.4.2\) 節對缺失值的處理機制推廣到基尼指數的計算中去.

\[\rho = \frac\in\tilde}w_}}\in d}w_}}

\]\[\tilde_k = \frac_k}w_}}}w_}}\quad|)}

\]\[\tilde_v = \frac\in \tilde^v}w_}}\in \tilde}w_}}\quad

\]\(w_}\) 是權值, 初始化為 \(1\) .

那麼推廣後的基尼指數為:

\[\mathrm(d) = 1 - \sum_^|}\tilde_k^2\]

\[\mathrm(d, a) = \rho\sum_^\tilde_v\mathrm(\tilde^v)

\]同時如果按某屬性 \(a\) 劃分, 那麼某個缺失該屬性的樣本按照總體屬性比例改變權值進入下一結點 (見書 \(\mathrm88\)).

《機器學習》西瓜書 第 3 章 程式設計例項

《機器學習》西瓜書習題 第 3 章

試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...

《機器學習》 西瓜書習題 第 2 章

資料集包含 1000 個樣本,其中 500 個正例 500 個反例,將其劃分為包含 70 樣本的訓練集和 30 樣本的測試集用於留出法評估,試估算共有多少種劃分方式.如果劃分要保證正例和反例一樣多的話,那麼劃分方式數量 n 有 begin n c times c c end 如果不考慮的話則有 n ...

《機器學習》西瓜書習題 第 1 章

表 1.1 中若只包含編號為 1 和 4 的兩個樣例,試給出相應的版本空間.這應該不難理解吧,直接上 編號色澤 根蒂敲聲 好瓜 1 青綠蜷縮濁響是 4 烏黑稍蜷沉悶否 與使用單個合取式來進行假設表示相比,使用 析合正規化 將使得假設空間具有更強的表示能力.例如 好瓜 leftrightarrow b...