機器學習習題

已知輸入變數x，判別模型(discriminative model)通過求解條件概率分布p(y|x)或者直接計算y的值來**y。生成模型（generative model）通過對觀測值和標註資料計算聯合概率分布p(x,y)來達到判定估算y的目的。

常見的判別模型有線性回歸（linear regression）,邏輯回歸（logistic regression）,支援向量機（svm）, 傳統神經網路（traditional neural networks）,線性判別分析（linear discriminative analysis），條件隨機場（conditional random field）；常見的生成模型有樸素貝葉斯（***** bayes）, 隱馬爾科夫模型（hmm）,貝葉斯網路（bayesian networks）和隱含狄利克雷分布（latent dirichlet allocation）。

a選項的隱馬爾科夫模型和 b選項的樸素貝葉斯屬於生成模型。c選項的lda，如果是指linear discriminative analysis，那麼屬於判別模型，如果是指 latent dirichlet allocation，那麼屬於生成模型。d選項的支援向量機屬於判別模型。

例題2

該題考察的是最大概率分詞，其基本思想是：乙個待切分的漢字串可能包含多種分詞結果，將其中概率最大的作為該字串的分詞結果。若某候選詞在訓練語料中未出現，其概率為0。

例題 3

中文分詞的基本方法可以分為基於語法規則的方法、基於詞典的方法和基於統計的方法。

基於語法規則的分詞法基本思想是在分詞的同時進行句法、語義分析, 利用句法資訊和語義資訊來進行詞性標註, 以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、複雜, 基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統應用較少。

在基於詞典的方法中，可以進一步分為最大匹配法，最大概率法，最短路徑法等。最大匹配法指的是按照一定順序選取字串中的若干個字當做乙個詞，去詞典中查詢。根據掃瞄方式可細分為：正向最大匹配，反向最大匹配，雙向最大匹配，最小切分。最大概率法指的是乙個待切分的漢字串可能包含多種分詞結果，將其中概率最大的那個作為該字串的分詞結果。最短路徑法指的是在詞圖上選擇一條詞數最少的路徑。

基於統計的分詞法的基本原理是根據字串在語料庫**現的統計頻率來決定其是否構成詞。詞是字的組合，相鄰的字同時出現的次數越多, 就越有可能構成乙個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成為詞的可信度。常用的方法有hmm（隱馬爾科夫模型），maxent（最大熵模型），memm（最大熵隱馬爾科夫模型），crf（條件隨機場）。

本題中，基於統計的方法為條件隨機場。abc三個選項為基於詞典的方法。

例題4

混淆矩陣

true positive(真正，tp)：將正類**為正類數

true negative(真負，tn)：將負類**為負類數

false positive(假正，fp)：將負類**為正類數誤報 (type i error)

false negative(假負，fn)：將正類**為負類數→漏報 (type ii error)

**準確率（accuracy）**就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好。

對於分類器，主要的評價指標有precision，recall，f-score，以及roc曲線等。

在二分類問題中，我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時，比如樣本中負樣本數量遠遠多於正樣本，此時如果負樣本能夠全部正確分類，而正樣本只能部分正確分類，那麼(tp+tn)可以得到很高的值，也就是accuracy是個較大的值，但是正樣本並沒有取得良好的分類效果。因此a選項是不合理的。在樣本不均衡時，可以採用bcd選項方法來評價。

機器學習習題

機器學習習題1 1

機器學習習題（19）

指標練習習題

機器學習習題

機器學習 習題1 1

機器學習習題（19）

指標練習習題

相關推薦

機器學習習題1 1