機器學習習題

2021-09-14 07:26:32 字數 2310 閱讀 9485

已知輸入變數x,判別模型(discriminative model)通過求解條件概率分布p(y|x)或者直接計算y的值來**y。生成模型(generative model)通過對觀測值和標註資料計算聯合概率分布p(x,y)來達到判定估算y的目的。

常見的判別模型有線性回歸(linear regression),邏輯回歸(logistic regression),支援向量機(svm), 傳統神經網路(traditional neural networks),線性判別分析(linear discriminative analysis),條件隨機場(conditional random field);常見的生成模型有樸素貝葉斯(***** bayes), 隱馬爾科夫模型(hmm),貝葉斯網路(bayesian networks)和隱含狄利克雷分布(latent dirichlet allocation)

a選項的隱馬爾科夫模型和 b選項的樸素貝葉斯屬於生成模型。c選項的lda,如果是指linear discriminative analysis,那麼屬於判別模型,如果是指 latent dirichlet allocation,那麼屬於生成模型。d選項的支援向量機屬於判別模型。

例題2

該題考察的是最大概率分詞,其基本思想是:乙個待切分的漢字串可能包含多種分詞結果,將其中概率最大的作為該字串的分詞結果。若某候選詞在訓練語料中未出現,其概率為0。

例題 3

中文分詞的基本方法可以分為基於語法規則的方法、基於詞典的方法和基於統計的方法。

基於語法規則的分詞法基本思想是在分詞的同時進行句法、語義分析, 利用句法資訊和語義資訊來進行詞性標註, 以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、複雜, 基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統應用較少。

在基於詞典的方法中,可以進一步分為最大匹配法,最大概率法,最短路徑法等。最大匹配法指的是按照一定順序選取字串中的若干個字當做乙個詞,去詞典中查詢。根據掃瞄方式可細分為:正向最大匹配,反向最大匹配,雙向最大匹配,最小切分。最大概率法指的是乙個待切分的漢字串可能包含多種分詞結果,將其中概率最大的那個作為該字串的分詞結果。最短路徑法指的是在詞圖上選擇一條詞數最少的路徑。

基於統計的分詞法的基本原理是根據字串在語料庫**現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字同時出現的次數越多, 就越有可能構成乙個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成為詞的可信度。常用的方法有hmm(隱馬爾科夫模型),maxent(最大熵模型),memm(最大熵隱馬爾科夫模型),crf(條件隨機場)

本題中,基於統計的方法為條件隨機場。abc三個選項為基於詞典的方法。

例題4

混淆矩陣

true positive(真正,tp):將正類**為正類數

true negative(真負,tn):將負類**為負類數

false positive(假正,fp):將負類**為正類數誤報 (type i error)

false negative(假負,fn):將正類**為負類數→漏報 (type ii error)

**準確率(accuracy)**就是被分對的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好。

對於分類器,主要的評價指標有precision,recall,f-score,以及roc曲線等。

在二分類問題中,我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時,比如樣本中負樣本數量遠遠多於正樣本,此時如果負樣本能夠全部正確分類,而正樣本只能部分正確分類,那麼(tp+tn)可以得到很高的值,也就是accuracy是個較大的值,但是正樣本並沒有取得良好的分類效果。因此a選項是不合理的。在樣本不均衡時,可以採用bcd選項方法來評價。

機器學習 習題1 1

題目 表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間 表1.1 西瓜資料集 編號 色澤根蒂 敲聲好瓜1青綠 蜷縮濁響是4 烏黑稍蜷沉悶否 解答 2.色澤 青綠 根蒂 敲聲 3.色澤 烏黑 根蒂 敲聲 4.色澤 根蒂 蜷縮 敲聲 5.色澤 根蒂 稍蜷 敲聲 6.色澤 根蒂 敲聲 濁響 ...

機器學習習題(19)

設線性規劃的約束條件為 則基本可行解為 a.0,0,4,3 b.3,4,0,0 c.2,0,1,0 d.3,0,4,0 2.在下面的數學模型中,屬於線性規劃模型的 a.b.c.d.參 b 解析 這道題的考點主要在於什麼是線性規劃,尤其是線性2字。線性就是指的是最普通的式子,只包含未知數之間只有加減的...

指標練習習題

1 int ref ref是8的位址,ref 1是4的位址,而 ref不是合法的c表示式,因為ref是常量而不是變數。2 乙個包含20個指向char的指標的陣列 char psa 20 乙個指向陣列的指標,其中陣列由20個char值構成 char pstr 20 3 定義乙個包含100個int值的陣...