大四了還在學機器學習

2021-10-16 10:04:08 字數 2547 閱讀 6858

依然是課程筆記, 感謝楊曉春老師的指導~

決策樹決策樹的剪枝----對付過擬合術語

特徵向量的空間對映理解

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-r39d4tjj-1610881344180)(2020-04-21-16-13-04.png)]

概念學習: 一種經典的歸納學習.從特殊的訓練樣本中推導出一種模型. 輸出boolean值. 譬如好瓜壞瓜的判斷: 注意假設空間裡都是好瓜

基本演算法: (自頂向下的遞迴方法, 為了產生泛化能力強的模型, 構造熵值下降最快的樹, 到葉子節點的熵值為零)

最優分類屬性的確認:

增益率gain_ratio: 資訊增益對可取值數目較多的屬性有偏好, 為了弱化這種偏好, 將增益率除以屬性的可能數目gai

nret

io=g

ain(

d,a)

iv(a

),其中

,屬性a

取值越多

,iv(

a)越大

gain_retio=\frac, 其中, 屬性a取值越多,iv(a)越大

gainr​

etio

=iv(

a)ga

in(d

,a)​

,其中,

屬性a取

值越多,

iv(a

)越大

基尼指數gini: 樣本集中隨機抽取兩個樣本, 其標記不一致的概率, 基尼值越小, 資料純度越高gin

i(d)

=∑k=

1∣y∣

∑k′!

=kpk

pk′=

∑k=1

∣y∣p

k(1−

pk)−

1−∑k

=1∣y

∣pk2

gini(d)=\sum_^\sum_p_kp_=\sum_^p_k(1-p_k)-1-\sum_^p_k^2

gini(d

)=k=

1∑∣y

∣​k′

!=k∑

​pk​

pk′​

=k=1

∑∣y∣

​pk​

(1−p

k​)−

1−k=

1∑∣y

∣​pk

2​屬 性a

的基尼指

數:gi

niin

dex(

d,a)

=∑v=

1v∣d

v∣∣d

∣gin

i(dv

)屬性a的基尼指數:gini_index(d,a)=\sum_^v\fracgini(d^v)

屬性a的基尼

指數:g

inii

​nde

x(d,

a)=v

=1∑v

​∣d∣

∣dv∣

​gin

i(dv

)應選擇使劃分後基尼指數最小的屬性作為最優劃分屬性

3種機器學習方法:

id3: 使用資訊增益進行特徵選擇, 取值多的屬性容易使資料更純, 訓練得到一顆龐大且矮的樹

c4.5: 資訊增益率

cart: 基尼指數

乙個屬性的資訊增益(率)或基尼指數越大, 表明這個屬性對樣本的熵減少的能力越強

決策樹的評價: 所有葉節點對熵加權求和, 值越小, 樣本分類越精確–損失函式(經驗誤差)c(t

)=∑t

∈lea

fnth

(t

)c(t)=\sum_n_th(t)

c(t)=t

∈lea

f∑​n

t​h(

t).

cross validation交叉驗證: 資料集分k組, 取k-1組訓練, 1組測試. 可做k次,取平均值. 一般k取10(10折交叉驗證)

決策樹屬性值連續或缺失時的應對方法

屬性值缺失: (樣本的屬性缺失. 可用不缺失部分訓練, 但是資料浪費很大.) 先計算無缺失值樣本的佔比ρ

\rho

ρ, 再算無缺失樣本中某類的佔比pk^

\hat

pk​^

​, 再算無缺失樣本中屬性a為某值a的佔比rv^

\hat

rv​^

​.基於沒有缺失值的樣本來估算訓練集的資訊增益(ρ

\rho

ρ乘無缺失樣本中某屬性取某值的資訊增益(無缺失值的樣本集熵減rv^

\hat

rv​^

​乘所有某屬性取值的樣本熵之和)). 對所有屬性計算資訊增益, 挑個大的劃分.

後剪枝: 先從訓練集生成一顆完整決策樹, 從葉到根進行考察. 對於每個非葉節點, 如果把它換成葉節點後可帶來泛化效能的提公升或剪枝後精度沒有變化, 則把它換成葉子節點, 標記為其中樣本屬性最多的屬性.

效能度量

錯誤率: 分錯的樣本佔比

寫不完了, 挖坑不填orz

Xpath 還在學習中

1.xpanth 使用路徑表示式在xml 和 html 中進行導航 2.xpath包含標準函式庫 3.xpath是乙個w3c的標準 符號意義 article 選取所有article元素的所有子節點 article 選取根元素article article a 選區所有屬於article的子元素的a元...

大四了,感慨下。

這是我上周末去參加我們學校的程式設計比賽前夜寫的。跟大家分享。我大四了,大學的最後一年了,這學期開學之後大家就開始找工作了。剛開始的時候,我沒有想著要找工作,本來打算和那個老闆一起去經營我們的工作室的,可是後來想想,還是先出去混幾年再說,畢竟趁著年輕麼。我們工作室這邊,那天晚上我過去,第乙個軟體貌似...

我大四了,oh,我要畢業了 隨筆

我們參加提高班學習的這六個人沒有去系裡安排的集體實習,而是留在機房繼續為實現自己的夢想而努力。我今年大四了,系裡安排的課程很少,唯一的兩門課,也已經交上 就ok 停課了。所以,像我在qq 心情上所寫的 我的寒假生活開始了.也可以說,wo 畢業了 的確是這樣子的,明年前半年都屬於自主實習階段,我肯定還...