機器學習(1)

2021-09-30 13:54:12 字數 2021 閱讀 8044

定義:回歸是指把實函式在樣本點附近加以近似的有監督的函式近似問題。

這裡,我們來考慮一下以d次方的實數向量x作為輸入,實數值y作為輸出的函式

y=f(x)的學習問題,在監督學習裡,這裡的函式關係f是未知的,作為輸入數出

樣本}(上標為n,下標為1)是已知的。

定義:分類是指對已指定的模式進行有監督的模型識別問題,由已知的訓練集,進行分類的過程

分類並不存在類別1比類別3更接近於類別2這樣的說法。分類問題只是單純地對樣本應該屬於

哪個類別進行**並且根據**準確與否來衡量泛化誤差,這一點與回歸不同

定義:指尋找輸入函式樣本(從1到n,下標為1,上標為n)中所包含的異常資料的問題

在已知正常資料與異常資料的例子的情況下,其與有監督的分類問題是相同的,但是,在一般情況下,

在異常檢測任務中,對於什麼樣的資料是異常的,什麼樣的資料是正常的,在事先是未知的,

在這樣的無監督的異常檢測中,一般採用密度估計方法,把靠近密度中心的資料作為正常的資料,把偏離密度中心的

資料作為異常的資料

定義:與分類問題相同,也是模式識別問題,但是屬於無監督學習的一種,即只給出輸入樣本

(從1到n),然後判斷各個樣本分別屬於1,2,....,c,中的那個簇。隸屬於相同簇的樣本之間

具有相同的性質,反之,亦然。在聚類問題中們如何準確地計算樣本之間的相似度是很重要的課題

注:聚類問題中經常以簇代替類別

定義:是指從高維度資料中提取關鍵資訊,將其轉換為易於計算的低維度問題進而求解的方法,具體來說,

當輸入樣本(從1到n)的維度d非常大的時候,可以把樣本轉換為較低維度的樣本(從1到n)。線性降維的

情況下,可以使用橫向量t將其轉換為zi=txi.降維,根據資料種類的不同,可以分為

監督學習和無監督學習兩種,一般來講輸入輸出樣本已知的時候屬於監督學習,可以將樣本轉換為較低維度的樣本

從而獲得更高的泛化能力,如果只有輸入樣本的時候屬於無監督的學習,在轉換為較低維度的樣本以後,應該保持原始輸入樣本

的資料分布性質,以及資料間的近鄰關係不發生變化。

在已知模式x的時候,如果能求得使分類類別y的條件概率p(y|x)達到最大值的類別y^的情況,就可以模式識別了

y=argmax p(y|x)

在這裡,」argmax"是取得最大值時的引數的意思,所以max y p(y|x)是指當y取得特定值時p(y|x)的最大值,在模式識別中,條件概率p(y|x)通常也稱為

後驗概率,上面的y^也稱為y翰特,在基於統計分析的機器學習中,**結果一般都以^符號來表示,應用訓練集直接對後驗概率p(y|x)進行學習的過程,成為判別式分類

另外可以把後驗概率p(y|x)表示為y的函式:

p(y|x)=p(x,y)/p(x)∝p(x,y)

上式表明,發現模式x和類別y的聯合概率p(x,y)與後驗概率p(y|x)是成比例的,在模式識別中,聯合概率p(x,y)也成為資料生成概率,

通過**資料生成概率p(x,y)來進行模式識別的分類方法,稱為生成的分類

注:有時候即使手頭的資訊量不足以解決一般性(即求解困難)的問題,但對於解決特定的問題,很可能是足夠的。

比如,資料生成概率是已知的,那麼就可以由公式推出後驗概率,如果後驗概率是已知的,卻不能推導出資料生成概率

,在進行模式時,只要計算後驗概率即可,在生成的分類中,則要計算資料生成概率p(x,y)這個一般性的問題,因此,識別的分類是比生成的分類更好的機器學習方法

在本小節中,我們以包含引數θ的模型q(x,y;θ)為例,對計算資料生成概率的問題進行說明

在統計概率的機器學習方法中,將模式θ作為決定論的變數,使用手頭的訓練樣本對模式識別θ進行學習,在統計概率中

如何由訓練集d得到高精度的θ是主要的的研究課題,而在樸素貝葉斯方法中,將模式θ作為概率變數

對其先驗概率p(θ)加以考慮,計算與訓練集d對應的後驗概率p(θ|d),在樸素貝葉斯演算法中,如何計算

後驗概率是乙個主要的研究課題

本次理論部分主要講解基於頻率派的識別式機器學習演算法,並對其中的演算法進行介紹,而不介紹產生式機器學習演算法

和樸素貝葉斯學派的機器學習演算法。

後續持續更新....歡迎交流!

機器學習 1

基本問題的經典演算法 分類 svm 最大熵 adaboost 分類回歸樹 隨機森林 回歸 分類回歸樹 隨機森林 gbdt 排序 gbrank 聚類 k means 結構標註 隱馬爾可夫模型 條件隨機場。機器學習 表示 演算法 特徵的表示 評價 loss cost評價演算法好壞的函式 優化 尋找使評價...

機器學習 1

學習吳恩達機器學習1 3章 主要內容 對機器學習在生活中的應用做了介紹 郵件分類,新聞分類,疾病 房價 機器學習演算法分類及簡要介紹 監督學習 supervised learning 中的單變數線性回歸 linear regression with one variable 損失函式 cost fu...

1機器學習

1.python環境和pip list 3.什麼是機器學習,有哪些分類?結合案例,寫出你的理解。機器學習是一門多學科交叉專業,涵蓋概率論知識,統計學知識,近似理論知識和複雜演算法知識,使用計算機作為工具並致力於真實實時的模擬人類學習方式,並將現有內容進行知識結構劃分來有效提高學習效率.機器學習有下面...