機器學習（1）

定義：回歸是指把實函式在樣本點附近加以近似的有監督的函式近似問題。

這裡，我們來考慮一下以d次方的實數向量x作為輸入，實數值y作為輸出的函式

y=f(x)的學習問題，在監督學習裡，這裡的函式關係f是未知的，作為輸入數出

樣本}(上標為n,下標為1)是已知的。

定義：分類是指對已指定的模式進行有監督的模型識別問題，由已知的訓練集，進行分類的過程

分類並不存在類別1比類別3更接近於類別2這樣的說法。分類問題只是單純地對樣本應該屬於

哪個類別進行**並且根據**準確與否來衡量泛化誤差，這一點與回歸不同

定義：指尋找輸入函式樣本(從1到n,下標為1,上標為n)中所包含的異常資料的問題

在已知正常資料與異常資料的例子的情況下，其與有監督的分類問題是相同的，但是，在一般情況下，

在異常檢測任務中，對於什麼樣的資料是異常的，什麼樣的資料是正常的，在事先是未知的，

在這樣的無監督的異常檢測中，一般採用密度估計方法，把靠近密度中心的資料作為正常的資料，把偏離密度中心的

資料作為異常的資料

定義：與分類問題相同，也是模式識別問題，但是屬於無監督學習的一種，即只給出輸入樣本

(從1到n)，然後判斷各個樣本分別屬於1,2,....,c,中的那個簇。隸屬於相同簇的樣本之間

具有相同的性質,反之，亦然。在聚類問題中們如何準確地計算樣本之間的相似度是很重要的課題

注：聚類問題中經常以簇代替類別

定義：是指從高維度資料中提取關鍵資訊，將其轉換為易於計算的低維度問題進而求解的方法，具體來說，

當輸入樣本(從1到n)的維度d非常大的時候，可以把樣本轉換為較低維度的樣本(從1到n)。線性降維的

情況下，可以使用橫向量t將其轉換為zi=txi.降維，根據資料種類的不同，可以分為

監督學習和無監督學習兩種，一般來講輸入輸出樣本已知的時候屬於監督學習，可以將樣本轉換為較低維度的樣本

從而獲得更高的泛化能力，如果只有輸入樣本的時候屬於無監督的學習，在轉換為較低維度的樣本以後，應該保持原始輸入樣本

的資料分布性質，以及資料間的近鄰關係不發生變化。

在已知模式x的時候，如果能求得使分類類別y的條件概率p(y|x)達到最大值的類別y^的情況，就可以模式識別了

y=argmax p(y|x)

在這裡，」argmax"是取得最大值時的引數的意思，所以max y p(y|x)是指當y取得特定值時p(y|x)的最大值，在模式識別中，條件概率p(y|x)通常也稱為

後驗概率，上面的y^也稱為y翰特，在基於統計分析的機器學習中，**結果一般都以^符號來表示，應用訓練集直接對後驗概率p(y|x)進行學習的過程，成為判別式分類

另外可以把後驗概率p(y|x)表示為y的函式:

p(y|x)=p(x,y)/p(x)∝p(x,y)

上式表明,發現模式x和類別y的聯合概率p(x,y)與後驗概率p(y|x)是成比例的,在模式識別中，聯合概率p(x,y)也成為資料生成概率，

通過**資料生成概率p(x,y)來進行模式識別的分類方法，稱為生成的分類

注：有時候即使手頭的資訊量不足以解決一般性(即求解困難)的問題，但對於解決特定的問題，很可能是足夠的。

比如，資料生成概率是已知的，那麼就可以由公式推出後驗概率，如果後驗概率是已知的，卻不能推導出資料生成概率

，在進行模式時，只要計算後驗概率即可，在生成的分類中，則要計算資料生成概率p(x,y)這個一般性的問題，因此，識別的分類是比生成的分類更好的機器學習方法

在本小節中，我們以包含引數θ的模型q(x,y;θ)為例，對計算資料生成概率的問題進行說明

在統計概率的機器學習方法中，將模式θ作為決定論的變數，使用手頭的訓練樣本對模式識別θ進行學習，在統計概率中

如何由訓練集d得到高精度的θ是主要的的研究課題，而在樸素貝葉斯方法中，將模式θ作為概率變數

對其先驗概率p(θ)加以考慮，計算與訓練集d對應的後驗概率p(θ|d),在樸素貝葉斯演算法中，如何計算

後驗概率是乙個主要的研究課題

本次理論部分主要講解基於頻率派的識別式機器學習演算法，並對其中的演算法進行介紹，而不介紹產生式機器學習演算法

和樸素貝葉斯學派的機器學習演算法。

後續持續更新....歡迎交流！

機器學習 1

基本問題的經典演算法分類 svm 最大熵 adaboost 分類回歸樹隨機森林回歸分類回歸樹隨機森林 gbdt 排序 gbrank 聚類 k means 結構標註隱馬爾可夫模型條件隨機場。機器學習表示演算法特徵的表示評價 loss cost評價演算法好壞的函式優化尋找使評價...

機器學習 1

學習吳恩達機器學習1 3章主要內容對機器學習在生活中的應用做了介紹郵件分類，新聞分類，疾病房價機器學習演算法分類及簡要介紹監督學習 supervised learning 中的單變數線性回歸 linear regression with one variable 損失函式 cost fu...

1機器學習

1.python環境和pip list 3.什麼是機器學習，有哪些分類？結合案例，寫出你的理解。機器學習是一門多學科交叉專業，涵蓋概率論知識，統計學知識，近似理論知識和複雜演算法知識，使用計算機作為工具並致力於真實實時的模擬人類學習方式，並將現有內容進行知識結構劃分來有效提高學習效率.機器學習有下面...

機器學習（1）

機器學習 1

機器學習 1

1機器學習

相關推薦