機器學習筆記 導論

2022-07-31 02:24:10 字數 1440 閱讀 4094

《machine learning - a probabilistic perspective》

第一章:導論

1.1 什麼是機器學習,為什麼需要機器學習。

大資料時代,要求機器能自動分析資料,能從已知的資料中學習一些隱藏的模式,來**未來的資料,或者執行一些決策。

機器學習大體分為兩類:**或者有監督學習:這個方式需要有訓練資料庫,然後給定輸入特徵、屬性或者協變數,給定輸出的資訊。如果輸出的是類別資訊,則稱這類問題叫分類問題,或者模式識別問題。如果輸出的是連續值,則稱這類問題為回歸問題(regression)。

描述(descriptive)或者無監督學習:這類問題只有輸入資訊,而沒有關於輸入的任何結構、模式等資訊。給定輸入,需要挖掘其內在的一些模式,因此有時候叫知識挖掘(knowledge discovery)。

還有第三類學習方法,叫增強學習(reinforcement learning),這類方法是用較少,

1.2 有監督學習:

分類問題:給定帶有標註的輸入資料,訓練學習乙個**函式。然後,利用這個**函式多新的樣本進行**或者標註,這個過程也就推廣(generalization)。

利用概率模型,我們可以將這類問題描述為概率形成:

利用map estimate原則,即最大化後驗概率來決策。

**問題:給定的輸入,輸出可能是連續值。比如**年齡、**溫度等值。

1.3 無監督學習

無監督學習意在發掘資料的「有意思」的結構資訊,在這類方法中,從概率的角度講,我們要構建帶引數的

概率密度估計

無監督學習主要有以下幾類:聚類演算法、降維演算法(高維資料顯示)、圖的結構挖掘、矩陣填充(

matrix completion)。

有監督學習通常的概率描述:

無監督學習通常的概率描述:

1.4 機器學習中的重要概念

1,有引數模型和無引數模型;

2,維度災難;

3,線性回歸;

logistic回歸;

4,過擬合;

5,模型選擇;

6,沒有免費的午餐原理。

沒有免費的午餐原理】:我們在乙個資料域上所做的假設,不一定在其他的資料域也同樣工作的很好;實際上往往在其他域內效能很差。這個原理產生的結果是,我們開發出很多不同的模型,來覆蓋現實世界中的不同的資料。

【本文完】

機器學習導論筆記 緒論

監督學習 給定輸入x和輸出y,任務是學習從輸入到輸出的對映。方法是,先假定某個依賴於一組引數的函式,優化引數,使得逼近誤差最小。型別包括回歸和分類。非監督學習 只有輸入資料,我們的目標是發現輸入資料中的規律,輸入空間存在著某種結構使得特定的模式比其他模式更易出現,我們對其進行密度估計。聚類是密度估計...

機器學習筆記 基礎導論

三 機器學習有哪些分類?四 機器學習的前沿進展?經過兩年專業課與基礎課的學習,我們已經有能力去接觸機器學習這門課程。機器學習要求首先是數學功底深厚,微積分 線性代數 概率論將會發揮重要的作用也會是學習上最大的門檻,另外需要掌握基本的程式設計技巧並且熟練使用python語言。我對自己也沒有十足的信心,...

學習筆記 機器學習(一) 導論

這也是我自己非常關心的乙個問題吧,從我第一次聽到這個詞語,就對機器學習是什麼一直模糊不清!這個也可以參考 這裡我首先明白了上面的三種學習方式是根據學習任務的不同,機器學習可以細化為這四種!而這裡的學習任務的不同具體指的就是資料的不同 1 如果所給定訓練的資料都是標好 好 或者 壞 等這樣的標籤時 監...