機器學習基礎知識

2021-07-12 06:59:06 字數 2826 閱讀 3814

machine learning的主要兩個應用方面:人工智慧、資料科學

什麼是人工智慧(artificial intelligence)?

ai是不確定性管理(uncertainty management)的體現

ai = what to do when you don't know what to do

不確定性可能由以下原因造成:

感測器的侷限性(sensor limits)--- 無法給出足夠的資訊來感知周圍環境

敵手(adversaries)---故意做出某種行為來加大ai對事件判斷的誤差

隨機環境(stochastic environments)--無法**結果的環境因素

延遲(laziness)---即使知道怎麼算,也無法及時算出結果

無知(ignorance)---對所發生的事情無權不知道,也許可以知道,但是不屑於知道

基於知識的ai的三個基本過程(foundamental processes):分別是reasoning(理解,決策,行動等),learning(從結果的正確與否進行學習),memory(儲存學習的結果,為learning和reasoning提供資料參考),這三個過程構成了ai agent體系結構的一部分,稱之為deliberation。

ai agent體系架構:

ai的四個學派,如圖的四個象限:

貝葉斯規則:

p(a|b) = p(b|a)*p(a)/p(b)

其中,p(b|a)為似然概率,p(a)為先驗概率,p(b)為邊緣似然概率。p(a|b)為後驗概率。b可以理解為evidence,而a可以理解為cause,p(a|b)則類似於根據結果溯源。

根據零容忍度原理,p(b)可以展開為p(b) = ∑a p(b|a=a)p(a=a)   理解:a可以代表各種能導致b發生的c,d,e,f...事件。

什麼是資料科學(data science)?

構造分析利用資料的模型,從各式各樣資料中抽絲剝繭,提取出有價值的資訊,通過機器學習,做出最優化的結論。

資料科學家可以通過對資料的分析建模,最終達到兩種結果,一種是建立**模型,對未來進行**。一種是統計資料,分析資料得出結論並報告。

什麼是機器學習?

機器學習就是著手於現有收據,學習造成現有結果的機制和學習能夠解釋它們的模型。核心:learning concepts and building models.

一些術語:

what(is being learned): parameters ,structure ,hidden concepts

what from: supervised , unsupervised , reinforcement

what for:prediction, diagnose, summarization。。。

how: passive ,active,online,offline

outputs:classification,regression

details:generative,discriminative

機器學習分類:

非監督學習(unsupervised learning):精煉描述(concise description),沒有任何標籤,沒有什麼指示,與監督學習的關係可以理解為通過非監督學習得出一些總結性結論,這些結論作為監督學習的輸入,從而達到對新的資料進行標記的效果。

增強學習(reinforcement learning):learning from delayed reward。從結果得知好壞,從而反推過程中哪一步是關鍵的,做出優化。而在過程中是不知道對錯或關鍵步驟的,直到結果已經出現,好壞已經定性。

歸納(induction),演繹(deduction),溯源(abduction):

歸納是從cause到effect的過程中去尋找隱藏的rule。

演繹是依照rule而從cause推理出effect。

溯源是拿著effect按照rule來溯源可能造成effect的cause。

只有演繹是乙個結果確定的過程。

分類(classification)和回歸(regression):

分類:y ∈ 或者更多選擇

回歸:y ∈[0,1]或者∈r

奧卡姆剃刀(occam』s razor)原則:當其他條件都一樣是,選擇複雜性較低的那個。

擬合誤差和複雜度的關係如圖:

理想狀況是複雜度越高,擬合誤差越小,實際情況下,對未知資料的泛化誤差曲線是過度擬合誤差和訓練資料誤差之和。

所以最理想的複雜度是在泛化誤差最小處。過度擬合是導致偏差的主要**。如果結果不理想的情況下,可以嘗試適當降低複雜度以提高擬合度。

機器學習基礎知識

機器學習基礎知識 1 誤差 學習器實際 輸出與樣本的真實輸出之間的差異稱為 誤差 有經驗誤差 也成訓練誤差 和泛化誤差。我們實際需要的是泛化誤差較小的學習器。2 過擬合與欠擬合 過擬合 學習能力太過強大,把訓練樣本中的特殊特性當作一般特性導致泛化效能下降。欠擬合 學習能力低下,不能很好的 輸出。3 ...

機器學習基礎知識

為了解決任務t,設計一段程式,從經驗e中學習,達到效能度量值p,當且僅當有了經驗e後,經過p評判,程式在處理t時的效能得到提公升1.特徵表示 2.選擇模型 3.訓練模型 4.模型評估 1.模型 2.策略 3.演算法 1.有監督學習 1.1 分類 樣本標籤屬於離散變數 判別模型 1.2 回歸 樣本標籤...

機器學習基礎知識

訓練樣本帶有標籤,y f x f x 是標籤 回歸 y可以產生許多值,並且這些值具有連續排序 分類 y是離散的,只有很少的值 訓練樣本沒有標籤 聚類 將資料分割成相似專案的單個類的過程 降維 指為了檢視資料而在更簡單的視角下運算元據 通過觀察環境如何對動作做出反應來手機資訊,是一種與環境互動的機器學...