機器學習基礎自學筆記2

1.1學習演算法

機器學習演算法是一種能夠從資料中學習的演算法。mitchell提供乙個簡潔的定義：對於某類任務和效能度量p，乙個電腦程式被認為可以從經驗e中學習是指，通過經驗e改進後，它在任務t上由效能度量p衡量的效能有所提公升。通常機器學習任務定義為機器學習系統應該如何處理樣本（example），樣本指我們從某些希望機器學習系統處理的物件或事件中收集到的已經量化的特徵（feature）的集合。一般將樣本表示成乙個向量，向量的每乙個元素是乙個特徵。

常見的機器學習任務t：分類，輸入缺失分類，回歸，轉錄，機器翻譯，結構化輸出，異常檢測，合成和取樣，缺失值補填，去噪，密度估計或概率質量函式估計。

效能度量p：對於分類、缺失輸入分類和轉錄任務通常用準確率或錯誤率來度量。效能度量的選擇看上去簡單且客觀，但是選擇乙個與系統理想表現對應的效能度量通常是很難的。一些情況下，很難確定應該度量什麼。在執行回歸任務時，是應該懲罰一些中等錯誤的系統還是較少犯錯但是犯大錯的系統？這卻決於具體情況。

經驗e：根據學習過程中的不同經驗，機器學習演算法大致分為無監督演算法和監督演算法。大致來說，無監督學習涉及觀察隨機向量的好幾個樣本，試圖顯示或隱式地學習出概率分布；監督學習包含觀察隨機向量（x）極其相關聯值（y），然後從x估計y。監督學習（supervised learning）形象的描述為老師提供目標y給機器學習系統，指導其應該做什麼。無監督學習中，沒有老師指導，演算法必須學會在沒有指導的情況下理解資料。無監督學習和監督學習不是嚴格定義的術語，它們之間界限通常是很模糊的。儘管無監督學習和監督學習並非完全沒有交集的正式概念，它們確實有助於粗略分類我們研究機器學習演算法時遇到的問題。傳統上，人們將回歸、分類或者結構化輸出問題稱為監督學習，將支援其他任務的密度估計稱為無監督學習。

1.2 容量、過擬合和欠擬合

機器學習的主要挑戰時演算法必須能夠在先前未觀測到的新輸入上表現良好。這種在先前未觀測到的輸入上表現良好的能力稱為泛化（generalization）。未完待續。。。

機器學習基礎自學筆記2

機器學習基礎自學筆記2

自學筆記 0基礎自學機器學習（第二天）

機器學習自學筆記1 從機器學習談起

機器學習基礎自學筆記2

機器學習基礎自學筆記2

自學筆記 0基礎自學機器學習 （第二天）

機器學習自學筆記1 從機器學習談起

相關推薦

自學筆記 0基礎自學機器學習（第二天）