機器學習一基礎術語概念

什麼是機器學習？

機器學習是一門類似於人類根據生活中的經驗**之後可能會發生的結果的學科，好比我們從小可能接觸到的諺語：燕子低飛蛇過道，大雨不久就來到。在這裡，燕子低飛蛇過道就是人們在大雨前常常觀察到的一種現象，久而久之人們便發現往往出現這種現象時，馬上就會下起大雨————從而成為了人們生活中的一種經驗。而即將到來的大雨，就是我們根據經驗而產生的一種**。機器學習研究的主要內容是關於在計算機上從資料中產生「模型」的演算法，即學習演算法。

機器學習也是，機器學習是通過收集到的資料（我們所觀察到的現象），生成與之有關的模型（我們所得到的經驗），然後**相關的結果（馬上就會下的大雨）。書中官方的描述是：假設用p來評估電腦程式在某任務類t上的效能，若乙個程式通過利用經驗e在t中任務上獲得了效能上的改善，則我們就說關於t和p，該程式對e進行了學習。

基本術語：

美食大概是我們都饞涎的。以菜為例，比如說土豆燒牛肉，對於它我們可以有幾點考慮，它的材料，味道，色澤等。我們就叫它們為土豆燒牛肉的屬性或特徵。而對於（材料=土豆和牛肉，味道=外焦裡嫩，色澤=金黃）這樣一組資料，我們稱為乙個示例或者樣本，而當菜譜上所有的菜都如這樣展開時，所構成的集合我們可以稱之為資料集。在其中對於那些屬性的具體取值，稱為屬性值。屬性張成的空間我們稱之為「屬性空間」，「樣本空間」或「輸入空間」。例如：對於土豆燒牛肉，他有三個屬性：材料，味道，色澤。我們可以以每個屬性為一條座標，生成乙個三維的座標空間。而對與菜譜中的每一道菜，我們都可以在這個形成的三維空間中找到他們各自的對應位置，因此，我們也稱每乙個示例為乙個

特徵向量。

從資料中學到模型的過程稱為「學習」或「訓練」，真個過程通過執行某個學習演算法來實現。訓練過程中使用的資料稱為「訓練資料」，其中每個樣本稱之為「訓練樣本」，所有訓練樣本組成的集合稱之為「訓練集」。

學得模型對應了關於資料的某種潛在的規律，因此稱之為「假設」；這種潛在規律自身，則稱之為「真相」，學習過程就是為了找出或者逼近真相。

因為我們最終是需要做一些類似於『**』性的東西，即幫我們判斷在我們面前的菜是否可口，好吃。我們需要在之前的樣本的基礎上加上一點標註，即滿足（（味道=外焦裡嫩，色澤=金黃），可口），這裡的可口叫做標記，而有標記的樣本我們稱之為樣例。而有標記的訓練集的機器學習方式我們稱之為：監督學習。相反，沒有標記的訓練集的機器學習方式稱之為：無監督學習。（分類和回歸是監督學習的代表，聚類是無監督學習的代表）

一般的，用(xi,yi)表示第i個樣例，其中yi€y,是樣本xi的標記，y是所有標記的集合，亦稱為「標記空間」（label space）或「輸出空間」。

若我們想**的是離散值，例如：好，壞，此類學習任務稱為「分類」（classification）；若想**的是連續值，例如人的身高增長程度0.95,0,28；此類學習任務稱為「回歸」（regression）。

學的模型後，使用其進行**的過程稱為「測試」（testing）。被**的樣本稱為「測試樣本」。例如在學得f後，對樣例xi，可得其**標記y=f(x).

學得模型，適用於新樣本的能力，我們稱之為「泛化」（generalization）能力。具有強泛化能力的模型能很好的適用於整個樣本空間。

1.3 假設空間

歸納和演繹是科學推理的兩大基本手段。

歸納是乙個從特殊到一般的過程，通過從種種特殊的物件中總結出普遍認可的一般規律。

演繹是乙個從一般到特殊的過程。

從樣例中學習，顯然是乙個從特殊到一般的的歸納過程，因此亦稱為「歸納學習」（inductive learning）

歸納學習有廣義和狹義之分。廣義的歸納學習大體相當於從樣例中學習，而狹義的歸納學習則要求從訓練資料中學得概念（concept）,因此又稱為「概念學習」或「概念形成」。

我們把學習過程看作是乙個在所有假設（hypothesis）組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集「匹配」（fit）的假設。假設的表示一旦確認，假設空間及其規模大小就確定了。

在現實生活中，我們面臨很大的假設空間，但學習過程是基於有限樣本訓練集進行的，因此，可能有多個假設與訓練集一致，即存在著乙個與訓練集一致的「假設集合」，我們稱之為「版本空間

」（version space）。

1.4歸納偏好

對於乙個具體的學習演算法而言，它必須產生乙個模型。這時，學習演算法本身的偏好就會起到關鍵的作用。

機器學習演算法在學習過程中對於某種型別假設的偏好，稱之為「歸納偏好」（indictive bias），或簡稱「偏好」。

任何乙個有效的機器學習演算法必有其歸納偏好，否則它將被假設空間中看似在訓練集上「等效」假設所迷惑，而無法產生確定的學習結果。

歸納偏好對應了學習演算法本身所做出的關於「什麼樣的模型更好」的假設。即演算法的歸納偏好是否與問題本身匹配，大多數時候直接決定了演算法能否取得好的效能。

機器學習一基礎術語概念

機器學習基礎術語

機器學習基礎概念一

機器學習深度學習概念術語的理解

機器學習 一 基礎術語概念

機器學習 基礎術語

機器學習 基礎概念 一

機器學習 深度學習概念術語的理解

相關推薦

機器學習一基礎術語概念

機器學習基礎術語

機器學習基礎概念一

機器學習深度學習概念術語的理解