機器學習之一些基本概念及符號系統

2022-07-24 13:51:15 字數 1216 閱讀 2685

圖1. 機器學習的基本過程

上面提到過,訓練集就是許多的(x, y)資料對的集合。其中x是因變數,y是自變數。通常認為x的變化引起了y的改變,即x的值決定了y的值。在**房屋**的模型中,假如我們能找到所有影響房屋**的因素(所有的x),並且確定各個因素準確的引數(θ),那麼理論上可以準確的**出任何房屋的**(y)。

2.1 單因素訓練集中自變數的表示方法

2.2 多因素訓練集中自變數的表示方法

2.3 訓練集中因變數的表示方法

無論是單因素還是多因素,每乙個樣本中都只包含乙個因變數(y),因此只需要區分不同樣本間的y,y(1), y(2), ..., y(m),其中m表示樣本的個數;

用列向量y表示為:y=

(y(1

)y(2

)⋮y(

m))'>y=⎛⎝⎜⎜⎜⎜⎜y(1)y(2)⋮y(m)⎞⎠⎟⎟⎟⎟⎟

y=(y(1)y(2)⋮y(m))

也許是某種約定,在機器學習中,一般都是用θ來表示引數,引數是自變數x的引數(也可以看做是每個自變數的權重,權重越大的自變數對y的影響也越大),理論上,有多少個自變數就有多少個引數,但就像在直線方程y = ax + b中表現出來的那樣,除了x的引數a,還有乙個常數項b。因此引數一般比自變數的個數多乙個,當有n個自變數的時候,會有n+1個引數。

最終的模型是由乙個特定的方程來表示的,在訓練模型的過程中,確定了這個方程中的未知引數。這些引數對於所有的樣本都是相同的,例如第乙個樣本x(1)中的第乙個自變數x1的引數與任意其他樣本x(i)中第乙個自變數x1的引數是相同的。因此不用區分樣本間的引數,只用區分不同自變數之間的引數,可以使用乙個n+1維的列向量θ來表示所有的引數:θ=

(θ0θ

1⋮θn

)'>θ=⎛⎝⎜⎜⎜⎜θ0θ1⋮θn⎞⎠⎟⎟⎟⎟

θ=(θ0θ1⋮θn)

這裡說的模型就是乙個特定的函式,上面已經提過,模型一般使用h來表示。下面用線性回歸模型來舉例說明模型的符號表示。

4.1 直接表示

直接表示方法是我們在沒有學習線性代數之前的代數表示方式。

4.2 矩陣表示

學習了線性代數後,可以使用矩陣來表示上面的方程,不僅表示起來方便,直接進行矩陣運算效率也更高效。在這裡需要特別說明的一點是,為了配合矩陣的表示,在上面的方程中新增了x0,並且x0=1,且將θ0作為x0的引數。

參考:

機器學習基礎之一 基本概念

一 機器學習方法分類 監督學習 訓練樣本帶標記 分類 回歸 無監督學習 訓練樣本無標記 聚類 異常檢測 半監督學習 訓練樣本帶少量標記 強化學習 通過狀態空間大量試錯學習得最佳決策 決策 深度學習 以上ml方法和深度神經網路的結合 分類 聚類 決策 二 機器學習流程 1.實際問題抽象為數學問題 理解...

C 一些基本概念

建構函式的作用是對物件本身做初始化工作,也就是給使用者提供初始化類中成員變數的一種方式。析構函式是釋放物件執行期間所申請的資源。函式的過載,過載構成的條件 函式的引數型別不同 引數個數不同,才能構成函式的過載 在乙個類中 注意,只有函式的返回型別不同是不能構成函式的過載。在函式過載時,要注意函式帶有...

linux OS一些基本概念

1.什麼是os?好簡單好x的問題,可是如果真的要自己用稍微官方稍微正規的語言或文本來回答,我真的能回答清楚嗎?好吧,我先來用自己的語言來回答。再去找點官方的定義。我自己的回答 os就是乙個可以管理並且相對合理分配計算機資源的軟體。官方回答 作業系統 英語 operating system,簡稱os ...