機器學習學習筆記 1

一、問題的引入

回歸分析大多屬於監督學習的一種方法。這種方法主要是根據從貼有便簽的理算資料通，通過統計等方法得到數學模型，然後將模型運用於**或者分類。通常是多維的，如果存在高維空間時，可通過核函式等方法優化處理。

例如房屋的價錢和很多因素有關，而每乙個因素也成為乙個維度。這裡和多臂***問題(multi-armed bandit problem)中的***的臂數類似。

這裡我們簡化為題分析，只提出房屋的價錢和面積有關聯。資料如下：

其打點圖為：

假設這個資料集中又再次新增了乙個房屋的面積資料，想要知道這個房屋的價錢的估計值，該怎麼辦呢？

我們可以通過已知的資料去盡量準確的擬合這些資料，當這個新的房屋面積輸入進來，我們便可以利用這條擬合曲線求出近似值。

圖中，紅色的曲線就是原有資料擬合出來的，而新加入的點大概在3500左右，而根據紅色曲線，能夠得到估計值在500左右。

首先給出一些概念和常用的符號。

房屋銷售記錄表：訓練集(training set)或者訓練資料(training data),是我們流程中的輸入資料，一般稱為x

房屋銷售價錢：輸出資料，一般稱為y

擬合的函式(或者稱為假設或者模型)：一般寫作y=h(x)

訓練資料的條目數：一條訓練資料是由一對輸入資料和輸出資料組成的輸入資料的緯度n(特徵的個數)

這個例子的特徵是兩維的，結果時一維的，然而回歸方法能夠解決多維特徵，結果時一維多離散值或者一維連續值的問題。

三、學習過程

如同上面給出乙個新的房屋面積資料，根據之前的訓練資料擬合出的曲線能夠的到新的輸入資料的估計值，而得到這條擬合曲線的過程就是學習過程。下圖給出一種學習過程流程圖。

四、線性回歸

我們通常為了簡化模型，將其曲線的數學模型假定為線性的：

式中的h()即為需要得到的學習模型，也就是通過學習過程得到公式中的，在上面的那個例子中就好比房間的面積。但是當問題為多維的時候，比如還有房屋的朝向，房屋的地理位置，房屋的樓層等等因素。

通常我們也習慣於將其寫成矩陣的形式

為了評估我們所選擇的曲線是否良好，換句話說就是學習得到的是否比較好，我們通常使用一種叫做損失函式來描述好壞程度。

上方是乙個比較典型的錯誤函式，這個函式就是對估計值xi與真實值yi之間差的平方作為損失估計函式，而乘上1/2是為了方防止在求導的時候係數消失的問題。

如何調整theta使得損失函式取得最小值有很多方法，其中有最小二乘法等等。

機器學習學習筆記1

什麼是機器學習？監督學習 supervised learning 如神經網路，提供資料和資料的標籤進行訓練非監督學習 unsupervised learning 只提供資料而不提供對應的標籤進行訓練半監督學習利用少量有標籤樣本和大量無標籤樣本進行訓練，來對無標籤樣本進行分類強化學習 rein...

機器學習學習筆記1

周志華機器學習 flyu6 time 2016 6 12 假設空間歸納偏好監督學習所謂的監督學習其實就是在資料集d中有格式為 x,y 的形式，可以看出我們有明確的目標值或者標籤 y 與x的資料集有關關聯關係。我們可以通過尋找x與y的關係來確定乙個關係化的模型。在這個模型的學習中，我們是通過真是...

機器學習筆記 1

1 機器學習的定義如果乙個程式可以在任務t上，隨經驗e的增加，效果p隨之增加，則這個程式可以從經驗中學習。過程單個神經元 2 基於tensorflow的nn 神經網路用張量表示資料，用計算圖搭建神經網路，用會話執行，優化線上的權重引數得到模型。2.1 張量多維陣列列表階表示張量的維...

機器學習 學習筆記 1

機器學習 學習筆記1

機器學習學習筆記1

機器學習筆記 1

相關推薦

機器學習學習筆記 1

機器學習學習筆記1