亂說機器學習演算法的過程

人類認識事物：

可被觀察到的事物區別

通過人的認真觀察+資料觀察分析=》找出本質特徵或者說明顯的特徵

機器學習識別：

第一步：特徵提取【對於機器學習系統是非常非常重要的】

通過訓練樣本獲得的，對機器學習任務有幫助的多維度特徵資料

提取特徵的方法：

①計算面積，採取影象處理中的鏈碼和影象座標

②計算邊緣，用01矩陣來計算物體的邊緣

例如：提取邊緣，從物體的邊緣來推測它的周長和面積，同時基於邊緣的資訊，用影象處理中的哈弗變換，提取物體的形狀/曲線，通過灰度共生矩陣[灰的不一樣+01矩陣]來表現物體的粗糙程度。

機器學習的重點不是研究如何提取特徵，而是假設在特徵已經提取好的前提下，如何構造演算法獲得更好的效能。

對於機器而言，提取了好的特徵，通過也能獲得不錯的效能。如果說提取的特徵很差，無法反應出訓練樣本的內在規律，不可能獲得好的效能。

為什麼不重點研究提取特徵：

不同的任務提取特徵的方式不同。

例如：影象、語音、三維點這些媒質的物理屬性各不相同。同時機器學習的任務也各不相同。

不同媒質不同任務=>提取特徵的方式千變萬化

第二步：特徵提取結果

特徵選擇：

這個時候要通過影象來代表各個物體的在同一比較條件（特徵）下的區別。

然後我們要選擇什麼是主要的區別特徵。這裡要求這個資料差明顯。

選擇其中你認為很重要的點（特徵）來構建機器學習系統。

如何基於這兩個特徵構建演算法：

①支援向量機

（支援向量機的三種核心=>）

線性核心

多項式核

高斯徑向基函式核

關鍵一步：訓練結果

前提：在這裡是提取的兩個特徵，才有二維圖和乙個橫座標和乙個縱座標。

將物體畫在一張二維的圖上，橫座標是乙個特徵，縱座標是乙個特徵，然後將每個特徵分別歸一化到±1之間。

這個兩個特徵組成的特徵平面叫做特徵空間。在這裡有兩個特徵就是二維的，如果採用了多個特徵，那麼特徵空間構成的維度可以高於二維。

然後利用前面講到的三種不同演算法，機器或者人在這個滿足需求問題的特徵空間下畫出了一條線。

不同的機器學習演算法會畫出不同的線，一旦畫出這條線，機器學習的過程就已經完成了。

深度學習：特徵空間往往是幾萬維或者幾十萬維。

維度和標準

對於二維人們能夠很快速的掌握規律並運用規律。

一旦維度增加，就很難看清規律了。

維度：人眼對於超過三維的世界缺乏想象力。而機器在處理高維的資料中有起手的優勢與效能。遠遠超越了人類對高維世界的想象。

標準：不同的機器學習演算法會畫出不同的線，對某一區域的劃分是不一樣的。

然後就會衍生出乙個問題：哪個機器學習的演算法更好呢？

我們需要研究畫線的方法，確保每種畫線的方法適用於什麼樣的情況和場景，這個問題很困難。因為這個線是根據有限的訓練樣本畫的。它的目的是**新樣本的類別。我們無法窮盡所有的新樣本。我們不能得出乙個絕對意義的好與壞的標準。

如何針對不同的應用場景選擇合適的機器學習演算法，甚至構造新的機器學習演算法解決目前無法解決的應用場景。

3種機器學習演算法訓練庫準確率：（滿分：100；你信嗎？）

rbf核心：95

執行緒核：97

多項式核：95

然後我們就可以發現線性核的準確率高。

測試結果影象

測試，然後看影象，再看結果怎麼樣

總結

1.機器學習演算法的過程：

特徵提取、特徵選擇=>不同的演算法對特徵空間做不同的劃分=>不同的結果

【重點】2.研究不同應用場景下應該採用哪種演算法

【更重點】3.研究新的機器學習演算法以便適應新的場景

機器學習 xgboost演算法過程推導

xgboost是boosting演算法的其中一種，該演算法思想就是不斷地新增樹，不斷地進行特徵來生長一棵樹，每次新增乙個樹，其實是學習乙個新函式，去擬合上次的殘差。具體的目標函式如下主要就是找到ft來優化這一目標函式，通過乙個簡單的例子來形象的理解該目標函式。例如是小明真實有100個糖果，現在...

滴滴演算法大賽演算法解決過程機器學習

按照前面文章的方法進行資料完全不使用poi，天氣，交通情況的資料，可以達到0.43的成績。不過如果想要獲得更好的成績，簡單的方法顯然無法滿足要求了。說可以使用gbdt的方法來進行資料所以，我們先來聊聊gbdt演算法的一些基礎知識。熵熵 entropy 指的是體系的混亂的程度，它在控制論概率論...

亂說 機器學習演算法的過程

機器學習 xgboost演算法過程推導

滴滴演算法大賽演算法解決過程 機器學習

滴滴演算法大賽演算法解決過程 機器學習

相關推薦

亂說機器學習演算法的過程

滴滴演算法大賽演算法解決過程機器學習

滴滴演算法大賽演算法解決過程機器學習