北理工 MOOC 模式識別系統基本概念

最近在 mooc 上學習北理工的模式識別課程，這裡記錄下學習筆記。

在特徵空間中，每個樣本都可以看做是由一組特徵來表達的乙個點，通過抽取樣本的特徵，並轉換成數學表達，就將原事物（樣本）的識別問題轉換為：對該樣本在特徵空間中對應點的進行分類。

模式識別技術的核心其實是乙個分類器，要實現乙個好的分類器，關鍵是確定乙個好的分類決策規則，即設計乙個好的分類器模型或模式識別演算法，以及確定要抽取的用於分類的樣本特徵。

我們經常聽到的訓練，學習的意思是：在已經確定分類器模型和樣本特徵的前提下，通過演算法來處理大量訓練資料來找到最優引數的過程。

那什麼是有監督學習呢？有監督的意思是存在人工干預，比如人為的給乙個樣本加上小狗的標籤，另乙個樣本加上小貓的標籤，然後讓分類器分別在這兩個樣本上訓練，訓練完成後給定兩個樣本之一，分類器能夠識別樣本中是小狗還是小貓。

而無監督學習更好理解：就是把小貓和小狗 2 類樣本混在一起，不人為設定標籤，完全讓演算法自行分類，即無人工干預，而是自主地從資料代表的自然規律中學習類別劃分。

無監督學習相比有監督學習具有更高的智慧型水平，是未來模式識別發展的主要方向。

緊緻性：這個特性可以作為判斷樣本優劣性的乙個指標，緊緻性好的樣本，類內相似度遠大於類間相似，分類的裕量越大，錯誤率也越小。

比如：貓或狗的類內樣本很相似，但 2 個樣本之間相似度很低，因為貓和狗特徵相差比較大。

這是模式識別系統的框架，分類器的訓練和對應的數學演算法是整個框架的核心，下面分別簡單介紹下每個步驟。

模式採集的作用主要是將外部事物的各種資訊轉換為計算機能夠處理的資料值，常見的步驟有：採集感測器模擬訊號 -> a/d 轉換 -> 計算機能處理的數碼訊號。

最常見的就是計算機處理相機拍攝的 - 影象處理領域。

通常採集的感測器資料都會包含干擾和無用資料，預處理過程的作用就是通過濾波等方法來去除干擾等雜訊，並增強樣本有用的分類特徵。

通過模式採集和預處理後樣本的特徵數量很多，如果選用所有的樣本特徵用於分類，那麼演算法的複雜度會很高，效能也不一定好。因此，我們可以從大量的特徵中選擇對分類最有效的有限個特徵，即減少特徵的數量，就是特徵降維。

特徵降維主要有 2 種方法：

分類器的設計過程可以說是分類自主學習的過程，或者說對分類器進行訓練，常見的有 2 種學習方法，前面也提到過：

簡單來說：就是乙個完全自主，乙個需要人為干預。

分類決策是對待分類的樣本按照已經建立起來的分類決策規則進行分類，並且評估分類的結果。