Part 1 Chapter1 機器學習基礎

本章簡單介紹了機器學習的定義、用途及步驟。並簡單介紹了目前機器學習領域最常用的語言python的流行原因及優缺點，以及乙個在機器學習裡常用的庫：numpy。

機器學習,是以計算機技術為手段，運用統計學的知識，利用從感測器等資料來源裡傳來的海量資料，來對其進行分類、**及理解的一門學科。

我們在邁入網際網路時代後，從前困擾我們的資訊不足的問題已經基本解決。代替它的，是乙個和它完全相反的問題：我們能夠獲得的資訊太多了，並且有些資料看上去雜亂無章，毫無邏輯；或維度數超過三維，無法被人類直觀地感知。資訊的價值是無窮大的，無論是為了理解這個世界，還是為了從如泥沙般的資訊海浬挖掘出有效資訊，進而謀取利益，我們都需要找到一種方法來解決這個問題。於是，機器學習應運而生了，

機器學習的主要任務分為兩大類：監督學習及非監督學習。前者是指在執行演算法前，程式設計者已經明確了所用資料的分類資訊，只需要按照這一資訊對資料進行處理即可。其處理方法分為兩類：分類和回歸。分類通常使用標稱型資料(在有限的資料中取，且只存在是/否這種結果)，在進行分類前，程式設計者往往挑選出數個最能夠區分資料的屬性(也稱之為特徵)，並使用這些屬性進行分類。而回歸則不同，它使用的往往是連續型資料，其目的是為了進行**資料的走向。由於監督學習時，我們了解目標物的資訊，因此我們可以製造出一批符合預期效果的資料，並將其輸入到訓練好的演算法中，用結果與實際結果相比，來作為評價演算法優劣的標準。

與監督學習對應的，就是非監督學習。顧名思義，它就是在設計程式時，既不知道資料的類別資訊，也沒有給定的目標值。它利用選定的機器學習演算法，按照其給定規則，將資料分類為由類似的物件組成的多個類，並將這一過程稱之為聚類。

為了選擇合適的機器學習演算法，要根據是否能夠**目標變數的值、資料的型別、演算法的目的等因素，來進行抉擇。

一般來說，開發機器學習程式分為以下幾個步驟：

(1) 收集資料。

(2)準備輸入資料：對資料進行處理，以符合程式語言、演算法甚至計算機對資料的要求。(3)分析輸入資料：使用目測或降維為三維及以下維度資料的方法，來判斷資料的可靠性。

(4)訓練演算法：在監督學習中，程式設計者在這一步利用選好的演算法及前兩步得到的格式化資料，來抽取知識或資訊。

(5)測試演算法：使用一定的方法來評價演算法的準確性。

(6)使用演算法：將演算法落地為應用程式，並執行實際結果。

那麼為什麼通常選取python來作為機器學習的語言呢？

這主要是因為1)python的語法結構較清晰，可以執行偽**。它還可以很輕鬆地從網際網路上獲取資料——這正是我們目前最大地幾個資料來源之一。2)機器學習中要用到大量地矩陣操作，而python是目前在這方面綜合實力最優秀的語言。3)因為它的前兩個優點，使得它非常的熱門，因此有著龐大的人群來使用python，並用它設計了許多好用或強大的函式，因此使後來者避免了一部分重複造輪子的麻煩。

但python的缺點在於，它的運算效能不算高，但這個缺點可以通過使用python執行經過c編譯的檔案來解決。

最後本章簡單介紹了numpy的幾個函式：rand()，mat()，eye()函式。

讀完這一章後，我對機器學習的目的，型別、步驟以及python的基本特性有了初步的了解，接下來的目標就是熟悉python的各個庫以及常用的演算法吧。

Part 1 Chapter1 機器學習基礎

《機器學習（周志華）》Chapter1 緒論

機器學習調參 Part1

機器學習簡單介紹part1

Part 1 Chapter1 機器學習基礎

《機器學習（周志華）》Chapter1 緒論

機器學習 調參 Part1

機器學習簡單介紹part1

相關推薦

機器學習調參 Part1