Part 1 Chapter1 機器學習基礎

2021-09-13 02:19:32 字數 1510 閱讀 5190

本章簡單介紹了機器學習的定義、用途及步驟。並簡單介紹了目前機器學習領域最常用的語言python的流行原因及優缺點,以及乙個在機器學習裡常用的庫:numpy。

機器學習,是以計算機技術為手段,運用統計學的知識,利用從感測器等資料來源裡傳來的海量資料,來對其進行分類、**及理解的一門學科。

我們在邁入網際網路時代後,從前困擾我們的資訊不足的問題已經基本解決。代替它的,是乙個和它完全相反的問題:我們能夠獲得的資訊太多了,並且有些資料看上去雜亂無章,毫無邏輯;或維度數超過三維,無法被人類直觀地感知。資訊的價值是無窮大的,無論是為了理解這個世界,還是為了從如泥沙般的資訊海浬挖掘出有效資訊,進而謀取利益,我們都需要找到一種方法來解決這個問題。於是,機器學習應運而生了,

機器學習的主要任務分為兩大類:監督學習及非監督學習。前者是指在執行演算法前,程式設計者已經明確了所用資料的分類資訊,只需要按照這一資訊對資料進行處理即可。其處理方法分為兩類:分類和回歸。分類通常使用標稱型資料(在有限的資料中取,且只存在是/否這種結果),在進行分類前,程式設計者往往挑選出數個最能夠區分資料的屬性(也稱之為特徵),並使用這些屬性進行分類。而回歸則不同,它使用的往往是連續型資料,其目的是為了進行**資料的走向。由於監督學習時,我們了解目標物的資訊,因此我們可以製造出一批符合預期效果的資料,並將其輸入到訓練好的演算法中,用結果與實際結果相比,來作為評價演算法優劣的標準。

與監督學習對應的,就是非監督學習。顧名思義,它就是在設計程式時,既不知道資料的類別資訊,也沒有給定的目標值。它利用選定的機器學習演算法,按照其給定規則,將資料分類為由類似的物件組成的多個類,並將這一過程稱之為聚類。

為了選擇合適的機器學習演算法,要根據是否能夠**目標變數的值、資料的型別、演算法的目的等因素,來進行抉擇。

一般來說,開發機器學習程式分為以下幾個步驟:

(1) 收集資料。

(2)準備輸入資料:對資料進行處理,以符合程式語言、演算法甚至計算機對資料的要求。(3)分析輸入資料:使用目測或降維為三維及以下維度資料的方法,來判斷資料的可靠性。

(4)訓練演算法:在監督學習中,程式設計者在這一步利用選好的演算法及前兩步得到的格式化資料,來抽取知識或資訊。

(5)測試演算法:使用一定的方法來評價演算法的準確性。

(6)使用演算法:將演算法落地為應用程式,並執行實際結果。

那麼為什麼通常選取python來作為機器學習的語言呢?

這主要是因為1)python的語法結構較清晰,可以執行偽**。它還可以很輕鬆地從網際網路上獲取資料——這正是我們目前最大地幾個資料來源之一。2)機器學習中要用到大量地矩陣操作,而python是目前在這方面綜合實力最優秀的語言。3)因為它的前兩個優點,使得它非常的熱門,因此有著龐大的人群來使用python,並用它設計了許多好用或強大的函式,因此使後來者避免了一部分重複造輪子的麻煩。

但python的缺點在於,它的運算效能不算高,但這個缺點可以通過使用python執行經過c編譯的檔案來解決。

最後本章簡單介紹了numpy的幾個函式:rand(),mat(),eye()函式。

讀完這一章後,我對機器學習的目的,型別、步驟以及python的基本特性有了初步的了解,接下來的目標就是熟悉python的各個庫以及常用的演算法吧。

《機器學習(周志華)》Chapter1 緒論

為了避免自己對知識遺忘過快,所以決定對自己學習機器學習的過程做一下記錄,也希望能幫到一些初學者!1 基本術語 非常重要 資料集 記錄每條資料,資料由屬性和屬性值組成,這樣的集合稱為資料集合 示例 樣本 特徵向量 每條記錄是關於乙個事件或物件 這裡是乙個西瓜 的描述 屬性 特徵 反映時間或物件在某方面...

機器學習 調參 Part1

3.2 隨機搜尋 3.3 貝葉斯調參 4 參考 調參即對模型的引數進行相應的調整,以期獲得更好的 效果!其中引數又分為 模型引數和模型超引數。即 調參調參,無非就是將模型的超引數調整到最佳的引數,使得模型 的效果最好。總的來說,調參方式有下面三種 3.1.1 原理 優點 缺點 3.1.2 pytho...

機器學習簡單介紹part1

一 基本分類及定義 機器學習分為 監督學習,無監督學習,強化學習 監督學習是指 利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練或有教師學習。監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。訓練資料報括一套訓練示例。在監督學習中,每個例項都是由乙個輸入物件 通...