什麼是監督學習非監督學習,強化學習

2021-09-08 07:16:19 字數 1590 閱讀 7367

機器學習按照學習方式的不同,分為很多的型別,主要的型別分為

什麼是監督學習?

利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練。

正如下圖中給出了好多鴨子的特徵那樣,指示出那些是鴨子哪些不是鴨子,然後讓計算機進行學習,計算機要通過學習才能具有識別各種事物和現象的能力。

用來進行學習的材料就是與被識別物件屬於同類的有限數量樣本,在本例子中指的是哪些選擇的鴨子。

除此之外,監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。

當再次給出乙個特徵的時候,就可以通過**模型進行判斷。

監督學習就是標明一些資料是對的,另一些資料是錯的,然後讓程式**,新的資料是對的還是錯的。所以說,有監督學習,必須是有標籤的。

什麼是無監督學習?

無監督學習,顧名思義,就是不對資料進行標明,讓機器自動去判斷,哪些資料比較像,歸到一類等等

無監督學習注重的是把特徵物件歸為類

什麼是半監督學習?

半監督學習是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。半監督學習使用大量的未標記資料,以及同時使用標記資料,來進行模式識別工作。

所給的資料有的是有標籤的,而有的是沒有標籤的。

通過下圖來進行舉例,如果比做人的話,半監督學習就類似於人的生活,一些人是有標籤的,比如商界的精英,總裁,一些人是無標籤的,在社會中無標籤的人佔

大多數,有標籤的精英佔少部分。

當乙個人進來的時候,就會對他的特徵進行判斷,也就是是否是精英進行判斷,是否需要歸為相同的類。

什麼是強化學習?

強化學習的核心是乙個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟體**使用強化學習演算法,通過以環境的反饋為基礎來確定理想行為。

強化學習演算法可以在必要時隨時間保持適應環境,以便長期獲得最大的回報。比如乙個通過強化學習來學習行走的機械人將通過嘗試不同的方法獲得有關這些方式成功的反饋,然後進行自我的調整直到達到行走的目標。大步伐會讓機械人摔倒,通過調整步距來判斷這是否是保持直立的原因,通過不同的變化持續學習,最終能夠行走。

以上說明,獎勵是保持直立,懲罰就是摔倒,機械人基於對其動作的反饋資訊進而優化並強化。

強化學習需要大量的資料。

比如在超級瑪麗這一款遊戲中,水道工通過環境的不斷地變化,通過吃蘑菇進行不斷地強化自己完善自己,這個過程就可以模擬如強化學習

監督學習 無監督學習 半監督學習 強化學習

目錄 監督學習 非監督學習 半監督學習 強化學習 懶散學習法 積極學習法 1 訓練資料有標柱類別 2 指根據訓練資料學習乙個模型,然後能對後來的輸入做 3 輸入變數和輸出變數可以是連續的,也可以是離散的。若輸入變數和輸出變數均為連續變數,則稱為回歸 輸出變數為有限個離散變數,則稱為分類。4 必須要有...

監督學習 無監督學習 強化學習

學習的種類分為監督學習 無監督學習 強化學習等,我們將學生比作計算機,老師比作周圍的環境 資料 監督學習 對於有標籤的資料進行學習,目的是能夠正確判斷無標籤的資料。通俗的講,老師教授學生知識,並告知學習過程中的對與錯,讓學生可以從所學知識的經驗和技能中對沒有學過的問題進行正確回答,這就是監督學習,用...

監督學習 非監督學習 半監督學習(主動學習)

統計學習通常包括監督學習 非監督學習 半監督學習以及強化學習,在機器學習的領域中前三種研究的比較多的,也是運用的比較廣泛的技術。監督學習的任務是學習乙個模型,使模型對給定的任意的乙個輸入,對其都可以對映出乙個 結果。這裡模型就相當於我們數學中乙個函式,輸入就相當於我們數學中的x,而 的結果就相當於數...