關於機器學習的一些概念

2021-07-09 09:39:51 字數 928 閱讀 1894

在連線主義學習中,把學習演算法分為三種型別,即非監督學習(unsupervised learning)、監督學習(supervised leaning)和強化學習。

強化學習:

所謂強化學習就是智慧型系統從環境到行為對映的學習,以使獎勵訊號(強化訊號)函式值最大,強化學習不同於連線主義學習中的監督學習,主要表現在教師訊號上,強化學習中由環境提供的強化訊號是對產生動作的好壞作一種評價(通常為標量訊號),而不是告訴強化學習系統rls(reinforcement learning system)如何去產生正確的動作。由於外部環境提供的資訊很少,rls必須靠自身的經歷進行學習。通過這種方式,rls在行動-評價的環境中獲得知識,改進行動方案以適應環境。

在2d中,類似的**在動作鏈那塊,首先工作產生器會產生很多動作(屬於我們自己創造的動作,類似監督學習),然後每乙個動作執行之後,會產生一種狀態,這種動作--狀態對就類似強化學習中行為和狀態。然後通過評估器(當然也是我們自己來寫)給每一種狀態進行評分,評分高的動作就會被執行。 雖然這一塊很像很像強化學習,但是我覺得還是有區別的。首先強化學習是乙個增量的過程,他會根據以前的「經驗」來判斷之後的行為。而2d中的評估是由我們人工寫好的,每一次的動作都是根據那個評估器來評估,不會考慮到以前的「經驗」。

監督學習:

監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。訓練資料報括一套訓練示例。在監督學習中,每個例項都是由乙個輸入物件(通常為向量)和乙個期望的輸出值(也稱為監督訊號)組成。監督學習演算法是分析該訓練資料,並產生乙個推斷的功能,其可以用於對映出新的例項。乙個最佳的方案將允許該演算法來正確地決定那些看不見的例項的類標籤。這就要求學習演算法是在一種「合理」的方式從一種從訓練資料到看不見的情況下形成。

我所理解的監督學習就是:提供標準答案的方式。主要應用是分類。

無監督學習:

這個學習比較屌,它和強化學習類似。不過我還是有點分不清倆者的區別

這篇文章寫得很好。

機器學習整理的一些概念

機器學習整理的一些概念 監管學習 所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和乙個類別,這些類別是事先確定的,那麼通過學習得到乙個分類器,這個分類器能夠對新出現的物件給出正確的分類。這樣的機器學習就被稱之為監督學習。熵是資訊不確定性的乙個測度,熵越大則表示資訊的不確定程度越高 舉個例子 明天...

機器學習的一些常用概念

1.引數模型 parametric models 與非引數模型 non parametric models 模型是否有固定數目的引數?若是則為引數模型,若引數數目隨著訓練資料集增大而增加則為非引數模型。一般而言,引數模型更快,然而卻對資料分布特性進行了更強的假設。非引數模型則更加靈活,但是對於大資料...

關於機器學習的一些感悟

1 通過機器的學習 大規模 資料庫 複雜的感測器和巧妙的演算法,來完成分散的任務 是人工智慧的最新定義。2 mit 實驗室的機械人專家 rodney brooks 提出,要以 具身智慧型 embodied intelligence 的方法來製造機械人。從這種方法出發,製造類人機械人不再是發展更複雜的...