關於AlphaGo的一些理解

2021-10-03 13:37:47 字數 421 閱讀 3781

深度模型加蒙特卡洛樹搜尋,不需要外界知識的模型

1.深度模型

動態規劃與強化學習的目標:

動態規劃與強化學習的不同點

強化學習的基本思路:

給你乙個環境,機械人會有乙個行動,如果行動好,會有獎勵,行動不好,會有懲罰,這樣,不斷與環境互動獲得反饋,來優化行動。

強化學習的基本框架的數學表達(馬爾科夫決策過程):

s代表狀態集合

a代表可採取的行動集合

r代表獎勵函式

t代表轉移函式(動態規劃問題中,t是已知的):

學習目標,策略函式:

圍棋強化模型的基本思想:

利用專家提供的資料進行模型訓練

在圍棋問題上,就是利用人類棋譜來訓練落子模型,模擬人類專家的落子策略

關於熵的一些理解

對於理工科學生來說,熵 並不是乙個陌生的名詞。在諸如 大學物理 熱力學 和 資訊理論 等課程中都會有所介紹。但同時 熵 又是乙個顯得有點神秘的概念,看不見也摸不著。我最早是在高中物理課中聽說的,大概是在介紹 熱力學第二定律 時提到的。熱力學第二定律的內容是 熱力學過程是不可逆的 孤立系統自發地朝著熱...

關於float的一些理解

float是否脫離文件流,乙個父元素不設定overflow的話,子元素float,就不會把父元素撐開,換句話說,他就不會有高度,但是做個demo 父元素overflow hidden 子元素前兩個float,第三個不float,結果是第三個沒有clear浮動的元素,跟float的元素出現在同乙個位置...

關於android layout的一些理解

1 wrap content view的尺寸根據它的內容確定 match parent view的尺寸盡量和它的parent view group一樣大 2 獲得view的位置 position getleft gettop getright getleft getwidth getwidth 3 ...