RL概念強行解釋,重點,我說的都是人話

2021-10-19 17:38:10 字數 456 閱讀 1693

1. policy

policy:策略,是agent的行為指南,是乙個從狀態(s)到行動(a)的對映,可以分為確定性策略(deterministic policy)和隨機性策略(stochastic policy),前者是指在某一特定狀態確定對應著某乙個行為a = π(s),後者是指在某一狀態下,對應不同行動有不同的概率,即π(a|s)=p[at = a | st = s ],可以根據實際情況來決定具體採用哪種策略。

2. 價值函式

價值函式(value function),又分為狀態價值函式(v)和行動價值函式(q),前者可用於環境model based的情況,後者可以用於環境model free的情況。價值函式(value function),又分為狀態價值函式(v)和行動價值函式(q),前者可用於環境model based的情況,後者可以用於環境model free的情況

spark概念解釋

梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。當spark讀取這些檔案作為輸入時,會根據具體資...

解釋閘道器的概念

在採用不同體系結構或協議的網路之間進行互通時,用於提供協議轉換,路由選擇,資料交換等網路相容功能的設施。閘道器 gateway 又稱網間聯結器,協議轉換器。閘道器在傳輸層上實現網路互連,是最複雜的網路互聯裝置,僅用於兩個高層協議不同的網路互聯。閘道器既可以用於廣域網互聯,也可以用於區域網互連。閘道器...

解釋SAR INSAR DINSAR的概念

解釋sar insar dinsar的概念及工作原理。合成孔徑雷達技術是干涉雷達和差分干涉雷達技術的基礎,而干涉雷達和差分干涉雷達技術則是合成孔徑雷達技術的應用延伸和擴充套件。干涉雷達測量技術 insar 是以同一地區的兩張sar影象為基本處理資料,通過求取兩幅sar影象的相位差,獲取干涉影象,然後...