[Day06]蒙地卡羅方法 | 就愛喝咖啡
![[Day06]蒙地卡羅方法](https://i.imgur.com/B2oemyF.jpg)
2020年9月6日—蒙地卡羅方法(MonteCarloMethod)...這時候蒙利卡羅方法就有用了,還記得大數法則(Lawoflargenumbers)嗎?只要抽樣的樣本數越多,就越能趨近期望值。
![[Day06]蒙地卡羅方法](https://i.imgur.com/B2oemyF.jpg)
我們不一定會知道環境的Dynamic,昨天的Taxi環境gym好心提供給我們,但如果像是更複雜的環境,比如自駕車、21點、圍棋等等。如果要將所有機率算出來,再算Value Function就有點困難。
蒙地卡羅方法(Monte Carlo Method)這時候蒙利卡羅方法就有用了,還記得大數法則(Law of large numbers)[1]嗎?只要抽樣的樣本數越多,就越能趨近期望值。
而我們說過強化學習中的Value Function,其實就是求全部Reward和的期望值:
根據大數法則,我們可以知道當我們的樣本數越多,就離真實值越近。這種用隨機採樣來估測問題的隨機性的方法,就稱為蒙地卡羅方法。
所以我們只要跑足夠多的Epsiode,得到足夠多的,再將這些平均(取期望值),就是的估計值。
為在時間點上的State的Value
演算法相當簡單,只要把所有Return平均當成期望值
Monte Carlo有first-visite與every-visite的版本,差別只在同個epsiode裡同個state要不要全部計算。 圖片標題上的Prediction為Policy Evaluation的另一種稱呼 Exploration and ExploitationMonte Carlo Method也遵循著GPI的流程
如果我們的Policy更新一直都是以更新的話,會造成我們的Agent停止探索更多的行為。 從例子上來看
我們把每個State的Value Function都初始化為0,Agent在一開始為隨機策略,並在第一個episode走了塗上紅色的路線,獲得Reward = ...
蒙特卡羅方法 | 就愛喝咖啡
蒙地卡羅方法 | 就愛喝咖啡
蒙地卡羅方法 | 就愛喝咖啡
什麼是蒙地卡羅模擬? | 就愛喝咖啡
漫談蒙地卡羅法的原理及其應用 | 就愛喝咖啡
蒙地卡羅模擬法是什麼? | 就愛喝咖啡
什麼是「蒙地卡羅方法」?它是一種數值方法,利用亂數取樣 ... | 就愛喝咖啡
[Day06]蒙地卡羅方法 | 就愛喝咖啡
![](https://i.imgur.com/B2oemyF.jpg)
蒙地卡羅咖啡館評價:插座()很多、限時 好吃程度 0 顆星
蒙地卡羅咖啡館評價好嗎?這邊幫大家整理位於88023澎湖縣馬公市民生路17-4號的蒙地卡羅咖啡館詳細資訊,像是Wifi、安靜度、...
![](https://i.imgur.com/B2oemyF.jpg)
蒙地卡羅評價:插座()很多、無限時 好吃程度 4 顆星
蒙地卡羅評價好嗎?這邊幫大家整理位於澎湖縣馬公市民生路17-4號的蒙地卡羅詳細資訊,像是Wifi、安靜度、甜點、插座及網友評...