2023.6.29-30|迷宮尋寶,寓教于樂:Python強化學(xué)習(xí)算法與應(yīng)用案例實踐培訓(xùn)班
強化學(xué)習(xí)是近年來在人工智能技術(shù)中較高的一種研究方法,是一種接近人類及動物在大自然中所表現(xiàn)出的學(xué)習(xí)方式,通過人們不斷實踐和總結(jié),形成了強化學(xué)習(xí)這一人工智能研究方法。
隨著深度學(xué)習(xí)技術(shù)的流行,深度學(xué)習(xí)中的一些主流技術(shù),如深度卷積神經(jīng)網(wǎng)絡(luò)、序列建模、記憶管理等與強化學(xué)習(xí)在許多應(yīng)用場景上出現(xiàn)了結(jié)合點,例如使用DQN實現(xiàn)AI自動玩FlappyBird。強化學(xué)習(xí)技術(shù)目前仍面臨訓(xùn)練環(huán)境與計算能力的瓶頸,相信隨著科技的進(jìn)一步發(fā)展,在未來十年它一定會成為人工智能領(lǐng)域的核心技術(shù)之一。本課程通過理論與案例實踐相結(jié)合的方法,讓學(xué)習(xí)者可以從最專業(yè)的角度來接觸強化學(xué)習(xí),學(xué)會使用這種先進(jìn)的人工智能技術(shù)來應(yīng)用于實際工作和學(xué)習(xí)中。
主辦單位:北京市計算中心有限公司
舉 辦 地:北京市海淀區(qū)豐賢中路7號北科產(chǎn)業(yè)3號樓
課程安排:2023年6月29-30日(周四-周五)??上午9:30-11:30??下午13:30-17:00
日期 | 主題 | 內(nèi)容 | 案例實踐 |
第一天
上午 |
Python入門 | 1、Python基礎(chǔ) | (1)Python下載
(2)Gym虛擬環(huán)境配置 (3)使用Gym搭建網(wǎng)格環(huán)境 |
強化學(xué)習(xí)入門 | 2、強化學(xué)習(xí)基本概念
3、強化學(xué)習(xí)與其他機器學(xué)習(xí)的關(guān)系 4、Gym實驗環(huán)境基礎(chǔ)知識 |
||
第一天
下午 |
強化學(xué)習(xí)算法入門 | 5、馬爾可夫決策過程
6、動態(tài)規(guī)劃 7、蒙特卡洛方法 8、時序差分 |
(4)使用策略迭代方法求解迷宮尋寶問題
(5)使用值迭代方法求解迷宮尋寶問題 (6)蒙特卡洛模擬Monty Hall(娛樂節(jié)目抽獎游戲) (7)SARSA時序差分算法訓(xùn)練 CartPole (8)Q-Learning算法求解復(fù)雜陷阱迷宮尋寶問題 |
第二天
上午 |
強化學(xué)習(xí)算法進(jìn)階 | 9、值函數(shù)逼近(DQN算法)
10、隨機策略梯度(REINFORCE算法) 11、確定性策略梯度(DDPG算法) 12、AC算法及變種 |
(9)DQN實現(xiàn)“CartPole”平衡控制
(10)使用DQN實現(xiàn)AI自動玩FlappyBird (11)REINFORCE訓(xùn)練小車爬坡 (12)DDPG算法訓(xùn)練機械臂抓取方塊 (13)AC算法實現(xiàn)“CartPole”平衡控制 (14)Mario-Ai:使用A3C算法實現(xiàn)Mario |
第二天
下午 |
強化學(xué)習(xí)綜合實踐 | 13、博弈強化學(xué)習(xí)
14、蒙特卡洛樹搜索 15、AlphaGo基本原理 16、AlphaGo?Zero原理 |
(15)PyGame實現(xiàn)“五子棋”游戲環(huán)境
(16)蒙特卡洛樹搜索(MCTS)代碼實現(xiàn) (17)AlphaGo Zero算法實現(xiàn)人機對弈 |
注:內(nèi)容以實際發(fā)生為準(zhǔn);若調(diào),會提前通知。
【報名費用】
【報名優(yōu)惠政策】
1、3人以上團(tuán)體報名每人可減少300元;
2、4+1團(tuán)報,可免費贈送一個名額;
3、上面優(yōu)惠政策不能同時享受,只能享受其中一種;
老學(xué)員參加及推薦學(xué)員參加均可額外優(yōu)惠200元。
【掃碼報名】
【咨詢請聯(lián)系】
李老師:vicolee2021(微信)
【注】開課前一周會發(fā)送郵件通知;若未接到郵件通知,請電話咨詢。


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。