杨思敏1一5集国语版在线播放,亚洲中文有码字幕青青,中文字幕乱码一区av久久不卡,伊人情人网综合,中文字幕日韩人妻在线视频

首頁 ? 培訓(xùn)班 ? 2023.6.29-30|迷宮尋寶，寓教于樂：Python強化學(xué)習(xí)算法與應(yīng)用案例實踐培訓(xùn)班

2023.6.29-30|迷宮尋寶，寓教于樂：Python強化學(xué)習(xí)算法與應(yīng)用案例實踐培訓(xùn)班

2年前發(fā)布在 培訓(xùn)班

2023.6.29-30|迷宮尋寶，寓教于樂：Python強化學(xué)習(xí)算法與應(yīng)用案例實踐培訓(xùn)班-肽度TIMEDOO

強化學(xué)習(xí)是近年來在人工智能技術(shù)中較高的一種研究方法，是一種接近人類及動物在大自然中所表現(xiàn)出的學(xué)習(xí)方式，通過人們不斷實踐和總結(jié)，形成了強化學(xué)習(xí)這一人工智能研究方法。

隨著深度學(xué)習(xí)技術(shù)的流行，深度學(xué)習(xí)中的一些主流技術(shù)，如深度卷積神經(jīng)網(wǎng)絡(luò)、序列建模、記憶管理等與強化學(xué)習(xí)在許多應(yīng)用場景上出現(xiàn)了結(jié)合點，例如使用DQN實現(xiàn)AI自動玩FlappyBird。強化學(xué)習(xí)技術(shù)目前仍面臨訓(xùn)練環(huán)境與計算能力的瓶頸，相信隨著科技的進(jìn)一步發(fā)展，在未來十年它一定會成為人工智能領(lǐng)域的核心技術(shù)之一。本課程通過理論與案例實踐相結(jié)合的方法，讓學(xué)習(xí)者可以從最專業(yè)的角度來接觸強化學(xué)習(xí)，學(xué)會使用這種先進(jìn)的人工智能技術(shù)來應(yīng)用于實際工作和學(xué)習(xí)中。

主辦單位：北京市計算中心有限公司

支持單位：

肽度TIMEDOO

舉辦地：北京市海淀區(qū)豐賢中路7號北科產(chǎn)業(yè)3號樓

課程安排：2023年6月29-30日（周四-周五）??上午9:30-11:30??下午13:30-17:00

日期	主題	內(nèi)容	案例實踐
第一天上午	Python入門	1、Python基礎(chǔ)	(1)Python下載 (2)Gym虛擬環(huán)境配置 (3)使用Gym搭建網(wǎng)格環(huán)境
第一天上午	強化學(xué)習(xí)入門	2、強化學(xué)習(xí)基本概念 3、強化學(xué)習(xí)與其他機器學(xué)習(xí)的關(guān)系 4、Gym實驗環(huán)境基礎(chǔ)知識	(1)Python下載 (2)Gym虛擬環(huán)境配置 (3)使用Gym搭建網(wǎng)格環(huán)境
第一天下午	強化學(xué)習(xí)算法入門	5、馬爾可夫決策過程 6、動態(tài)規(guī)劃 7、蒙特卡洛方法 8、時序差分	(4)使用策略迭代方法求解迷宮尋寶問題 (5)使用值迭代方法求解迷宮尋寶問題 (6)蒙特卡洛模擬Monty Hall(娛樂節(jié)目抽獎游戲) (7)SARSA時序差分算法訓(xùn)練 CartPole (8)Q-Learning算法求解復(fù)雜陷阱迷宮尋寶問題
第二天上午	強化學(xué)習(xí)算法進(jìn)階	9、值函數(shù)逼近(DQN算法) 10、隨機策略梯度(REINFORCE算法） 11、確定性策略梯度(DDPG算法） 12、AC算法及變種	(9)DQN實現(xiàn)“CartPole”平衡控制 (10)使用DQN實現(xiàn)AI自動玩FlappyBird (11)REINFORCE訓(xùn)練小車爬坡 (12)DDPG算法訓(xùn)練機械臂抓取方塊 (13)AC算法實現(xiàn)“CartPole”平衡控制 (14)Mario-Ai:使用A3C算法實現(xiàn)Mario
第二天下午	強化學(xué)習(xí)綜合實踐	13、博弈強化學(xué)習(xí) 14、蒙特卡洛樹搜索 15、AlphaGo基本原理 16、AlphaGo?Zero原理	(15)PyGame實現(xiàn)“五子棋”游戲環(huán)境 (16)蒙特卡洛樹搜索(MCTS)代碼實現(xiàn) (17)AlphaGo Zero算法實現(xiàn)人機對弈