今晚,騰訊AI Lab線上分享:深度強化學習在王者榮耀虛擬環境構建AI
機器之心發布
機器之心編輯部

在機器之心最新的一期 AAAI 2020 線上分享中,我們邀請到了騰訊 AI Lab AI+游戲領域高級研究員葉德珩博士為大家介紹他們王者榮耀 AI 智能體研究。
游戲,一直是人工智能技術研究與落地的重要場景之一。過去幾年,DeepMind 圍棋項目 AlphaGo、星際爭霸 AI AlphaStar、OpenAI Dota2 項目 OpenAI Five 等游戲 AI 吸引了全球人工智能社區的關注。
而在國內,騰訊 AI Lab 也一直致力于 AI+游戲的研究。近日,基于騰訊天美工作室開發的熱門 MOBA 類手游《王者榮耀》,騰訊 AI Lab 公布了一項用深度強化學習來為智能體預測游戲動作研究成果,論文《Mastering Complex Control in MOBA Games with Deep Reinforcement Learning》已被 AAAI 2020 接收。
在機器之心最新的一期 AAAI 2020 線上分享中,我們邀請到了論文一作、騰訊 AI Lab AI+游戲領域高級研究員葉德珩博士為大家介紹他們的研究成果。

個人簡介:葉德珩(Deheng Ye)博士,現任騰訊 AI Lab AI+游戲領域高級研究員,主要工作方向是機器學習在 AI+游戲領域的技術研究與應用探索,涉及強化學習、模仿學習、領域數據挖掘、多智能體決策等。
葉德珩于 2016 年在新加坡南洋理工大學計算機科學系取得博士學位,期間的研究方向為軟件相關知識挖掘和代碼挖掘。他曾擔任 IJCAI,AAAI 等學術會議的程序委員會成員。
演講概要:多人在線戰術競技游戲(MOBA)已經成為檢驗前沿人工智能的動作決策和預測能力的重要平臺。基于騰訊天美工作室開發的熱門 MOBA 游戲《王者榮耀》,騰訊 AI Lab 正努力探索強化學習技術在復雜環境中的應用潛力。本文即是其中的一項成果,研究了使用深度強化學習來為智能體預測游戲動作的方法。
具體來說,在這篇論文中,我們研究 MOBA 1v1 游戲中 AI 智能體的復雜動作控制問題。這個問題有著比傳統 1v1 游戲,例如圍棋、將棋、Atari 等,更為復雜的狀態和動作空間,從而使得 AI 的策略學習十分困難。我們從系統和算法的層面,提出了一個強化學習框架來研究這個問題。我們開發了一個高可擴展低耦合的強化訓練系統;并提出了一系列的算法創新,包括一個 actor-critic 神經網絡,控制依賴的解耦,目標注意力機制,動作空間剪枝,dual-clip PPO 等。在王者榮耀真實游戲環境中的測試顯示,我們訓練的 AI 智能體能在不同類型的英雄上戰勝頂尖職業選手。
論文地址:https://arxiv.org/abs/1912.09729
時間:北京時間 2020 年 1 月 2 日 20:00-21:00
AAAI 2020 機器之心線上分享
2020 年 2 月 7 日-2 月 12 日,AAAI 2020 將于美國紐約舉辦。不久之前,大會官方公布了今年的論文收錄信息:收到 8800 篇提交論文,評審了 7737 篇,接收 1591 篇,接收率 20.6%。
為向讀者們分享更多的優質內容、促進學術交流,在 AAAI 2020 開幕之前,機器之心將選出數篇優質論文,邀請論文作者來做線上分享。整場分享包括兩個部分:論文解讀和互動答疑。
線上分享將在「AAAI 2020 交流群」中進行,加群方式:添加機器之心小助手(syncedai4),備注「AAAI」,邀請入群。入群后將會公布直播鏈接。
- 標簽:
- 編輯:王麗
- 相關文章