ICML 2021论文录用|启元世界星际指挥官击败职业冠军揭秘!

发布于 2021-05-11 23:01 ,所属分类:论文学习资料大全

2021年5月8日,机器学习领域的全球顶级会议 ICML 2021 (The Thirty-eighth International Conference on Machine Learning) 的论文录取结果出炉,启元世界自主研发的《星际争霸II》深度强化学习智能体(SCC)的相关论文,成功被ICML2021收录。


今年,ICML共收到了5513篇论文投稿,其中1184篇论文被接收,接受率为21.4%,为近5年最低。


文章地址https://arxiv.org/abs/2012.13169


背景

《星际争霸II》是有史以来最困难、最成功的即时战略游戏,蕴含了长期策略规划、非完全信息博弈、超大规模动作空间等复杂决策问题,其丰富多层次的游戏机制,对于人工智能研究来说,是一个非常接近现实世界的虚拟环境。自围棋被人工智能程序攻克以来,《星际争霸II》被视为人工智能的「下一个重大挑战」。


启元世界自2017年8月创立以来,便致力于《星际争霸II》的人工智能研究,经过三年自主研究和技术沉淀,凭借世界一流的算法创新和工程实践能力,最终仅用DeepMind AlphaStar 1%的算力,就达到了人类顶级职业选手水平,并在2020年6月21日以两个2:0的成绩击败了国内星际冠军选手李培楠(Time)和黄慧明(TooDming)。

SCC vs Time 精彩片段

方法

DeepMind在《星际争霸II》AlphaStar的研究取得了里程碑式的成功,是首次AI智能体达到人类宗师水平,然而需要耗费巨大的算力,众所周知深度强化学习的一大痛点是数据使用率。SCC的工作以提高样本学习效率为核心,做出了一系列创新性工作。


SCC智能体的训练分为模仿学习和强化学习两个阶段,模仿学习阶段首先基于人类数据学习得到一个初始策略,强化学习阶段以这个初始策略为起点,使用智能体联赛的方式继续训练提升,最终达到人类顶级职业选手水平。


SCC在有限计算资源下达到顶级职业选手水平的关键点主要有:

  • 提出了一个更紧凑、高效的策略神经网络结构,其中的关键部分包括group transformer, attention based pooling, conditioned concat attention等,整体参数量4900万(约为AlphaStar的35%);

  • 对模仿学习阶段使用的数据集大小和质量进行了详细的实验分析,在只用4千多局replay数据训练的情况下即可达到人类约白金段位的水平,最终采用10万局replay数据训练(约为AlphaStar的10%),达到了大约人类钻石段位水平;

  • 在模仿学习训练得到的策略网络基础上,使用Proximal Policy Optimization (PPO) 算法进一步强化提升,为了提高训练效率,对PPO算法进行了一定的改造,以利用异步采样和大规模分布式训练;

  • 使用智能体联赛训练方式,同时训练main agent, main exploiter和league exploiter三种类型的智能体,但是不同于AlphaStar一个种族只训练一个main agent,我们同时训练多个main agent以达到更丰富的策略多样性。同时提出了agent branching方法,大大提高main agent和main exploiter的学习效率,从而可以在更少的计算资源下训练更多的智能体。

结果

在模仿学习的基础上,经过近2个月的智能体联赛训练,3个main agent的强度不断提升,且保持了策略的多样性和鲁棒性,最终达到了顶级星际职业选手的水平。


下图展示了智能体在训练过程中Elo score的变化情况,可以看到智能体的强度一直保持着良好的上升趋势,预期如果继续训练,强度还会进一步提升。


  • 在训练过程中,获得强度提升的同时,SCC学习到数百种不同打法及应对策略,并保持了多风格和高拟人,这些是面对顶级职业选手多轮博弈获胜的关键。除此之外,SCC还在self-play阶段自我探索到一些创新打法,比如在与Time一盘对局过程中,使用了原创的维京流打法,充分发挥了维京战机的机动性和骚扰牵扯能力,被星际玩家戏称之为“启元流”,并在天梯上被广泛模仿使用。另外,虽然SCC在强化学习阶段主要针对特定种族和地图进行训练,然而模型依然在其它种族和地图上表现了很好的泛化能力;

  • 强化学习学习效率的提升,智能体的泛化能力、鲁棒性、多风格和高拟人也给实际应用带来了大量机会,启元世界在SCC研究中的相关技术已经在各行业积累了众多成功落地案例。

关于我们

启元世界(inspirai.com)成立于2017年8月,是全球领先的人工智能平台公司,并将最先进的人工智能技术应用于智能决策和数字娱乐领域。我们相信具备自我学习、自我决策、自我进化能力的智能体将改变世界,我们致力于创造伟大的智能体产品,并把智能体带入每个行业、每个家庭、每个人,提升产业效能和生活体验。


这里聚集了一批强化学习、推荐算法、大规模工程系统领域的技术大拿(来自阿里,网易,腾讯,Netflix,伯克利,香港科大等),成就了AI智能体击败中国星际争霸职业冠军的技术突破,并将智能体技术与产品大量运用于数字娱乐、公共科技、机器人等领域,服务了数十家500强企业和头部游戏公司。


目前启元世界在全球招募深度学习、强化学习、推荐、NLP等算法工程师、研究员、科学家,并为在校生提供实习岗位。欢迎有志于通用智能体产品技术创新的同学加入启元世界,请发简历至hr@inspirai.com


欢迎长按下方图片

或点击『』

进行简历投递

相关资源