七库下载手游攻略新游动态腾讯AILab探索强化学习技术在复杂环境中的应用潜力

腾讯AILab探索强化学习技术在复杂环境中的应用潜力

时间：2024-04-07 04:59:58 来源：网络整理浏览：0

围棋被征服后，多人在线战术竞技游戏（MOBA）成为检验前沿人工智能动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门MOBA手游《王者荣耀》，腾讯AI实验室正在努力探索强化学习技术在复杂环境下的应用潜力。这篇论文就是其中的成果之一，研究使用深度强化学习来预测智能体的游戏动作的方法。该论文已被AAAI-2020接收。

据介绍，该技术支持腾讯此前推出的战略协同AI“绝物”的1v1版本。该版本于今年8月在上海举办的国际数字互动娱乐展China Joy上首次亮相，目前已在超过2100款游戏和顶级业余游戏中使用。玩家体验测试胜率达到99.8%。

王者荣耀1v1游戏UI界面。主画面中，左上角A为小地图，右上角B为控制面板，左下角C.1为移动控制，右下角C.2为技能控制。实验表明，人工智能代理可以在许多不同类型的英雄上击败顶级职业选手。

此外，腾讯AI实验室告诉机器之心，本文提出的框架和算法未来将会开源，并且为了推动复杂模拟场景的进一步研究，腾讯还将提供《王者荣耀》游戏环境未来的社会。并且它还将以虚拟云的形式向社区提供计算资源。

腾讯AI实验室表示，短期内，AI+游戏的研究成果可以给游戏产业、电竞产业带来直接的推动和帮助，也可以应用于教育、医疗、农业等行业。从长远来看，AI+游戏的研究将推动AI的最终目标——通用人工智能问题的探索和发展。

除了本次研究提出的王者1v1代理外，腾讯AI Lab与王者荣耀还将联合推出“启蒙”AI+游戏开放平台。

《王者荣耀》将开放游戏数据、游戏核心集群（Game Core）和工具，腾讯AI Lab将开放强化学习和模仿学习的计算平台和算力，邀请高校和研究机构共同推动相关AI研究，并通过平台进行定期评估，让“启蒙”成为展示多智能体决策研究实力的平台。

目前，“开物”平台已在高校启动内测，预计2020年5月全面开放高校测试。测试环境上支持1v1、5v5等多种模式； 2020年12月，腾讯计划在《王者荣耀》中举办首次AI应用能力测试。想想是不是很有趣呢？

王者荣耀SOLO人类

为了评估智能体的能力，研究人员将模型部署到《王者荣耀》中，并与顶级职业选手进行比赛。竞争确保智能体对每个决策的反应时间与人类大致相同。

表3显示了AI与五位顶级职业选手的比赛结果。需要指出的是，这些职业选手都玩着自己擅长的英雄。可以看到人工智能在许多不同类型的英雄上击败了职业玩家。

表3：AI与职业选手使用不同类型英雄的比赛结果

绝乌挑选了每位人类玩家擅长的英雄，进行了1v1的五局三胜的比赛。使用的英雄有貂蝉、狄仁杰、露娜、韩信、花木兰。

当然，与五位顶级选手交手并不意味着特工就无敌，所以2019年，腾讯AI Lab举办了大规模的公开赛。如果玩家在1v1比赛中击败游戏AI，将获得价值4200元的智能手机，现场参与设置了门槛：挑战AI的玩家需要达到排名前1%排名（即天梯上达到《王者荣耀》等级）。在全部2100场比赛中，游戏AI只输了4次（其中国服第一玩家后羿赢了一场），更详细的战斗信息可以在文末的实验部分找到。

王者荣耀为什么这么难玩？

深度强化学习（DRL）已广泛用于学习代理在竞争环境中具有复杂动作决策能力的任务。在竞争环境中，许多现有的DRL研究都使用双智能体博弈作为测试平台，即一个智能体与另一个智能体（1v1）。对于雅达利、围棋等游戏来说，已经有很多优秀的解决方案，但是更复杂的推塔游戏呢？

本研究探讨了这种更复杂的 MOBA 1v1 游戏，这是一种需要高度复杂的行动决策的 RTS 游戏。与桌游、雅达利系列等1v1游戏相比，MOBA的游戏环境要复杂得多，AI的动作预测和决策难度也因此显着增加。

以MOBA手游《王者荣耀》中的1v1游戏为例，其涉及的状态和动作的量级分别可达10^600和10^18000，而围棋中对应的数字为10^170和10^ 360. 参见下表 1。

表1：围棋与MOBA 1v1游戏对比

此外，MOBA 1v1的游戏机制也很复杂。为了在游戏中获胜，智能体必须学会在部分可观察的环境中计划、攻击、防御、控制技能，以及诱导和欺骗对手。除了玩家和对手代理外，游戏中还有许多其他游戏单位，例如小兵和炮塔。这给目标选择带来了困难，需要一系列精心设计的决策和相应的行动执行。

此外，MOBA游戏中不同英雄的玩法也不同，因此需要一种健壮且统一的建模方法。还有一点也很重要：MOBA 1v1游戏缺乏用于监督学习的高质量人类游戏数据，因为玩家在玩1v1模式时通常只练习英雄，而主流MOBA游戏的正式比赛通常使用5v5模式。

需要强调的是，本文关注的是MOBA 1v1游戏而不是MOBA 5v5游戏，因为后者更关注所有智能体的团队合作策略而不是单个智能体的行动决策。考虑到这一点，MOBA 1v1游戏更适合研究游戏中复杂的动作决策问题。

这么难，AI Lab 该如何解决呢？

为了解决这些问题，腾讯AI Lab设计了深度强化学习框架，并探索了一些算法层面的创新，对MOBA 1v1游戏等多智能体竞技环境进行大规模高效的探索。本文设计的神经网络架构包括多模态输入的编码、动作相关性的解耦、探索剪枝机制和攻击注意机制，以考虑 MOBA 1v1 游戏中不断变化的游戏条件。

腾讯AI实验室表示，本文的贡献在于对需要高度复杂动作决策的MOBA 1v1游戏AI智能体的构建进行了全面系统的研究。

网络的优化使用多标签近端策略优化（PPO）目标，并提出了一种动作依赖性的解耦方法、一种用于目标选择的注意机制、一种用于高效探索的动作掩码以及一种学习方法。技能组合LSTM和PPO的改进版本，保证训练收敛——双剪辑PPO。

接下来我们就来看看这个强大的智能体在算法和效果上是什么样子的。

论文地址：

顶级经纪人是什么样的？

系统设计

考虑到复杂智能体的动作决策问题可能会引入高方差随机梯度，因此有必要采用更大的batch size来加速训练。因此，本文设计了一种高可扩展、低耦合的系统架构来构建数据并行性。具体来说，该架构包含四个模块：强化学习学习器（RL）、人工智能服务器（AI）、分发模块（）和内存池（Pool）。如图1所示。

图 1：系统设计概述

AI服务器实现AI模型与环境的交互。分配模块是样本采集、压缩和传输的工作站。内存池是一个数据存储模块，为强化学习学习器提供训练实例。这些模块相互独立，可以灵活配置，让研究人员可以专注于算法设计和环境逻辑。这样的系统设计也可以用于其他多智能体竞争问题。

算法设计

强化学习学习器中实现了演员神经网络，其目标是对 MOBA 1v1 游戏中的动作依赖关系进行建模。如图2所示。

图2：论文中实现的Actor网络

为了实现有效、高效的训练，本文提出了一系列创新的算法策略：

图3：论文提出的双剪辑PPO算法示意图。左边是标准PPO，右边是双夹PPO。

这些算法的更多细节和数学描述可以在原始论文中找到。

令人惊叹的实验结果

测试平台为热门MOBA游戏《王者荣耀》的1v1游戏模式。为了评估AI在现实世界中的表现，这个AI模型与《王者荣耀》的职业玩家和顶级业余人类玩家进行了大量的比赛。实验中AI模型的动作预测时间间隔为133ms，大约是业余高手玩家的反应时间。此外，论文方法还与现有研究中的基线方法进行了比较，包括游戏中内置的决策树方法和其他研究中的MTCS及其变体方法。该实验还使用 Elo 分数比较了模型的不同版本。

其中，腾讯AI Lab通过挑战顶尖职业选手，可以探索智能体行动决策能力的上限；通过挑战大量顶级业余选手，AI Lab可以评估智能体行动决策能力的鲁棒性。

2019年8月，王者荣耀1v1 AI公开亮相，与大量顶级业余玩家（Top 1%）进行了2100场比赛。 AI胜率达到惊人的99.81%，对五位英雄都保持绝对胜率。

表 4：AI 与不同顶级人类玩家的比赛结果。

基准比较

可以看到，用论文中的新方法训练的AI性能明显优于很多方法。

图4：击败相同基准对手的平均时间比较

训练过程中模型能力的进展

图5展示了训练过程中Elo分数的变化。这里是一个使用射手英雄“狄仁杰”的例子。可以观察到，Elo 分数随着训练时间的增加而增加，并在大约 80 小时后达到相对稳定的水平。此外，Elo的增长率与训练时间成反比。

图 5：训练期间 Elo 分数的变化

控制变量研究

为了了解论文方法中不同组件和设置的影响，受控变量的实验是必不可少的。表5展示了不同“狄仁杰”AI版本使用相同训练资源的实验结果。

表 5：控制变量实验