从围棋到游戏,DeepMind一个个虐人类高手但这款游戏AI从一群王者身上悟出了一些新东西
日前,NeurIPS 2022正式开幕。
作为世界上最负盛名的人工智能赛事之一,NeurIPS是每年年底计算机科学领域的关注焦点NeurIPS收到的论文代表了当今神经科学和人工智能研究的最高水平,也反映了行业趋势的变化
有趣的是,这位选手的研究似乎对游戏情有独钟。
例如,李菲菲的团队获得了基于《我的世界》游戏环境MineDojo的最佳数据集和基准论文奖依靠游戏的开放性,研究人员可以在MineDojo中通过各种类型的任务来训练智能体,从而让AI更加全能
但通过严格的录取率,另一篇同样被列入游戏领域的论文,可能与很多游戏玩家有关。
毕竟谁没玩过王者。
本文研究人员提出了一个基于MOBA游戏《王者荣耀》的测试环境嗯,目的其实和MineDojo差不多——训练AI
为什么MOBA游戏环境受到青睐。
自DeepMind推出AlphaGo以来,游戏作为一个自由度和复杂度都很高的仿真环境,早已成为AI研究和实验的重要选择。
可是,与能够不断从开放任务中学习的人类相比,在复杂度更低的游戏中训练的智能体无法概括其超出具体任务的能力简单来说,这些AI只会下棋或者玩古代雅达利游戏
为了开发更通用的AI,学术研究的重点逐渐从棋盘游戏转向更复杂的游戏,包括不完美信息游戏和策略游戏。
同时,正如李菲菲的团队在获奖论文中所说,如果要将代理推广到更多的任务,训练环境需要能够提供足够的任务。
有了AlphaGo及其衍生产品AlphaZero,已经下遍围棋世界的DeepMind很快就意识到了这一点。
2016年,DeepMind联手暴雪推出了基于星际争霸2的空间复杂度为10的1685次方的星际争霸2学习环境,为研究人员提供了代理的动作和奖励规范,以及与游戏引擎通信的开源Python接口。
而且中国还有一个资质很高的AI训练场—
作为一款知名的MOBA游戏,王者荣耀中玩家的动作状态空间高达10的2万次方,远远大于围棋等游戏,甚至超过了整个宇宙的原子总数。
和DeepMind一样,腾讯的AI Lab也和王者荣耀一起,共同开发了更适合AI研究的王者荣耀AI开放研究环境。
目前王者荣耀AI开放研究环境包括1v1战斗环境和基线算法模型,支持20个英雄镜像战斗任务和非镜像战斗任务。
具体来说,王者荣耀AI开放研究环境可以支持20×20=400个子任务,只考虑双方英雄的选择如果算上召唤师技能,就有40000个分任务
为了让人们更好地理解《王者荣耀AI开放研究环境》中智能体面临的普遍挑战,我们可以用文中的两个测试来验证:
先做一个行为树AI,等级是入门级的金相比之下,是由强化学习算法训练出来的agent
第一个实验,只允许丢西姆的故事和丢西姆的故事战斗,然后用训练好的RL挑战不同的英雄。
98轮测试后的结果如下图所示:
当对手英雄改变时,同样的训练策略表现急剧下降由于对手英雄的变化使得测试环境不同于训练环境,现有方法学习到的策略缺乏通用性
图1对手之间的概括挑战
在第二个实验中,仍然只允许丢西姆的故事和丢西姆的故事进行战斗,然后用训练好的RL模型控制其他英雄挑战丢西姆的故事。
98轮测试后的结果如下图所示:
当模型控制的目标从丢西姆的故事变成其他英雄时,同样的训练策略表现急剧下降因为目标英雄的变化,使得行动的意义与训练环境下的丢西姆故事有所不同
图2跨目标的泛化挑战
造成这个结果的原因很简单每个英雄都有自己独特的操作技巧单个训练代理拿到新英雄后,不知道怎么用,只能两眼一抹黑
人类玩家也差不多能在路中间乱杀的玩家,打野后不一定能打出好的KDA
不难看出,这其实又回到了我们一开始提出的问题在简单的环境中很难训练出一个万能的AI而复杂度高的MOBA游戏恰恰为测试模型的泛化能力提供了便利的环境
当然,游戏不能直接用来训练AI,于是一个专门优化的训练场应运而生。
因此,研究人员可以在星际争霸2和王者荣耀AI开放研究环境等学习环境中测试和训练自己的模型。
国内科研人员如何获取合适的平台资源。
DeepMind的发展离不开谷歌的强大李菲菲团队提出的MineDojo不仅利用了斯坦福这一顶级名校的资源,还得到了英伟达的大力支持
目前国内人工智能行业在基础设施方面还不够扎实,尤其是普通公司和高校,都面临着R&D资源短缺的问题。
为了让更多的研究人员参与进来,腾讯于今年11月21日正式向公众开放了王者荣耀AI开放研究环境。
值得一提的是,为了更好地支持学者和算法开发者的研究,启迪平台不仅封装了王者荣耀AI开放研究环境的可用性,还提供了标准代码和训练框架。
接下来,我们来浅显一下如何在启迪平台上开始一个AI训练项目!
既然要让AI玩王者荣耀,首先要做的就是把用来操控英雄的代理做出来。
这听起来复杂吗但是,在王者荣耀AI开放研究环境中,这个其实很简单
首先,启动gamecore服务器:
cdgamecoregamecore—server . exeserver—server—address:23432
安装hok_env软件包:
并运行测试脚本:
cdhok _ env/hok _ env/hok/unit _ test/pythontest _ env . py
现在,可以导入hok,调用hok。HoK1v1.load_game创建环境:
importhokenv=HoK1v1.load_game))
然后,通过重置环境,我们从代理那里获得了第一个观察结果:
obs,reward,done,infos=env.reset
Obs是描述代理对环境的观察的NumPy数组列表。
奖励是一个浮点标量列表,描述了从环境中获得的即时奖励。
Done是描述游戏状态的布尔列表。
infovariable是一个字典的元组,它的长度是代理的数量。
然后在环境中执行操作,直到时间用完或代理被终止。
这里,只需使用env.step方法。
done = false whilenotdone:action = env . get _ random _ actionobs,reward,done,state=env.step(action)
和星际争霸2学习环境一样,在王者荣耀AI开放研究环境中,也可以使用可视化工具查看代理的回放。
至此,您的第一个代理已经创建完毕。
接下来可以拉她/他进行各种训练!
说到这里,我想大家不难发现,《王者荣耀AI开放研究环境》不仅仅是一个可以训练AI的环境,而是通过熟悉的操作和丰富的文档,让整个过程变得通俗易懂。
这样可以让更多有志于进入AI领域的人轻松入门。
游戏+AI,还有哪些可能性。
看到这里,其实还有一个问题没有解答——腾讯启迪平台,作为一个企业主导的研究平台,为什么要大范围开放。
今年8月,成都人工智能产业生态联盟联合智库于谦顾问,共同发布了国内首份游戏AI报告从报告中不难看出,游戏是推动人工智能发展的重点之一具体来说,游戏可以从三个方面提升AI的落地应用
首先,游戏是AI绝佳的训练和试验场。
迭代快:游戏可以自由交互和试错,不需要任何实际成本同时有明显的奖励机制,可以充分展示算法的有效性
任务丰富:游戏种类繁多,难度和复杂程度也多种多样人工智能必须采用复杂的策略来应对它们征服不同类型的游戏体现了算法水平的提升
清晰的成败标准:人工智能的能力是通过游戏分数来标定的,便于人工智能的进一步优化。
其次,游戏可以训练AI的不同能力,拉不同的应用。
比如棋牌游戏训练AI序列决策,获得长时推演能力,游戏式训练AI动态适应,获得适应情境的能力,实时策略游戏训练AI的机器记忆能力,长期规划能力,多智能体协作能力和动作连贯性。
此外,游戏可以打破环境限制,促进决策智能化。
例如,游戏可以促进虚拟仿真实时渲染和虚拟仿真信息的同步,升级虚拟仿真交互终端。
启迪平台依托腾讯AI实验室和王者荣耀在算法,算力,复杂场景等方面的优势开放后可以搭建游戏与AI开发的有效合作桥梁,链接高校学科建设,竞赛组织,行业人才孵化当人才储备充足的时候,科研的进步和商业应用的落地就会如雨后春笋般涌现
这两年,启迪平台在产学研方面的布局有了很多举措:举办了启迪多智能体强化学习大赛,吸引了包括清北这样的TOP2高校在内的顶尖高校团队,成立了高校科教联合体,北大信息科技学院游戏AI中的选修课算法比较热门。课后作业是在王者荣耀1V1的环境下做实验...
展望未来,我们可以期待,这些借助启迪平台走出去的人才,将辐射到AI产业的各个领域,实现平台上下游生态的全面开花。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
Yinlu银鹭所属公司:厦门银鹭集团有限公司法定代表人:陈清水电...
可比克copico所属公司:福建达利食品集团有限公司法定代表人:...
Gulong古龙所属公司:厦门古龙食品有限公司法定代表人:张兴松...
Anjoy安井所属公司:福建安井食品股份有限公司法定代表人:刘鸣...
qinqin亲亲所属公司:福建亲亲股份有限公司法定代表人:许清流...
杭州娃哈哈集团有限公司成立于1987年,前身为杭州市上城区校办企...