谷歌DeepMind AI击败星际争霸2职业10-1
今天在“计算机打败人类的东西计算机无法击败人类”新闻:谷歌Deepmind在他们自己的游戏中击败了星际争霸2的职业选手。“AlphaStar”昨晚在一场直播中亮相,在一场围绕与顶级星际争霸职业选手Grzegorz“MaNa”Komincz和Dario“TLO”Wünsch的比赛中展开。AlphaStar赢得的所有游戏实际上都是预先录制的,因为GOOGLE是COWARDS来打击我。
值得注意的是,人工智能正在播放与你或我现在可以启动的相同版本的星际争霸 - 不像OpenAI的Dota机器人,去年在游戏的削减版本中未能击败Dota 2职业玩家。这对于谷歌而言是2-0,他在2016年也击败了GO世界冠军。
尽管如此,重要的是要记住,当AI的一个超人优势被禁用时,它就会丢失。最后的现场比赛是针对AlphaStar的一个版本进行的,该版本无法缩小,一次查看比其人类竞争对手更多的地图。
这是DeepMind的AlphaStar概述,但记得通过皱眉的眉毛阅读那里的每一个主张。下面的流也是如此。
拿这个说法,例如:
“在针对TLO和MaNa的游戏中,AlphaStar的平均[每分钟动作]大约为280,大大低于专业玩家,尽管其行为可能更准确。这个较低的APM部分是因为AlphaStar使用重放开始训练,因此模仿了人类玩游戏的方式。此外,AlphaStar平均在观察和行动之间的延迟反应为350毫秒。“
这是一个至关重要且令人印象深刻的注意事项 - 人工智能没有通过利用超人的速度获胜。然而,关于它的行动更精确的一点点,对我来说是一件大事。Superhuman microplay破坏了AlphaStar通过思考他们的人类对手赢得胜利的想法。
我还联系了人工智能研究员Vanessa Volz,他提出了这个非常有效的观点:“在某些情况下(如Stalker和Drone过度生产),AlphaStar正在制定一个对专业人士不熟悉的策略,因此很难做出反应。因此,目前尚不清楚这部分人是否会超出思维,或者更令人惊讶于人类玩家。“
虽然记住这些限制很重要,但这仍然是一个很好的成就。我不会详细介绍神经网络如何围绕星际争霸的复杂性包装其电路,但这里有一个概述:
“AlphaStar的行为是由深度神经网络生成的,该网络接收来自原始游戏界面的输入数据(单位及其属性列表),并输出构成游戏内动作的一系列指令。
“AlphaStar还使用了一种新颖的多智能体学习算法。神经网络最初是由暴雪发布的匿名人类游戏的监督学习训练的。这使AlphaStar能够通过模仿学习星际争霸阶梯上玩家使用的基本微观和宏观策略。“
他们后来让AlphaStar在不同版本的游戏中玩游戏,其演变策略与人类相似,因为“奶酪战士”屈服于更加公平的方法。
这是否有视频游戏之外的应用程序?谷歌肯定这么认为:
“在很长的数据序列中进行复杂预测的基本问题出现在许多现实世界的挑战中,例如天气预报,气候建模,语言理解等等。我们对使用AlphaStar项目的学习和发展在这些领域取得重大进展的潜力感到非常兴奋。“
似是而非。绝对合情合理。