Facebook 成功打破纸牌游戏 Hanabi 的 AI 系统得分纪录
▼
据外媒 Venture Beat报道,Facebook 人工智慧研究院(Facebook AI Research,FAIR)称,他们推出了一个与纸牌游戏 Hanabi 相关的最新 AI 计划。AI 系统得分是 24.61 分(满分为 25 分),而之前最好的系统得分是 23.92 分。
今年 2 月,来自 Google、DeepMind、卡内基美隆大学和牛津大学的研究人员提出 Hanabi 基准,并提出更多人工智慧可玩这个游戏,以实现“人工智慧研究的新挑战”。参与计划的研究人员认为,弄清楚怎样玩好 Hanabi,这对人工智慧来说可能是重大进步,并有助于在聊天和自动驾驶等应用场景与人类更流畅互动。
与国际象棋或围棋这些 AI 挑战人类的其他游戏不同,Hanabi 是合作游戏,参与者可共同努力,朝着共同目标努力。游戏最大特点在于,牌面是向着别人,玩家看不见自己的牌,但其他人都看得见。大家的目标是下牌到桌面让 5 种颜色的牌都从 1 到 5 照顺序排出来。
曾经发表相关论文的牛津大学研究员 Jakob Foerster 说,“Hanabi 是关于沟通和合作的游戏,人工智慧目前还没有深入这类游戏领域”。
“其中一件非常令人兴奋的事是,我们观察到的改进,与透过深度强化学习观察到的改进,是完全正相关:你可以在任何策略上加上这个,效果会更强大。”Facebook AI 研究员 Noam Brown 在电话采访这样告诉 VentureBeat。“我们看到的结果远远超出我们或其他研究人员的预期。实际上,我们从搜寻获得的好处,要强于过去所有深度强化学习演算法所获得的好处。”
据了解, 这次 Facebook 的 Hanabi AI 计划借鉴Pluribus 一些搜寻技术,Pluribus 是 Facebook 今年稍早推出玩扑克的 AI,击败了一些人类冠军。
报道称,Facebook 的 AI 团队透过将搜寻技术与深度强化学习结合起来做到这次壮举。搜寻演算法把一个代理之外的所有代理执行商定的策略将问题转换为单个代理设置,这是一种称为“蓝图”(blueprint)的强化学习演算法。根据一篇题为“透过在合作部分可观察的游戏搜寻改进策略”论文,这个演算法允许搜寻代理“将其他代理的已知策略当作环境的一部分处理,并基于其他行为来维护对隐藏讯息的信念。”
(本文由 雷锋网 授权转载;首图来源:Facebook AI)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。