AI“谈判专家”来了！可制定策略，“忽悠”人类玩家

AI资讯 1天前 0

▼

你好，这里是AI资源网，继续跟你分享人工智能相关的新鲜见闻。

今天分享的是AI在谈判策略方面的进展，主角是来自Facebook母公司Meta开发的一个叫“西塞罗”的AI模型，它在一款由多名真人玩家参与的谈判策略战棋类游戏中，超过了大部分人的表现。

早在1997年深蓝在国际象棋比赛中击败加里卡斯帕罗夫之前，棋盘游戏就已经成为衡量人工智能成就的一个有用指标。

2016年，谷歌AlphaGo击败世界围棋冠军李世石，将此类AI带到一个新的高度。

此前，AI的成功主要体现在纯粹的对抗性环境中，如国际象棋、围棋和扑克。在这些环境中，与对手交流没有价值，AI可以不断和自己进行游戏来学习，即通过具有足够计算和模型能力的自我游戏能力来解决问题。

但这款游戏不同，过去被认为是人工智能难以克服的挑战，因为需要掌握理解其他玩家的动机和观点，并制定复杂的计划以自然语言与其他人类玩家完成协议，在过程中还需要不断调整策略，最终创建伙伴关系和联盟，才有可能胜利。

这款游戏叫《外交》，是一款在海外风靡了60多年的，主打谈判和策略的战棋类游戏。

游戏《外交》的画面（来自官网webdiplomacy.net）

游戏背景设定在一战前的欧洲，一般有4—7名玩家参与，他们各自扮演不同的欧洲地区英、法、德、意、奥匈、俄国和土耳其，拥有棋盘上的一部分“领土”和“兵力”。

在每一回合游戏开始之前，玩家之间可以通过公开或者私下谈判，讨论是否形成联盟、宣战，或是设定一些外交底线。在商量完策略之后，游戏回合正式开始，玩家们既可以按照之前承诺的方式调动兵力，也可以选择欺骗和背叛。

在多个回合之后，谁能够在棋盘上获得超过一半的“领土”，谁就胜出。

可以看出，游戏规则本身并不复杂。真正复杂的，是参与游戏的真人玩家之间，通过对话，探讨行动策略，取得相互信任，乃至达成协议的过程。

这种跟真人谈判的工作，在过去被认为是最不适合AI从事的工作之一。

这里面的难点主要有三个。

首先是要求AI能够根据游戏进展，制定出符合玩家共同利益，且让自己获胜的策略。

其次，要运用恰当的语言表述，取得其他玩家的信任，使得其他玩家按照AI指定的策略来行动。

第三，当然是不能被别的玩家发现自己只是一个算法。

那么，这个叫“西塞罗”的算法是怎么做到的呢？

这个算法主要包含两部分：策略推理（类似于AlphaGo）和自然语言处理（类似于GPT-3）。

先说策略推理部分。在每一回合开始之前，“西塞罗”会运用“策略推理”模块，根据棋盘上各个玩家的当前“兵力分配”，计算出一套可以取胜的行动策略。进一步地，“西塞罗”还会把这套策略实施之后其他玩家可能的反应也纳入考虑。经过反复迭代之后，最终形成一个最有可能获胜，而且容易获得其他玩家支持的行动策略。确定策略之后，接下来就是说服工作。

“西塞罗”会将“策略推理”模块得出的结论输入到“自然语言处理”模块中，这个模块负责将冷冰冰的行动策略，转化成容易被真人玩家听懂并且信任的谈判语言。

这个过程可不仅仅是把AI的策略翻译成顺畅的人话这么简单。AI的表达还要考虑到之前跟这个玩家已经达成了哪些共识、有哪些合作或者背叛记录等等，根据对方的行事风格，来做出更有针对性的谈判。

“西塞罗”在游戏中与人类对话

在经过4万多盘游戏数据的训练之后，“西塞罗”在今年的8—10月被“悄悄”放到了线上平台去参与游戏。

进行中的游戏界面

在《外交》游戏的40场匿名在线比赛中，“西塞罗”的平均得分是人类选手的两倍多，在72小时的比赛中，它发送了5277条信息，在不止一场比赛中排名前10%，最终的成绩超过了90%的真人玩家。

当然，Meta公司研发“西塞罗”，绝不仅仅只是为了让它成为游戏高手。

这项研究的意义在于，第一次把策略推理和自然语言处理这两个相距很远的AI领域进行了有效整合，让AI能够进行“有目的的沟通”。

我们以往听到的一些AI语言模型，比如AI写作、AI聊天等等，这些算法生成的对话其实都没有明确的目的性。只是根据大量过去的对话记录，猜出来下一步大概应该说啥。

而这项研究中的“西塞罗”，是有一个明确的说服目标，所有对话内容，都需要围绕这个目标而生成。这种带有目的和策略的对话机器人，就比过去那种漫无目的的闲聊，有了更多的应用价值。

比如，在AI客服领域，这种对话模型就可以更好地针对客户遇到的问题，制订符合客户利益的策略，并且把客户导向具体的行动。

再比如，在游戏设计领域，这种对话模型也可以让游戏里面的NPC根据玩家过去的经历生成对话，让玩家每一次玩游戏的时候，都能体验不同的剧情。

但此项技术也被视作双刃剑。它可以用来操纵人类，通过模仿人类并根据上下文发言，以危险的方式欺骗人类。对此，Meta希望研究人员能够“以负责任的方式”构建代码，并表示已采取步骤检测和删除“这个新领域中的有害信息”，这可能是指“西塞罗”从摄入的互联网文本中学习到的对话，这对于大型语言模型来说是一个风险。

目前Meta的“西塞罗”研究发表在《自然》杂志上，标题为“通过将语言模型与战略推理相结合，在《外交》游戏中进行人类水平的游戏”。

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 人工智能

相关文章