GPT-3 产生论文重现了图灵测试原始论文

AI与大数据 3小时前 0

▼

以 ChatGPT 为代表的文字产生 AI 兴起，促使许多研究人员追求比原始版更有挑战性的图灵测试。

图灵测试解决两个问题：“机器会思考吗？”如果会，“如何证明？”经典图灵测试是测试 AI 最棘手目标：如何欺骗不知情的人类？但随着语言模型越来越复杂，与 AI 如何欺骗人类相比，研究人员更关注“如何证明？”。

有观点认为，现代图灵测试应在科学环境证明语言模型的能力，而不是只看语言模型能否骗过或模仿人类。最近有项研究就重新审视经典图灵测试，并将图灵 1950 年论文内容当作提示语（prompt），使用 ChatGPT 产生成可信的论文版，评估语言理解和产生能力。使用 AI 写作辅助工具 Grammarly 定量评分后发现，ChatGPT 论文得分比图灵原始论文高 14%。有趣的是，此研究最后发表论文部分就是 GPT-3 写的。

然 ChatGPT 演算法是否真的印证图灵最初观点，这仍是个问号，尤其越来越擅长模仿人类语言的大型语言模型，很容易让人产生它们有“信念”、能“推理”的错觉，会阻碍我们以更可信安全的方式使用 AI 系统。

图灵测试的演变

1950 年版图灵测试是问答题，图灵论文模拟未来智慧计算机测试下图算术问题：34957＋70764＝？

▲ ChatGPT 问答序列，答案正确，问题来自图灵 1950 年论文。

这问题曾使当时最优秀语言模型如 GPT-2 失手。讽刺的是当时图灵论文（人类版）回答错误：（停顿约 30 秒才说答案）105621。即使有机器为了通过图灵测试故意犯错的可能性，5 分钟对话仍让审查人员相信，计算机 30% 以上时间是人为操控。

1950 年以来，图灵测试改善许多，包括 2014 年着名测试 Lovelace 2.0。Lovelace 2.0 标准是机器可在艺术、文学或任何类创造性飞跃创造有代表性的例子。

2014 年名为 Eugene Goostman 的聊天机器人模仿某 13 岁乌克兰男孩，成功骗过 33% 审查人员，认为是第一个通过图灵测试的机器。但批评者很快注意到预定义的问题和主题，以及仅使用键盘敲击的简短格式，代表此结果不可靠。

2018 年，Google CEO Sundar Pichai 用影片介绍最新 Duplex 智慧助理，成功打电话去美发沙龙预约，人们不知不觉中就与机器互动。虽然正式通过图灵测试可能需要多种形式，但 The Big Think 结论：“迄今还没有计算机明确通过图灵 AI 测试。”其他研究人员也重申所有问题是否值得探讨，特别考虑到大型语言模型于大量场景应用，如航空工程文本并没有将目标定为“制造飞行器要与鸽子完全一样，并骗过其他鸽子”。

ChatGPT 产生，更可信的图灵测试

PeopleTec 的研究，作者将图灵测试原始论文当成提示与，让 ChatGPT 重新产生更有可信性度的论文，并使用写作评估工具评估。

之前已有使用 GPT-3 模型早期版撰写和发表完全由机器人写的研究论文。辨识机器叙述对机器产生文本抱怨通常源于已知模型缺陷，如容易遗失上下文、退化为重复或胡言乱语、答案只是重复问题，以及被问倒时抄袭网络资料。

产生论文格式主要执行几个常见大型语言模型（Large Language Model，LLM ）任务，特别是文本摘要和使用图灵问题当提示语产生原始内容。另作者使用 Grammarly Pro 工具来评估产生内容，分析论文原创性、风格、清晰度和整体说服力等难以描述的特征。此更侧重图灵挑战后半部，不是语言模型如何欺骗人类，更是如何量化好文本产生。OpenAI 努力展示显着进步归结于它以提高人类生产力的方式改善机器衍生对话的能力。

作者首先用 Grammarly 评估图灵原始论文得出各项分数，然后使用图灵问题为提示语创造原始 GPT-3 内容，再复制这些分数。

研究使用三个文本为基准：

Turing Original，图灵 1950 年在 Mind 发表的论文。
Turing Summarization，2022 年〈Free Research Preview: ChatGPT optimized for dialog〉。
Turing Generative Prompt，与第二点相同，但使用图灵问题对话后产生。

每个文本块输出都可提供 Grammarly 指标数据，并设定基于受众：专家／形式：中性／领域：一般，应用多数语法规则和约定，有中等严格性。这样图灵测试其实也可验证欺骗性任务：机器（ChatGPT）可以骗过机器（Grammarly）吗？

▲ 大型语言模型和图灵论文评分指标。

图灵 1950 年原始论文提出图灵测试 37 个问题，有他思考机器的中心主题，还有提问实验模仿游戏的计算机问题。研究人员在 ChatGPT 对话方块，将论文大纲主题混合后摘录问题，提示 ChatGPT 重现原版论文内容。

ChatGPT 产生内容的可读性、正确性、清晰性等指标与图灵原始论文比较，结果如下图。

▲ 图灵 1950 年论文与 ChatGPT 产生论文各种任务比较结果。

清晰性（有点不清楚）、参与感（有点乏味）和资讯传达（略有偏差）等更主观的评分，四版都未能引起专家或普通读者共鸣。

第一个文本摘要挑战表明，ChatGPT 能掌握简短提示的意图，如将论文总结成十段，并提供 PDF 论文连结，不仅需要模型理解和遵循请求的摘要程度，还需要知道连结代表什么，并找到当参考或从标记化标题猜测。

OpenAI 称 GPT3 不会回答可能不属原始训练资料的内容，如“谁赢了 2022 年 11 月选举？”这种知识差距显示 ChatGPT 并不主动寻找连结，而是了解其他人之前的行为。

有趣的是，当同提示出现两次（唯一差别是提示工程和连结本身冒号后文本换行符号），ChatGPT 答案会大相迳庭。第一次是及格的学生论文总结图灵原始论文要点，第二次则将问题解释成前十段的每一段总结，而不是整篇论文总结。

最终结果显示，ChatGPT 产生论文整体内容可取得较高分数，但缺乏连贯性，尤其问题当成叙述提示被省略时。或许能下结论，这次与 ChatGPT 交流充分说明它能产生真正有创意的内容或思想飞跃的能力。

ChatGPT 拒绝承认通过图灵测试

GPT-3 产生内容时，有个重要筛检程式以消除固有偏见，ChatGPT 也设计成颇具道德正当性，被问到对某事物的看法时，ChatGPT 会拒绝给具体答案，只强调自己如何被创造的。

许多研究人员也认同，任何模型被问主观问题，都必须道德上声明自己只是机器，ChatGPT 严格遵守要求，且 OpenAI 微调 ChatGPT 各模型层后，目前 ChatGPT 被问它只是方程式还是图灵欺骗时，它会回答：“我模仿人的能力并不一定代表我与人思想、感觉或意识相同。我只是机器，我的行为是由受过训练的演算法和数据决定。”

图灵还提到人类清单记忆能力：“实际人类计算机真的记得必须做什么……构建指令表通常描述为‘程式设计’。”

就像越来越大的语言模型（>1 千亿）演变，改善也有内建的启发式或模型执行护栏，GPT-3 的 Instruct 系列展示直接回答问题的能力。ChatGPT 包括长期对话记忆，因此即便单 API 调用无法跨越叙述跳跃，但 API 仍可关注对话。

我们可测试有非人称代词（如 it）的对话，将上下文与单会话以前 API 调用一起进行，这易于掌握，用于 ChatGPT 的 API 记忆体，因为编码较长对话虽强大但昂贵。LLM 中 API 限制及费用影响，很长时间 token 权重的相关性通常每隔几段整体上下文衰减（GPT-3 的 2,048 个 token）。克服上下文限制可将 ChatGPT 与公开可用的前身区分。

第二代 Lovelace 2.0 测试提出创造性任务和细化执行任务的约束条件，然后专家会评估模型是否用确定方式解释，或输出是否符合有价值、新颖和令人惊讶等条件。与其叫程式“写短篇小说”，不如改进任务以展示特定长度、风格或主题。测试结合许多智慧理解，约束层试图限制 Google 搜寻内容和有关 AI 成功稀释或伪装原始来源的争论。

以下展示直接回答 Lovelace 2.0 测试挑战的短篇故事范例：叙述男孩爱上女孩，外星人绑架男孩，女孩在会说话的猫帮助下拯救世界。

自 2014 年后，文本和图像产生限制，高品质提示工程使用更司空见惯，通常效果越好，样式、地点或时间说明或限定词越详细。构建提示本身是当今 AI 获良好输出的最具创造性面向。人们可透过 ChatGPT 强制进行创造性工作，同时处理单一主题、多层限制输出风格和基调，将图灵和 Lovelace 测试连在一起。

下面展示 ChatGPT 图灵模仿游戏产生的十种诗歌：

图灵测试结果由人类裁决，如 ChatGPT 回答，提问者是否判断模型通过图灵测试“取决于多种因素，如机器回答品质、提问者区分人和机器的能力，以及确定机器是否成功模仿人类特定规则和标准。最后游戏结果取决于当场情况和参与者”。

LLM 只预测序列，并不是真的理解语言

可以看到，当代基于 LLM 的对话互动可以创造一种令人信服的错觉，仿佛置身于我们面前的，是像人类这样会思考的生物。但就本质而言，此类系统从根本上不同于人类，像 ChatGPT 这样的 LLM 还涉及技术哲学的话题。

语言模型正变得越来越擅长模仿人类语言，这带来一种强烈的感受，即这些 AI 系统已经与人类非常相像，而且我们会使用“知道”、“相信”和“认为”等具有强烈自主意识的词语去描述这些系统。基于上述现状，DeepMind 资深科学家 Murray Shanahan 在近日一篇文章中提到，要破除任何或过度悲观或过度乐观的迷思，我们需要清楚 LLM 的系统到底是如何运作的。

▲ Murray Shanahan。

LLM 是什么，可以做什么？

BERT、GPT-2 等 LLM 出现改变人工智慧游戏规则，之后 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架构，用数百 TB 文本训练，更突显数据的强大。模型的能力令人惊讶，首先基准表现与资料库大小成比例，其次，模型规模扩大，能力更是大跃进。最后，许多需要人类智慧的任务可简化为使用性能够的模型“预测下一个 token”。

最后一点揭示语言模型运作方式与人类的不同。人类交流时直觉是经过数千年进化而来，如今人类也把错误直觉转送给 AI。ChatGPT 实用性和商业潜力都很大，为了确保可信任、安全部署，需要了解工作原理。与人类语言相比，大型语言模型有什么不同？

如维特根斯坦所说，人类语言是集体行为之一，只有在人类社会活动大背景下才有意义。人类婴儿出生在与其他语言使用者共用的世界，并与外部互动学习语言。LLM 语言能力来源不同。人类产生文本构成大规模公共资料库，含单字、单词构件、有标点的单字元等 tokens，大型语言模型就是这些 tokens 统计分布的产生式数学模型。

所谓“产生”，是指我们从这些模型取样，也就是提问，但问题比较具体，如要求 ChatGPT 续写文章，其实是要求它根据人类语言统计模型，预测接下来可能会出现什么走向。假如提示 ChatGPT“第一个上月球的人是？”并假设它会回答“Neil Armstrong”，其实并不是真的在问谁是第一个上月球的人，而是给予大量文本公共语库名词的统计分布，问哪些名词最有可能符合“第一个上月球的人是”序列？

尽管模型对这些问题的答案人类可能解读为模型“理解”语言，但模型只是产生统计方面可能出现的名词顺序。

LLM 真的什么都懂吗？

LLM 以两个方式转成问答系统：

嵌入更大系统。
使用提示工程引发行为。

这样一来，LLM 不仅可问答，还可总结新闻文章、产生剧本、解决逻辑难题及翻译语言等。两个要点，首先 LLM 基本功能即产生统计意义可能的名词顺序非常通用。其次，尽管有多功能性，但所有这类应用程式的核心都是同样模型，只做同件事，即产生统计意义的可能名词顺序。

LLM 基础模型包括模型架构和训练参数。LLM 不“知道”任何事，因所做的一切在底层意义都是顺序预测。模型本身并没有“真”或“假”概念，因它们不具人类运用这些概念的方法。LLM 某种意义上并不依赖意图立场。这对以 LLM 为核心的对话系统也一样，它们不能理解人类语言的真理概念，因不存在人类语言消费者共用的世界。

关于涌现

如今 LLM 如此强大多才多艺，人们很难不赋予其人格。相当有吸引力的论点是，尽管 LLM 只执行顺列预测，但学习过程有可能发现需用更高层次术语如“知识” 和“信念”描述的涌现机制。

事实上，人工神经网络可以将任何可计算函数逼近到任意精度。因此，无论需要何种机制来形成信念，它们都可能驻留在参数空间的某个地方。如果随机梯度下降是优化准确序列预测目标的最佳方式，那么给定一个足够大的模型、足够多的正确类型的数据以及足够的算力来训练模型，也许它们真的可以发现那种机制。

而且，最近的 LLM 研究进展已经表明，当足够大的模型在非常大量的文本数据上进行训练时，就会涌现出非凡的、意想不到的能力。

然而，只要我们的考虑仅限于一个简单的基于 LLM 的问答系统，它就根本不涉及交际依图。不管它使用的内部机制是什么，序列预测本身并没有交际意图的，简单地将交际依图嵌入到对话管理系统中也无济于事。

只有在能够区分真假的情况下，我们才能谈论最完整意义上的“信念”，但是 LLM 并不负责做出判断，它只是类比哪些词可能跟在其他词后面。我们可以说 LLM“编码”、“存储”或“包含”知识，也可以合理地称 LLM 的一个涌现属性是它编码了日常生活世界的各种知识及其工作方式，但如果说“ChatGPT 知道北京是内地的首都”，那便只是一种修辞。

外部资讯来源

这里的重点是，涉及将任何信念完全归于一个系统的先决条件。任何东西都不能算作对我们共用的世界的信念，从广义上讲，除非它是在根据来自某个世界的证据适当地更新信念的能力的背景下，这是辨别真假能力的一个重要方面。

维琪百科或其他一些网站，能否提供外部标准来衡量一个信念的真实性或虚假性？假设一个 LLM 被嵌入到一个系统中，该系统定期谘询此类资源，并使用现代模型编辑技术来保持其预测的事实准确性，实现信念更新需要什么样的能力？

序列预测器本身可能不是那种可以具有交流意图或形成对外部现实的信念的事物。但是，正如反复强调的那样，野外的 LLM 必须嵌入到更大的体系结构中才能发挥作用。要构建一个问答系统，LLM 只需辅以一个对话管理系统以适当地查询模型。这个更大的架构所做的任何事情都可以算作交流意图或形成信念的能力。

至关重要的是，这种思路取决于从语言模型本身到语言模型所属的更大系统的转变。语言模型本身仍然只是一个序列预测器，并没有像以往那样更多地访问外部世界。只有相对于整个系统，在这种情况下，意向性立场才会变得更有说服力。但在屈服于它之前，我们应该提醒自己，这样的系统与人类有多么不同。

视觉-语言模型

LLM 可以与其他类型的模型结合和/或嵌入到更复杂的体系结构中。例如，VilBERT 和 Flamingo 等视觉语言模型（VLM）将语言模型与图像编码器相结合，并在文本-图像对的多模态语料库上进行训练。这使得它们能够预测给定的单词序列将如何在给定图像的上下文中继续。 VLM 可用于视觉问答或就使用者提供的图像进行对话，也就是俗称的“看图说话”

那么，使用者提供的图像能否代表可以评估命题真假的外部现实？谈论 LLM 的信念是否合理？我们可以想像，一个 VLM 使用 LLM 来生成关于图像的假设，然后针对该图像验证其真实性，然后对 LLM 进行微调，以免做出被证明是错误的陈述。

但大多数基于 VLM 的系统并不是这样工作的。相反，它们依赖于文本和图像联合分布的冻结模型。使用者提供的图像与 VLM 生成的文字之间的关系，与人类共用的世界与我们谈论该世界时使用的文字之间的关系根本不同。重要的是，前者仅仅是相关关系，而后者则是因果关系，当然，模型在推理过程中进行的计算存在因果结构，但这跟词语与其所指事物之间的因果关系不同。

具身 AI

人类语言消费者存在于一个共用世界中，这使得我们与 LLM 有着本质区别。孤立的 LLM 无法通过与外界交流来更新自己的信念，但如果将 LLM 嵌入到更大的系统中会如何呢？比如，呈现为机器人或虚拟化身的系统。这时候谈论 LLM 的知识和信念是合理的吗？

这要取决于 LLM 是如何具身化的。

以今年谷歌发布的 SayCan 系统为例，在这项工作中，LLM 被嵌入到控制物理机器人的系统中。机器人根据使用者的高级自然语言指令执行日常任务（例如清理洒在桌面上的水）。

其中，LLM 的工作是将使用者的指令映射到将帮助机器人实现所需目标的低级动作（例如寻找海绵）。这是通过一个工程化的 prompt 前缀来完成的，该前缀使模型输出合适的低级动作的自然语言描述，并对它们的有用性进行评分。

SayCan 系统的语言模型元件可能会无视机器人所在的实际环境来给出动作建议，比如旁边并没有海绵。所以，研究人员使用一个单独的感知模组利用机器人的感测器来评估场景，并确定执行每个低级动作的当前可行性。将 LLM 对每个动作的有用性评估与感知模组对每个动作的可行性评估结合起来，便可以得出下一步最优动作。

尽管 SayCan 在物理上有与现实世界的互动，但它学习和使用语言的方式与人类仍然非常不同。 SayCan 这类系统中包含的语言模型经过预训练，可以在纯文本数据集的无实体环境中执行序列预测。它们并没有通过与其他语言消费者交谈来学习语言。

SayCan 的确给我们带来了关于未来语言使用系统的一种想像，但在今天这样的系统中，语言的作用非常有限。使用者用自然语言向系统发出指令，系统生成对其动作的可解释的自然语言描述。但是，这种微小的语言使用范围根本无法与由语言支援的人类集体活动的规模相提并论。即使是对于包含 LLM 的具身 AI 系统，我们也要谨慎地选择词语去描述它们。

LLM 能够推理吗？

现在我们可以否认 ChatGPT 具有信念，但它真的可以推理（reason）吗？

这个问题更加棘手，因为在形式逻辑中，推理是内容中立的（content neutral）。比如无论前提如何，“肯定前件”（modus ponens）的推理规则都是有效的：

如果：所有的人都会死，苏格拉底是人; 那么：苏格拉底会死。

逻辑的内容中立性似乎意味着我们不能在推理方面对 LLM 过多苛求，因为 LLM 无法杰出到可以衡量真假的外部现实。但即便如此，当我们提示 ChatGPT“所有的人都会死，苏格拉底是人，那么”时，我们并不是在让模型进行假言推理，而是在问：给定的公共语料库中的词语统计分布，哪些词可能遵循“所有的人都会死，苏格拉底是人，那么”这一序列。

而且，更复杂的推理问题会包含多个推理步骤，由于聪明的提示工程，LLM 可以有效地应用于多步推理，无需进一步培训。例如，在思维链提示中，在用户查询之前向模型提交一个提示前缀，其中包含一些多步骤推理的示例，并明确说明，所有中间步骤在思维链风格中都包含一个提示前缀会鼓励模型，以相同的风格生成后续序列，也就是说，包括一系列导致最终答案的显式推理步骤。

像往常一样，真正向模型提出的问题的形式是“给定公共语料库中单词的统计分布，哪些单词可能遵循序列 S ”，在这种情况下，序列 S 是连结 thought 提示前缀加上使用者的查询，最有可能跟在 S 之后的标记序列，将具有与提示前缀中找到的序列类似的形式，也即是在它们当中，将包括多个推理步骤，因此这些就是模型生成的。

值得注意的是，不仅模型的响应采用多步骤论证的形式，而且所讨论的论证通常（但并非总是）有效，并且最终答案通常（但并非总是）正确。在某种程度上，适当提示的 LLM 似乎推理正确，它通过在其训练集中和/或提示中模仿格式正确的参数来实现。

但是，这种模仿能构成真正的推理吗？即使今天的模型偶尔会犯错误，是否可以进一步缩小这些错误，使模型的性能与硬编码推理演算法的性能无法区分？

或许答案确实为“是”，但是我们怎么知道呢？我们怎么能相信这样的模型呢？

定理证明器生成的句子序列是忠实于逻辑的，因为它们是底层计算过程的结果，其因果结构反映了定理的推理结构问题。使用 LLM 构建可信推理系统的一种方法是将其嵌入到执行相同因果结构的演算法中。但是，如果我们坚持使用纯 LLM，那么，要完全相信它产生的论点，唯一方法就是对其进行逆向工程，并发现符合忠实推理规定的紧急机制。与此同时，我们应该更加谨慎，并在描述这些模型的作用时慎重行事。

THE TURING DECEPTION
Talking About Large Language Models

（本文由雷锋网授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。