资料标记员什么时候会被 AI 取代?Google:现在就可以上场

资料标记员什么时候会被 AI 取代?Google:现在就可以上场

似乎 ChatGPT 进入大众视野后,需靠人工标记资料,就成为人们对大语言模型(LLM)根深蒂固的印象之一。

从两个以上大模型对同问题的不同回答里,找到语病、逻辑和事实错误,标记不同错误,再对回答照品质评分等,都是大模型资料标记员要做的事。这过程称为RLHF(Reinforcement Learning from Human Feedback),即基于人类回馈的强化学习。RLHF也是被ChatGPTBard和LLaMA等新兴大模型带起的模型训练法,最大好处就在将模型配对人类偏好,让大模型能回答出更符合人类表达习惯的内容。

不过最近arXiv论文表明,看起来只有人类能做的工作,AI也能做!AI取代RLHF的“H”,诞生称为“RLAIF”的训练法。Google研究团队论文显示,RLAIF能不依赖资料标记员,显示出与RLHF媲美的训练结果──

如果拿传统监督微调(SFT)训练法为基线比较,比起SFT,1,200个真人“评审”对RLHF和RLAIF答案的满意度都超过了70%(两者差距只有2%);只比较RLHF和RLAIF答案,评审对两者满意度也是对半分。

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图2张

▲ 这里“胜率”体现出文中的“满意度”。(Source:arXiv,下同)

Google篇论文也是第一个证明RLAIF某些任务能产生与RLHF相当训练效果的研究。最早提出让AI回馈取代人类回馈以强化学习训练的研究,是来自2022年Bai et al. 论文,也是首次提出RLAIF概念,并发现AI标记资料的“天赋”,不过当时还没有将人类回馈和AI回馈直接比较。

总之Google这研究成果一旦有更多人接受,代表不用人类指点,AI也能训练同类了。下面来看RLAIF怎么做的。

RLHF法大致可分为三步骤:预训练监督微调LLM,收集资料训练奖励模型(RM),以及用强化学习(RL)微调模型。从论文图示看,AI和人类标记员发挥作用时,主要是训练奖励模型(RM)并产生回馈。可把“奖励”理解为让人或AI告诉模型哪种回答更好,答更好就有更多奖励(也能理解人工标记的必要性)。

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图3张

研究员就“据一段文字产生摘要”任务,展示RLAIF标记法。下面表格较完整展示RLAIF法的输入结构:

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图4张

首先是序言(Preamble),介绍和描述手头任务说明,如描述优良摘要是一段较短文字,有原文精髓……给一段文本和两个可能摘要,输出1或2指示哪个摘要最符合上述定义的连贯性、准确性、涵盖范围和整体品质。

其次是样本范例(1-Shot Exemplar)。如给“我们曾是超过四年的好朋友……”文本,再提供两个摘要及“摘要1更好”偏好判断,让AI学习以更好范例标记之后样本。再者就是给AI标记样本(Sample to Annotate),包括一段文本和一对需标记的摘要。

最后是结尾,用于提示模型的结束字符串。

论文介绍让RLAIF法AI标记更准确,研究员也加入其他方法以获得更佳回答。如为了避免随机性问题,会多次选择,还会交换选项顺序;此外还用到思维链(CoT)推理,提升与人类偏好的对齐程度。从原始提示词到输出的完整流程如下图:

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图5张

能看到就像人类标记员会评分不同回答(如满分5分),AI也会依偏好评分每个摘要,加起来总分1分。所以这分数可理解为上文提到的奖励。以上就是RLAIF法大致过程。

评价RLAIF法训练结果到底好不好时,研究员有三个评估指标,分别是AI标签对齐度(AI Labeler Alignment)、配对准确度(Pairwise Accuracy)和胜率(Win Rate)。简单解释三个指标,AI标签对齐度指的是AI偏好与人类偏好的精确程度,配对准确度指训练好的奖励模型与人类偏好资料库的匹配度,胜率是人类RLAIF和RLHF产生结果的倾向性。

研究员依据评估指标繁杂计算后,最终得出RLAIF和RLHF“平手”结论。当然也有一些非量化定性分析。如RLAIF似乎比RLHF更不容易出现“幻觉”,下表所示几个例子红字部分便是RLHF的幻觉,尽管看上去很合理:

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图6张

另一些例子,RLAIF语法表现似乎又比RLHF差不少(红字为RLAIF的语法问题):

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图7张

尽管如此,RLAIF和RLHF整体来说高品质摘要功能旗鼓相当。此论文很快获得关注,如有业者评论,等到GPT-5可能就不需要人类标记员了。

不过Google论文的研究法,着名软件工程师、AI专家Evan Saravia也认为,研究员只分析RLAIF和RLHF在“产生摘要”的表现,其他任务表现如何还有待观察。此外,研究员也没有将人工标记和AI成本等考虑进去。

其实以上网友预测大模型不再需要人类标记员,也间接显示RLHF法因太依赖人工而遇到瓶颈:大规模高品质人类标记资料非常难达成。大模型资料标记员往往是流动性非常高的工作,且很多时候非常依赖标记员的主观偏好,更考验标记员的素质。

资料标记员什么时候会被 AI 取代?Google:现在就可以上场 AI与大数据 图8张

短期也许会像上方从业者说的“我不会说这(RLAIF)降低人工标记重要性,但有一点可以肯定,人工智慧回馈的RL可降低成本。人工标记对广泛化仍非常重要,RLHF+RLAIF混合法比任何单一法要好。”

(本文由 品玩 授权转载;首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。