中文大型模型比英文更烧钱,竟然是由 AI 底层原理决定?

中文大型模型比英文更烧钱,竟然是由 AI 底层原理决定?

ChatGPTAI 工具越来越普遍,与 AI 互动时,我们知道提示词差异会影响输出结果,如果意思相同但以不同语言输入,差异是否也大?提示词输入和输出和模型背后计算量直接挂钩,因此不同语言 AI 输出和成本消耗是否有天然差异或“不公平性”?这种“不公平性”又如何产生的?

提示词其实不是对应文字,而是Token。当收到用户提示词后,模型会转换成Token列表处理预测,再将预测的Token转为输出看到的文字。Token是模型处理和产生文本或语言的基本单位,各家厂商都会宣称模型支援多少Token上下文,不会说英文单字或中文字数。

影响Token计算的因素

首先,一个Token并不是对应一个英文单字或一个中文字,Token与单字没有确定换算关系。如OpenAI的Token计算工具,hamburger是拆成ham、bur和ger三个Token,同个字如果在两句话里的结构不同,会算成不同数目Token。

Token如何计算取决于厂商的标记化(tokenization)法。标记化是将输入和输出文本拆为语言模型处理的Token过程,帮助模型处理不同语言、词汇表和格式。ChatGPT采用“位元组对编码”(Byte-Pair Encoding,BPE)标记化。

一个单字分解成多少个Token,与发音和句子内结构有关,不同语言的计算差异也颇大。以“hamburger”中文“汉堡”来说,两个字却有六个Token,也就是分解成六部分。

中文大型模型比英文更烧钱,竟然是由 AI 底层原理决定? AI与大数据 图2张

(Source:OpenAI,下同)

再以一段话计算中英文Token的“不公平性”。

OpenAI官网说:“You can use the tool below to understand how a piece of text would be tokenized by the API, and the total count of tokens in that piece of text.”这段话共计33个Token。

中文大型模型比英文更烧钱,竟然是由 AI 底层原理决定? AI与大数据 图3张

中文为:“您可以使用下面的工具来理解API如何将一段文本标记化,以及该段文本中标记的总数。”共82个Token。

中文大型模型比英文更烧钱,竟然是由 AI 底层原理决定? AI与大数据 图4张

AI对中文的天然“不公平”

相同意思的中文Token数是英文两倍多,中文和英文训练和推理时“不公平性”,也许是因中文通常一个字有多种意义,语言组成较灵活,语境更多,也增加歧义性和处理难度;英文结构较简单,故英文自然语言任务比中文更容易处理理解。中文要处理的Token更多,模型消耗记忆体和计算资源也越多,当然成本就越高。

ChatGPT虽能辨识中文等多种语言,但训练资料库都为英文文本,处理非英文时可能面临语言结构、文法等挑战,影响输出效果。最近论文〈多语言模型英文表现更好吗?〉(Do Multilingual Language Models Think Better in English?)提到,非英文翻成英文输出结果,比直接用非英文提示词效果更好。

对中文用户来说,先把中文翻成英文,然后再询问AI,也似乎效果更好,还更划算。毕竟用OpenAI的GPT-4模型API,每输入千个Token至少收费0.03美元。

由于中文的复杂性,AI模型用中文准确训练和推理可能挑战更大,并增加中文模型应用和维护难度;对开发大型模型的公司来说,开发中文大型模型需额外资源,可能要承担更高成本。

(本文由 品玩 授权转载;首图来源:pixabay)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。