不同语言不同价，AI鸿沟出现了？英文训练成本最便宜，中文费用要贵2倍！

AI资讯 4天前 0

▼

如今的大型语言模型（LLM）可以理解世界上很多语言，甚至是一些记载较少的语言。不过，大型模型处理不同语言之间时，其性能上存在很大的差异，这是由于模型成本与其所训练的语言紧密挂钩。

牛津大学最近进行的一项研究显示，从诸多语言模型的计费方式看，英语的输入和输出比其他语言的输入和输出要便宜得多。例如，西班牙语的成本约为英语的1.5倍，简体中文的价格约为2倍以上，缅甸掸语在15倍以上。

标记化导致成本差异，汉语输出费用为英语2倍

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元，这个更小的单元就是标记（Token）。这是一个人工智慧（AI）公司将用户输入转换为计算成本的过程。

研究显示，使用英语以外的语言访问和训练模型的成本都更高。例如中文，无论是在语法上还是在字符数量上，都有更复杂的结构，从而导致更高的标记化（Token）率。

举例来看，基于OpenAI公司的GPT2模型，对于“地区不同，所得税的结构是不同的，税率和税率等级也有很大的差异”这句话来看，在简体中文处理中运用到了66个Token，在英语处理中仅用到了24个Token，而在掸语处理中使用到了468个Token。

就每次输出所需的费用而言，汉语的成本是英语的两倍。所以在AI相关的费用中，英语的成本效益是最高的。

当涉及到语言模型时，设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展，科技公司必须仔细考虑语言选择对成本和可访问性的影响。

这种成本差异促使内地、印度等地区纷纷开发自己的母语LLM项目。

本文授权转载自：网易科技

责任编辑：苏祐萱

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。