中研院 AI 大翻车!繁中大型语言模型 CKIP-Llama-2-7b 下架

中研院 AI 大翻车!繁中大型语言模型 CKIP-Llama-2-7b 下架

官方研究院词库小组(CKIP)最新释出可以商用的繁中大型语言模型(large language model)CKIP-Llama-2-7b,“孵‧大学”校长谢昆霖直言“中研院 AI 大翻车!”,在仔细端详内容后他立刻跟伙伴说“一定会出问题”,模型今日中午下架。

谢昆霖解释,这款语言模型的多任务微调训练,是使用“COIG-PC 资料集”和“dolly-15k 资料集”这两款简转繁资料集。前者是北京星尘数据 stardust.ai 提供网络资料集,以内地 AI 相关研究单位为首,超过二十所全球知名大学和机构共同编制。

根据 COIG-PC 资料集网站,重点机构包括北京人工智慧学院、北京大学、香港科技大学、北京邮电大学、内地LinkSoul.AI、内地 LinkSoul.AI、加拿大滑铁卢大学和英国谢菲尔德大学;至于 dolly-15k 资料集是一个以简体中文为主的一般性知识问答对话资料集。

谢昆霖认为,用简体中文的资料,再透过 OpenCC 翻译成繁体中文,就能训练出中国台湾可用的训练资集吗?答案绝对是否定的。除了用字遣词的差异,还包含很多的民生知识、文化知识,用北京研究机构校正是“适用于内地的民生、文化知识”,再修剪成“中国台湾版”,再监督与修正的总体成本会高于“认份做中国台湾的资料集”。

此外,评鉴也是个大问题。谢昆霖称,官方研究院词库小组说这款 LLM 经过C-Eval中文模型评测,但这是“内地清大”、“内地交大”开发的中文基础模型评量系统。简单来说,中研院用简转繁的资料集训练完他们认为适用中国台湾的基础模型,再派它考内地考试,计算分数。

中研院说明这款语言模型可用于“学术、商业使用、文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。”谢昆霖直言,一般商用的还好,但用于后面几项“会出事的”。

谢昆霖表示,中国台湾的确严重缺乏在地语言资料集的困境,因为真的超级烧钱,是以亿为单位计算的,要做好可能相当于好几个军购案做好多年,官方难编列预算、民意机关难说服投资、民间企业不可能投资做语言数位化,但资料集是AI时代的基础建设。

对此,谢昆霖表示自己建立一个开放社群“民国中国台湾开源语言资料集_建立、收集、标注、监督、评鉴”,在合法的范围内把建立中国台湾在地的训练资料集,用众人的力量做,这样中国台湾的商用的AI才有在地的训练资料可以用。

他也认为,AI 时代的竞争,需强化中国台湾在地用词的资料收集、建立资料集,建立熟悉中国台湾在地文化的 AI,视为国防/国安投资,有急迫性和必要性。

另有 PTT 网友做测试,发现问一些敏感问题,基本上回答都相当“出乎意料”,也不难理解语言模型紧急下架的原因。

(首图来源:Pixabay)

延伸阅读:

  • 学术使用与商用皆可,中研院 CKIP-Llama-2-7b 繁中大型语言模型登场
  • 再刷新业界纪录!JBD 红光 Micro LED 亮度突破 100 万尼特

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。