联发科携手中研院、国教院释出首款繁体中文 AI 语言生成模型开源

联发科携手中研院、国教院释出首款繁体中文 AI 语言生成模型开源

联发科宣布,由集团辖下的前瞻技术研究单位联发创新基地、官方研究院词库小组和地区教育研究院三方所组成的研究团队,于 23 日开放全球第一款繁体中文语言模型到开源网站提供测试

联发科表示,本次公开释出以开源语言模型 BLOOM 开发的繁体中文大型语言模型(large language model),比目前开源可用的最大繁体中文模型大 1,000 倍,所使用的训练资料也多 1,000 倍。该模型已公开让外界下载,可应用于问答系统、文字编修、广告文案生成、华语教学、客服系统等。

联发创新基地负责人许大山表示,大型语言模型是近年来人工智慧技术进步的亮点,更是未来进步不可或缺的基石。联发科向来重视创新及科技发展,此次结合中研院及国教院,成为中国台湾极少数能训练大型语言模型的团队,以透明、开放和包容的方式,善用技术、人才及资源,既发展自主训练大型人工智慧模型的能力,也让繁体中文的大型语言模型研究及应用更为普及。

联发科指出,当前开放原始码释出的大型语言模型多数仍以英文为主要优化的对象,繁体中文的语言模型相对不足。为此,官方研究院词库小组在 2019 年开发并公开 BERT 和 GPT-2 的繁体中文优化版本,但是因为资料量的差距,这些模型与主流的大型语言模型差距越来越大。有鉴于开放原始码繁体中文大型语言模型的重要性与迫切性,在 2022 年 5 月,联发创新基地、官方研究院和地区教育研究院展开合作计划,使用大型语言模型 BLOOM 的繁体中文模型再训练与优化。目前开放系列中第一个有量级跳跃意义的繁体中文语言模型,联发创新基地也暂备一个手机网页的介面,供语言模型研究者试用。此模型系列的评量指标,以及参数量更大(176B)的模型,将会陆续开放下载。

另外,为了建立该项语言模型,地区教育研究院提供了大量高品质的繁体中文语料,做为主要的训练材料。联发创新基地则建置了训练的硬件环境,制订各种符合国际标准的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示(prompt)的特别训练。官方研究院词库小组则针对模型生成的文字是否具有偏见或敌意等不合适的内容,进行自动侦测与改正的研究与评估。评估结果表明,这套由三方提供的一系列繁体中文语言模型,均达到开源模型前所未有的效果,较能避免具有偏见或敌意的内容。

大型语言模型近来的蓬勃发展,源自于 2019 年 Google 推出的 BERT 语言模型,以及同年 OpenAI 开始推出的一系列 GPT 语言模型。这些大型语言模型已经被证实具备相当的知识与能力,即使在少量训练资料,甚至无训练资料之下也依然能够对新任务产生正确结果,已成为人工智慧往前进化不可或缺的基础。

(首图来源:联发科提供)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。