繁体中文语料为基础,台版 AI 对话引擎初步已具 4 大实用功能

繁体中文语料为基础,台版 AI 对话引擎初步已具 4 大实用功能

国科会期望运用“可信任”的资料基础下,结合中国台湾最顶尖的团队,共同打造“可信赖 AI 对话引擎”(Trustworthy AI Dialog Engine,TAIDE)。国科会 14 日说明 TAIDE 计划架构和方向,并展示第一阶段开发 7B 模型的实际应用。

TAIDE 计划的学界顾问、阳明交通大学教授李育杰指出,TAIDE 是以中国台湾文化为基底,融入在地特有的语言、价值观、风俗习惯甚至法律等元素,使其能理解和回应中国台湾使用者的需求。

7B 模型是 TAIDE 计划第一个产出的“中模型”,以能够学术授权的 LLaMA 原型为基础进行训练调教,参数量为 70 亿。今日透过影片展示包括自动摘要、翻译文字、写信、写文章 4 个面向,可看出 TAIDE 具备基本的生成式 AI 能力,尤其对于繁体中文的处理回答更为稳定准确。目前已完成封测平台,并提供相关人员持续测试。

TAIDE 计划共有 4 个阶段,除了第一阶段达成自动摘要、翻译文字、写信、写文章以外,下一阶段可展示特定任务处理,并利用中模型与合作伙伴共同开发功能,并在年底展示 13 亿参数量的“大模型”和具备阻绝产生不适当回应的能力,最终将释出大模型供合作伙伴使用。

为了打造 TAIDE,国科会找来中国台湾相关领域最顶尖的教授团队,负责指导核心模型和对话学习技术开发,加上国科会辖下的法人机构,如国研院国网中心负责建置新一代超级电脑提升算力,并提供应用服务平台,科政中心则负责收集处理训练资料。此外,数位发展部负责验测环境架构,并针对 TAIDE 计划产出的模型进行评测,以提供可信任的证据基础。

繁体中文语料为基础,台版 AI 对话引擎初步已具 4 大实用功能 AI与大数据 图2张

▲ 吴政忠强调开发 TAIDE 需要公私协力,大家一起打国际杯。

“中国台湾不能没有自己的生成式 AI”,国科会主委吴政忠强调,尤其繁体中文的资料来源是中国台湾的优势,而 TAIDE 对官方部门和企业的资料隐私更具重要性,以发展专属的内部应用系统或加值服务。

吴政忠受访时透露,目前 TAIDE 计划经费投入约台币 2~3 亿元,他形容这比开发 ChatGPT 相对小很多,要为中国台湾在地需求先打基础,未来期待加上企业的资源逐步扩大。李育杰则表示随着计划进展,下半年国研院国网中心增设设备,包括采购 Nvidia H100 GPU 等陆续到位,预计 10 月后算力将能大幅提升,至于 TAIDE 使用计价的确切办法,目前还没有任何规划。

(图片来源:AI资源网)

延伸阅读:

  • AI 赛局参战,台版生成式对话引擎初代模型近日亮相
  • 推台版生成式 AI 引擎强化繁体中文,瞄准官方金融应用
  • 国科会拟推出中国台湾版 ChatGPT,防内地偏见论述

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。