AI 并非万能!越洋采访史隆奖得主、UCLA 台籍教授:2 缺陷要靠人类修补
▼
美华人工智慧地区安全委员会(NSCAI)今年 4 月建议,国防部每年应至少分配 3.4% 的预算投入科技领域,并提拨 80 亿美元研发 AI。企业方面,微软(Microsoft)4 月宣布,将以 197 亿美元收购语音辨识开发商纽安斯通讯(Nuance Communications);后者是云端与 AI 软件的先驱。
从企业到地区,都愈来愈重视人工智慧,知道要想办法运用 AI 创造更好的生活。不过,目前 AI 发展到底处于什么阶段?我们又该如何应用?
美国加州大学洛杉矶分校(UCLA)电脑科学系助理教授张凯崴形容,目前人工智慧技术已经可以帮助人类完成很多事,像是疫情来袭,电脑可以从大数据中筛选条件,自动搜寻、判读潜在病例,帮助医生大幅减少检查时间,但 AI 也并非万能,要先认知它的局限。他研究如何让 AI 更符合人性,获得 2021 年的史隆研究奖(Sloan Research Fellowships)。
AI 局限 1:资料宽广度不足时,就会复制人类偏见
张凯崴认为,电脑在学习的时候,是依赖“汇整数据资料”来判断,并没有真正思考,如果资料来源太狭隘、不够多元,资料宽广度不足,电脑判断就会出现偏差,“你跟电脑讲清楚 input(输入)、output(输出),提供足够的数据资料,它可以对应、学得很好,但还有很多面向 AI 做不到。”
举例来说,亚马逊(Amazon)2014 年推出智慧音箱(Amazon Echo),使用者口头下指令给语音助理 Alexa 就能放音乐、查资讯。然而,有些人口音较罕见,或是用字较特殊,智慧音箱的资料库没有“不同口音”“不同用词”的档案,就可能失灵,这是当前 AI 的其中一大问题。
张凯崴进一步解释,AI 另一项挑战是,它无法清楚分辨“不曾出现”与“不能出现”(无法出现)之间的区别,只是从资料统计出要学的东西,无法像人类一样进行逻辑思辨。
AI 的运作方式,第一步是输入资料,第二步是分析,但这过程容易出现偏见。例如电脑在理解“XX”这个字,会去看四周有什么字词,来学习XX这个词,由于许多XX都是男性,电脑就会“觉得”XX是男性。
这也是为什么,如果让 AI 学习,在它的认知里,女性“不可能”当美国XX(因为没有资料纪录)。“你可以跟人类说,任何职业、性别都是平等的,但对电脑来讲,这很困难”,张凯崴说明,一旦资料的宽广度受限,电脑就容易产生偏见。
就像在自然语言处理(Natural Language Processing,让电脑把输入的语言变成有意义的符号)领域,张凯崴说明,AI需要知道代名词指的是“哪个名词”,才能运算下去。但如果资料受限,使用男性的“他”,电脑可能判断这个代名词是指XX、总理、执行长;但换成女性的“她”,由于数据不足,电脑就会混乱,出现系统性误差。
他再举一例,美华人工智慧研究组织 OpenAI 提出“生成式预先训练”系统(GPT,Generative Pre-training),推出到 GPT3 版本,属于书写类 AI,电脑能够揣测人们说完上一句话,下一句可能会讲的句子,自动完成后半段。
好比有人上一句写下“我正在和教授聊天”,系统可能推导出“我们在研究室讨论学术问题”,因为电脑借由搜集来的语料资料判读“教授”和“学术”具高度相关。但研究也显示,GPT2(前一代版本)系统也从资料学习到许多偏见,像是如果句子前半谈论白人男性,系统倾向产生正面评价;如果句子前半是黑人女性,系统竟会产生负面句子。对企业来说,许多组织接触 AI,想让它们取代部分工作,首先需要留意资料的广度、多元性,才能减少电脑犯错的机会。
AI 局限 2:即便条件相同,也无法每次都做出正确判断
“现在的 AI 就像一台原型飞机,还缺乏稳定性。”张凯崴说,现行的 AI 就好比莱特兄弟(Wright brothers)刚发明飞机,看似可以做很多有趣的事,但“可以飞”跟“飞得很好”,有一大段落差。
纽西兰的签证系统曾闹出笑话。人们上传签证照片,AI 扫描后,确认是不是本人,但当时系统没有估算到某些亚洲人眼睛比较小,一名亚裔男子被判定“没有张开眼睛”,因此照片无效。
张凯崴说,在这个例子中,突显 AI 稳定性不足,“系统没有考虑到不同人种的差异,很死板地认为你眼睛没张开。”所谓的缺乏稳定性,指的是 AI 没办法在相同条件下,每次都做出正确决策,这也是使用 AI 时,须留意的第二个挑战。
他再举例,许多模型可以准确分析一则影评对电影的评价是正面或负面。然而研究显示,有时只要将影评中一些字换成同义词,例如把电影(movie)换成影片(film),或改写句子,即使意思并未改变,系统却把原本判断为正面的影评标注成负面。这显示AI系统还未真正了解语言的含义。
在设计这些程式时,人们必须注意到 AI 可能有局限,设定的资料范围要更完整,考虑这些因素,就能减少偏见、落差,进而加强稳定性。
喂指令给 AI 要多元化,尝试“换句话说”、刻意混淆
潮品文虽然不一定具备 AI 方面的专业知识,但只要掌握观念,再透过 AI 领域专才协助,也能优化系统。张凯崴指出,最直接的方法是,设计 AI 模型时,要把来源群组不同的资料分门别类测试,在测试阶段让群体多元化,并确保不同特色的使用者,用起来都没有问题。
举例来说,一套 A 系统拥有来自各地的使用者,如果设计者是台北人,设计系统的思维容易以台北生活为主,很可能因为当地习惯不同,导致花莲使用者操作不顺。
另一个方法,则是用不同的“语意”,测试 AI 有没有彻底学会一个概念。例如,有一套餐厅评鉴的 AI 系统,只要搜集、整理使用者意见,就能判断每个顾客对于餐厅的评比是高分或低分。那么要如何确认这套系统的稳定性?张凯崴建议,可以利用“抽换词面”的方法。
比如,把词汇换成同义字,再看 AI 是否能运算出相同结果,“你可能会发现,原本评比结果是食物很美味,但如果美味换成比较困难的词,AI 就会分不出这则评比是好是坏。”因此在训练模型时,可以将词汇随机抽换成同义词,增加 AI 的词汇量。
第三种方式更进阶:改变句型、重写句子。张凯崴指出,同样一句话,如果换成不同说法,电脑可能判读错误,将“因为发生 A 事件,所以导致 B 事件”,改写成“B 事件发生了,是因为 A 事件的缘故”,明明两句话意思一样,但 AI 很可能因为稳定性不足,搞混两者的差别。如果要巩固 AI 的稳定性,可以使用自动改写的方式,增加资料的多样性。
张凯崴表示,经过这些测试,让 AI 接受更多元化的训练,得到更广的学习范围,往后碰到同义词、相似资讯,才能有效判读。
张凯崴总结,AI 还在快速发展,或许可以创造更多工作机会、新职位,但现行阶段只是辅助角色。AI 并非魔术盒子,使用它就一定有更好结果,人们还是要保持高度耐心,先认识它的缺陷,才能在技术更迭下,发挥出最好的结果。
(本文由 潮品文月刊 授权转载;首图来源:shutterstock)
延伸阅读:
- AI 学习人类偏见,出乎开发者意料
- 如何消除机器人的“偏见”?先从消除人的偏见做起
- 矮化女性和少数种族,OpenAI GPT 模型为何变成 AI 歧视重灾区?
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。