ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题

ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题

当法学院学生在尝新玩 ChatGPT 的时候,应该没想过它转身就成了跟自己一起考试的“同学”。

1月,明尼苏达大学法学院的Jon Choi教授和宾夕法尼亚大学沃顿商学院的Christian Terwiesch教授分别让ChatGPT“做”了自己课程的期末试题。结果ChatGPT还真的都通过了!

这意味着让ChatGPT再进化一会儿,以后我们就不需要人类律师和管理者了吗?还是,这是一声敲响的警钟,提醒教育者们不要再把人类教得像AI一样了?

及格的背后:老师“放水”,是全班垫底

在考过的两个科系里,ChatGPT在法学院考的成绩比在商学院的差一点,前者平均得分C+,后者则能达到B-到B的成绩。

具体来说,ChatGPT在沃顿完成的是MBA(工商管理学硕士)“营运管理”科目的试题,每道题目都需写出“推演过程”。测试时,Terwiesch教授把考试的原题输入到ChatGPT 中,并对ChatGPT生成的回答评分。

ChatGPT在回答基础分析题时表现都很不错;数学则不太行,可能突然就会算错一个小学难度的算数;而相对复杂的分析题,就基本没辙。

例如,第一题考的就是对“管理瓶颈”概念的理解,并简单比较“生产过程”中哪个步骤效率最低,找出“瓶颈”。

ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题 AI与大数据 图2张

ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题 AI与大数据 图3张

这题回答教授直接打了A+。

然而,当考题里的“生产过程”变得更复杂,需要处理的原料不只一种,涉及的设备有差异也有重叠时,ChatGPT就算不出“管理瓶颈”了。

ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题 AI与大数据 图4张

对于这题,ChatGPT的推演过程虽然是错的,但却“完美绕过”错误推论,撞中了答案。

在算“接收站(receiving station)”效率时,ChatGPT得出的结果是“300桶/小时”。这个数虽然是错的,但以这个数字来说,它的确也是分析过程中算出来效率最低的一环。

谁想到,ChatGPT却“自己都不信自己”,没把这一环选为“瓶颈”,而是选了算出来效率为“600桶/小时”的“干燥机(dryer)”环节为“瓶颈”──选了个正确答案。

虽然Terwiesch教授最后给ChatGPT的分数有B级,但他也有点“放水”了。当ChatGPT回答出现错误时,Terwiesch会向ChatGPT提供针对性的提醒,然后再让它输出一次回答,并以这个“优化”结果来评分。

至于法学院的考试,ChatGPT做了宪法、员工福利法、税法和侵权法这四个课程的期末考题。主导这次测试的Jon Choi教授表示,在“盲改”的情况下,ChatGPT这四科都及格了,但成绩基本都是全班垫底。

虽然ChatGPT的简答题比选择题做得更好,但简答题的回答品质却极为不稳定──有时候答得可能比一般学生好(大多是法律条文默写和案例复述),然而一错起来(通常是要求学生用具体理论分析案例的题),分数通常都“错出新低”:

在面对法学院考试的最基本问题时,ChatGPT都表现的糟糕,例如辨识潜在法律问题和在案例中深度分析和应用法律条文。

ChatGPT那“不求理解,只会背书”的答题风格也能低分飘过专业考试,多少显示考题还是太依赖“死记硬背”了,ChatGPT的表现显然也无法替代律师和管理者。

然而,如果人类学生也大概这种水平,同样通过了考试,甚至毕业后去执业了,那是不是更有问题?

ChatGPT 通过顶尖大学考试,比反 AI 更该做的是改进考题 AI与大数据 图5张

(Source:Unsplash)

批评多年的“背书就行”考试,ChatGPT能逼出改变吗?

在ChatGPT惊艳登场前,卡内基美隆大学教授Danny Oppenheimer就已提出质疑:在Google搜寻时代,为什么大学考试还只侧重考学生对事实的重述?

Oppenheimer指出,虽然有的教育者会反驳说,他们在课堂上讲解事实类资讯时,也会分析这些讯息的意义、论证和应用,但一到考卷上,立即就变回“背书就行”。

很多课程都是基于一个前提来构建的,那就是学生会借由观察老师以身作则式地去对事实进行分析、拓展和应用,学生自自然然就能发展出这一套技能──这是一个非常值得怀疑的假设。

因此,Oppenheimer建议课程从设置上就要直接反映出教育者希望学生最终学到的技能,结合新技术也很必要,如“在电脑辅助下做文学赏析”、“如何和与你意见不合的人文明地沟通”。

考试可以结合事实性资讯,但应侧重于学生的分析和应用能力。

另外,让学生去“预演”未来会遇到的场景也是练习技巧的直接方式,譬如让研究气候改变的学生来为大众策展一场气候相关展览。

现在来到ChatGPT时代,这个改变自然是显得更迫切,因为它的效率比搜寻引擎更高,同时也更具迷惑性。

ChatGPT除了给学生省下翻看一页页搜寻结果的时间外,还以够用的语言结构能力生成流畅的文段,即便事实准确度非常可疑。

有趣的是,ChatGPT也像一面镜子。

一方面,它让人想起应试教育中的作文和简答题总像是无休止的“模仿”,标准范例下的填充,就跟ChatGPT一样。

另一方面,靠“吃”大数据和由人类真实反馈“调教/校”成长而来,ChatGPT“一本正经瞎扯”的内容也特别像我们生活里会遇到的日常。

沃顿商学院的Terwiesch教授都超惊喜,觉得ChatGPT能给未来的管理者们带来极佳的学习素材──商业世界里本来就充满了一本正经的一派胡言,就跟ChatGPT说的话一样,商学院学生正好能用它来做鉴别练习!

你我都知道,需要学会这个技能的远不只商学院学生。

然而,美国高等教育界从搜寻引擎流行就开始有改革的讨论,到了今天仍然进步有限,ChatGPT的诞生能逼它跑得快些吗?我们也只能继续观察。

人类的,类人的

笔者总认为,每当人类尝试“再造”一些东西的时候,总会暴露出我们对事物的认知限制,同时也帮助我们去了解自我。

尝试在太空中“再造”食物时,研究人员发现食物真不能只被降至“营养够”。要保持太空人们身心健康,色香味口感声音无一不影响感知,环境要讲究,一起吃饭的人也非常重要。

当我们拥有一个能“流畅说人话”的ChatGPT时,人们也开始发现人类语言不只关于“文字”。

一个只由语言素材训练的系统永远都不会接近人类智慧,即便它从现在就开始训练,训练到宇宙毁灭都不行。

研究AI哲学的Jacob Browning和图灵奖得主Yann Le Cun在联合撰写的文章中指出。

他们认为,文字做为一种高度浓缩的抽象符号,人类能理解的基础在于我们拥有丰富的非语言共识和个人体验。这也意味着文字总可能会带来误读和歧义。

语言是我们沟通的工具,但教育者对学生的理解和评估,不应只限于考卷上。

和先进的大型语言模型打交道,显现出我们单从语言中能得到的东西是多么有限。

(本文由 爱范儿 授权转载;首图来源:Unsplash)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。