用 AI 改试卷？狗屁不通的论文也能得高分

AI与大数据 13小时前 0

▼

根据调查显示，以自然语言处理为基础的人工智慧论文评分系统，美国至少 21 个州已引入正式考试的评分工作。

这些机器评卷员的背后，有大量资料为参考，即使一天阅卷无数，也不会因疲劳及不高兴的情绪影响阅卷的效率和公正。

但事实真是这样吗？最近 VICE 的报道显示，这些 AI 评卷员实际上并没有大家想像中公正。

无可避免的演算法偏见

AI 评卷，其实也没有大家想像的公正。首先第一个问题，就是演算法偏见。

教育行业一直以来都在尽力消除对不同语言背景的学生产生的潜意识偏见，但这个问题在人工智慧评卷系统相当严重。

ETS（美国非营利性考试服务中心）提供的 E-rater 机器评分系统，目前正为 GRE、TOEFL 等考试提供评分参考。ETS 也是众多机器评分系统提供商中，极少数有提供偏差研究报告的。

ETS 新产品开发副总裁 David Williamson 表示：

其实评分系统有演算法偏见是普遍的问题，只不过大多数提供商都不会像我们这样公开。

多年的研究里，ETS 发现机器评分系统“偏爱”内地学生，给的分数整体会比人类评卷员更高。同时非裔美华人、阿拉伯裔学生、西班牙留学生等群体更容易受到机器的偏见，得到的分数会更低一些。

（Source：VICE）

为此，ETS 在 2018 年深入研究演算法，最终发现了原因。

以 GRE（美国研究生入学考试）为例，内地学生由于篇幅更长，且会在论文使用大量复杂词汇，使机器误认为论文水准高于平均水准，才给更高的分数。即使这些复杂句型在人类评卷员看来和论文主旨没有太多关联，甚至能明显看出是套用背好的范本。

相反地，由于非裔美华人、阿拉伯裔留学生的语言风格更偏向简单直接，导致在机器评分系统很难获得较高分数。

这些偏见也直接反映在分数，测试时，一群水准相当的学生中，E-rater 机器评分系统为内地学生的平均分达 1.31 分，非裔美华人只有 0.81 分。

当然，如果有参与 GRE 的读者不用担心，因为该系统目前只是帮人类评分员“辅助”而已，最终的论文成绩依旧由人类决定。

除 ETS 外，纽泽西理工学院也发现自家使用的机器评分系统有演算法偏见。

纽泽西理工学院之前透过名为 ACCUPLACER 的评分系统判断 1 年级学生是否需要额外辅导，但后来经过技术委员会研究发现，系统对亚裔、西班牙裔学生所写的论文有偏见，并不能公正地判断。

甚至“狗屁不通”的论文也能获得高分

如果说演算法偏见只是影响分数高低，对考试公正影响还不算特别大，那机器评分系统还有个更严重的缺陷。

就是连胡编乱造也辨识不能。

几年前，麻省理工学院的预科主任 Les Perelman 和一群学生利用论文语言生成器 BABEL 生拼硬凑出数篇论文。

这几篇论文与正常论文不太一样，虽然用了很多高级词汇、复杂句型，但大部分内容都前言不搭后语，甚至可用“狗屁不通”形容。

他们将这几篇论文提交至几个不同的机器评分系统，出乎意料的是，都获得不错的成绩。

让人想不到的是，几年后 VICE 复制了该实验，结果也惊人地相似。纽泽西理工学院教授 Elliot 表示：

目前的论文评分系统更强调语法的准确性、书面语言的标准性。但却很难发现学生敏锐的观点和特别的洞察处。然而这两点在人类评卷员看来，都是一篇论文最宝贵的地方。

（Source：pixabay）

目前，已经有不少教育领域人士对这些机器改卷员提出质疑，澳洲也宣布暂时搁置在标准考试引入机器评分系统。

AI Now 研究所的 Sarah Myers West 表示，与更广泛的人工智慧应用领域一样，想消除评分系统的演算法偏见也是场持久战。

不过尽管如此，无论纽泽西理工学院的教授 Elliot 还是 AI Now 研究所的 Sarah Myers West，他们都还是发展机器评分系统的支持者。因为这确实是未来的发展方向，正如犹他州考试发展评估员 Cydnee Carter 所说，透过机器评估论文，不仅能为地区的教育系统省下大量人力和物力，未来还能提供学生和教师即时学术回馈，提高教育效率。

只不过做到完全公平公正之前，这些机器评卷员还是只能当辅助角色。

（本文由爱范儿授权转载；首图来源：pixabay）

延伸阅读：

AI 既能看出 92% 的假新闻，也能写高品质假新闻

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 人工智慧

无可避免的演算法偏见

甚至“狗屁不通”的论文也能获得高分

延伸阅读：

相关文章