大学人工智能作弊危机:“我收到了第一名,但感觉受到了玷污和不应得

2025-04-26 17:49来源:本站

  

  邮件来得很突然:是学校行为准则小组发来的。19岁的英语专业本科生阿尔伯特(Albert)浏览了这些内容,惊呆了。他被指控使用人工智能来完成一项评估工作。如果他没有参加听证会来解决教授提出的要求,或者没有回复电子邮件,他将收到该模块的自动不及格。问题是,他没有作弊。

  艾伯特要求匿名,他悲痛欲绝。这可能不是他最好的努力,但他在这篇文章上很努力。他当然没有使用人工智能来写它:“因为‘除了’和‘对比’等‘路标短语’而被指责,感觉非常有辱人格。”这一指控的后果在他的脑海中萦绕——如果他没有通过这一模块,他可能不得不重新修一整年的课程——但不得不为自己辩护,这让他很伤心。他说:“就因为一篇写得很差的论文,我觉得这对我整个模块的努力是一记耳光。”“我学习很努力,一般都是优等学生——一篇糟糕的论文突然意味着我使用了人工智能?”

  在听证会上,艾伯特坐在三名工作人员面前,其中两名来自他的部门,另一名是在场观察的。他们告诉他,听证会正在被录音,并要求他提供姓名、学生证和课程代码。然后他就他的任务被盘问了半个小时。他交论文已经好几个月了,他意识到自己不能像自己希望的那样自信地回答问题,但他尽了最大努力。他们问,他是否曾经用ChatGPT创建过一个账户?语法呢?艾伯特觉得无法为自己辩护,直到最后,他都快哭出来了。“我甚至向他们承认,我知道这篇文章写得不好,但我没有使用人工智能,”他说。

  从Chat GPT-3发布到现在已经四年了。它撼动了从电影到媒体再到医药的各行各业,教育也不例外。它由总部位于旧金山的OpenAI公司开发,几乎任何人都可以在几秒钟内根据一些基本输入写出合格的书面作品。现在有很多这样的工具可用,比如谷歌的Gemini、微软的Copilot、Claude和Perplexity。这些大型语言模型吸收和处理大量的数据集,就像人类的大脑一样,以产生新的材料。对于学生来说,在最后一分钟的论文截止日期前,这是你能找到的最接近仙女教母的地方。然而,对于教育工作者来说,这是一场噩梦。

  根据高等教育政策研究所的一项调查,超过一半的学生现在使用生成式人工智能来帮助他们进行评估,大约5%的学生承认使用它来作弊。去年11月,《泰晤士高等教育》报道称,尽管“记录不完整”,但罗素集团大学的作弊案件似乎在飙升,其中一些大学的作弊事件增加了15倍。但是,关于这些工具应该如何使用的困惑——如果有的话——已经在旨在建立在信任基础上的机构中播下了怀疑的种子。一些人认为,人工智能将彻底改变人们更好地学习的方式,就像一个24/7的私人导师——如果你愿意,也可以叫HAL教授。对另一些人来说,这是对整个学习体系的生存威胁——正如《高等教育内幕》(Inside Higher Ed)的一篇专栏文章所说,这是“教育的瘟疫”——它将摧毁学术探究的过程。

  在把精灵塞回瓶子的努力中,大学陷入了一场不断升级的技术军备竞赛,甚至自己求助于人工智能来试图发现不当行为。老师们把矛头指向学生,学生们互相攻击,努力学习的学生也受到抨击。这让许多人对高等教育的未来感到悲观。但是,ChatGPT真的是大学需要解决的问题吗?或者是更深层次的原因?

  Book with device inside

  阿尔伯特并不是唯一一个发现自己被错误地指责使用人工智能的学生。多年来,该学院反作弊的主要工具一直是软件,比如Turnitin,它可以扫描提交的论文,寻找抄袭的迹象。2023年,Turnitin推出了一种新的人工智能检测工具,可以评估可能由人工智能编写的文本的比例。

  在应对人工智能写作作业激增的热潮中,这似乎是一颗灵丹妙药。从那时起,Turnitin已经处理了超过1.3亿篇论文,并表示其中350万篇论文80%是人工智能撰写的。但它也不是100%可靠;假阳性的案例被广泛报道,一些大学选择退出。Turnitin说错误率低于1%,但考虑到学生人数的规模,难怪许多人发现自己处于火线上。

  还有证据表明,人工智能检测工具对某些人口统计数据不利。斯坦福大学的一项研究发现,许多人工智能探测器对非英语使用者有偏见,61%的情况下会标记他们的工作,而对母语为英语的人来说,这一比例为5% (Turnitin没有参与这项特别的研究)。上个月,《彭博商业周刊》(Bloomberg Businessweek)报道了一名患有自闭症谱系障碍的学生的案例,他的作业被检测工具错误地标记为人工智能编写的。她形容被指控作弊就像“肚子上挨了一拳”。神经发散型学生,以及那些使用更简单的语言和语法写作的学生,似乎受到这些系统不成比例的影响。

  越南英国大学(British University Vietnam)的生成式人工智能研究员迈克·珀金斯(Mike Perkins)博士认为,人工智能检测软件存在“重大局限性”。“所有的研究一次又一次地说,这些工具是不可靠的,”他告诉我。“而且他们很容易上当受骗。”他自己的调查发现,人工智能检测器检测人工智能文本的准确率为39.5%。使用简单的逃避技巧——比如对文本进行轻微的操作——准确率下降到22.1%。

  正如珀金斯指出的那样,那些决定作弊的人不会简单地从ChatGPT中剪切和粘贴文本,他们会编辑文本,或者将其塑造成自己的作品。还有一些人工智能“人性化”的公司,比如CopyGenius和StealthGPT,后者宣称自己可以生成无法检测的内容,并声称已经帮助50万名学生完成了近500万篇论文。珀金斯说:“只有那些没有这样做的学生,他们真的很挣扎,或者他们不愿意或没有能力购买最先进的人工智能工具,比如ChatGPT 4.0或Gemini 1.5。”“你最终抓到的是那些无论如何都最有可能毁掉学术生涯的学生。”

  如果有人知道那是什么感觉,那一定是艾玛。一年前,她期待着收到课程作业的结果。然而,一封电子邮件突然进入她的收件箱,告诉她她得了零分。“对抄袭的担忧,”它写道。艾玛是一个攻读艺术学位的单亲妈妈,那年她一直很挣扎。学习、照顾孩子、做家务……她还挤出时间申请兼职工作,以维持自己的经济拮据。在这一切之中,随着最后期限的不断临近,她慢慢地被ChatGPT的诱惑所吸引。当时,她感到如释重负——一项任务完成了。现在,她感到惊呆了。

  Emma也要求保持匿名,在使用生成式人工智能之前,她并没有考虑太多。她没有时间。但在她的社交媒体上一直有关于它的嗡嗡声,当一场疾病导致她在学业上落后,她的心智能力已经枯竭时,她决定仔细研究一下它的作用。登录ChatGPT,她可以快速跟踪分析的最后一部分,把它们放到她的文章中,然后继续。“我知道我做错了,但那种感觉完全被疲惫压倒了,”她说。“我没有什么可以给的了,但我必须提交一份完成的作品。”当她的导师在屏幕上拿出一份来自Turnitin的报告,显示整个部分都被标记为由人工智能编写时,艾玛别无选择,只能坦白。

  她的案子被提交给了一个不当行为小组,但最后她很幸运。她的减刑情节似乎被考虑在内,尽管这让她感到惊讶——特别是因为她已经承认使用了ChatGPT——但专家组决定,具体的剽窃指控无法得到证实。

  这是一种解脱,但主要是一种羞辱。“那一年我拿到了第一名,”艾玛说,“但我觉得这是不光彩的,是不应得的。”整个经历让她感到震惊——她的学位和未来都悬于一线——但她认为,大学应该更多地意识到学生们所承受的压力,并更好地让他们掌握这些不熟悉的工具。“学生使用人工智能的原因有很多,”她说。“我希望他们中的一些人没有意识到他们利用它的方式是不可接受的。”

  无论是否作弊,怀疑的气氛都给校园蒙上了一层阴影。一名学生告诉我,尽管他在Turnitin的人工智能检测工具上得分很低,但他还是被拉进了一场不当行为听证会,因为一名导师确信这名学生使用了ChatGPT,因为他的一些分数是按列表排列的,而聊天机器人有这样的倾向。他说,尽管他最终被证明清白,但这段经历“影响了我的心理健康”。他的信心受到严重打击。“我甚至没有使用拼写检查器来帮助编辑我的作品,因为我太害怕了。”

  许多学者似乎相信,“你总是可以判断”一份作业是否是由人工智能撰写的,他们可以从与这些工具相关的风格特征中挑选出来。越来越多的证据表明,他们可能高估了自己的能力。雷丁大学(University of Reading)的研究人员最近进行了一项盲测,通过该大学自己的考试系统提交了chatgct书面答案:94%的人工智能提交的答案未被发现,而且得分高于人类提交的答案。

  学生们也开始互相攻击。大卫是一名同样要求匿名的本科生,他正在做一个小组项目,这时他的一个课友送来了一份可疑的润色作品。大卫解释说,这个学生的英语很差,“这不是他们的错,但老实说,这是我看过的最好的报告。”

  大卫通过几个人工智能探测器进行了测试,证实了他的怀疑,他礼貌地向学生提出了这个问题。那个学生当然否认了。大卫觉得自己已经无能为力了,但他一定要从他们的聊天信息中“收集证据”。“所以,如果我们的课程作业被标记,那么我可以说我检查过了。我知道有人花了好几个小时在这上面,但只要一个人就能毁掉整个游戏。”

  大卫绝不是一个AI唱反调的人。他发现ChatGPT在复习、输入学习文本和让ChatGPT回复问题让他回答方面很有用。但他周围普遍存在的欺骗行为令人沮丧。他说:“我已经对它不敏感了。”“我班上一半的学生所做的报告显然不是他们自己的作品。如果我对每次使用AI的情况都做出反应,我可能会发疯。”最终,大卫认为学生们只是在欺骗自己,但有时他想知道,这种诚信的侵蚀将如何影响他自己的学术和职业生涯。“如果我正在攻读硕士学位,或者在工作,而每个人都是通过作弊获得的……”

  什么算作弊,最终由院校和考官决定。许多大学已经在调整他们的评估方法,制定“人工智能积极”的政策。例如,在剑桥大学,生成式人工智能的适当使用包括将其用于“新概念概述”、“作为协作教练”或“支持时间管理”。该大学警告说,不要过度依赖这些工具,这可能会限制学生培养批判性思维技能的能力。我采访过的一些讲师说,他们觉得这种方法很有帮助,但也有人说这是投降。一位学生表示,她所在的大学似乎不再严肃对待学术不端行为,这让她感到沮丧;她收到了一个“低声警告”,即她不能再将涉嫌人工智能的案件提交给中央纪律委员会。

  他们一致认为,向不同形式的教学和评估的转变——一对一的教学、生动的声音等等——将使学生更难使用人工智能来完成繁重的工作。一所红砖大学的一位讲师告诉我:“如果我们真的想真实地评估学生,而不是仅仅把他们塞进每年9000英镑的课程,希望他们不要抱怨,我们就需要这样做。”“但这将意味着招聘员工,或减少学生人数。”他说,他的部门面临的压力是如此之大,以至于连讲师都承认使用ChatGPT来匆忙制定研讨会和辅导计划。难怪学生们也在这么做。

  如果说有什么不同的话,那就是人工智能作弊危机暴露了获得学位的过程已经变得多么具有交易性。高等教育日益市场化;大学资金紧张,以牺牲教学质量为代价来追逐顾客。与此同时,学生们也在自己的经济压力下苦苦挣扎,痛苦地意识到有保障的毕业后就业机会越来越少。就像论文作坊的兴起与21世纪初高等教育的快速扩张相一致,ChatGPT在一个学位比以往任何时候都更被低估的时代爆发了。

  学生作弊的原因很复杂。研究指出了一些因素,比如表现压力、糟糕的时间管理,或者仅仅是无知。大学文化也可能助长这种现象——当一所大学被认为不认真对待作弊行为时,作弊行为肯定会加速。但当涉及到解决作弊问题时,我们往往会得到同样的答案:师生关系。Paula Miles博士在最近一篇关于学生作弊原因的论文中写道,这一点“至关重要”,它“在帮助减少学术不端行为方面发挥着强大的作用”。而现在,似乎在人类互动稀少的地方,人工智能填补了空白。

  阿尔伯特紧张地等了两个月才发现,谢天谢地,他通过了模块考试。这让他松了口气,尽管他不知道那篇文章是否被扣分了。然而,到那时,损害已经造成。他在大学里已经感到格格不入,正考虑退学。不当行为听证会促使他做出了一个决定,他决定转到另一所学校读第二年。

  他说,从很多方面来说,这段经历都是他大学时光的象征。他感到沮丧的是,他的教授一开始没有和他谈过这篇文章,他感到沮丧的是,在他学习期间,学生们很少有机会向他寻求帮助和支持。说到人工智能,他是不可知论者——他认为用它来学习和做笔记是可以的,只要不是用来提交作业就行。他认为,更大的问题是,高等教育让人感觉太没有人情味了。他说:“大学最好不要再把学生当成数字,而是把他们当成真实的人。”

  有些名字已经改了

乐同网声明:未经许可,不得转载。