当AI超越大学生十年寒窗还有意义吗
AI可以超越大学生,获得更高的分数,且大多数情况下无法被检测到 🤯
在一篇论文中,研究人员秘密提交了33份由AI生成的考试答案。主要发现是94%的AI提交未被检测到,并且表现持续优于人类学生。

📌 研究人员在5个本科心理学模块的所有年级中使用GPT-4提交了100% AI生成的答案,包括简答题要求160字和论文要求2000字的标准化提示,并包含学术引用。
📌 对于论文,研究人员需要多次提示GPT-4以达到目标字数。移除了GPT-4添加的任何引用部分,除此之外未修改AI生成的文本。
📌 使用特殊的大学账户将AI答案作为虚假学生提交。AI生成的答案约占总考试答案的5%,以避免因相似性自检出。
📌 评分使用标准大学程序——首先是评分员评分,然后是独立审查。评分员并不知道AI提交夹杂其中。
📌 仅有6%的AI提交因学术不端行为问题被标记。只有3%明确提及对AI的怀疑。

📌 AI提交在4/5个模块中获得了比真实学生高0.5-1个等级的中位分数。唯一的例外是最后一年模块,AI表现较差。
📌 计算了AI优于随机抽取的真实学生提交的概率。对于4/5个模块,AI几乎100%优于真实学生。整体上,在所有模块中,AI优于真实学生的概率为83.4%。

而也就高考结束后,极客公园对九个大模型进行了2024年高考试卷测试,结果显示四个大模型的文科成绩达到了重点本科线,其中GPT-4o和字节豆包表现最佳。相比之下,理科成绩较差,数学最高仅70分。虽然AI在文科方面表现出色,但其数学能力仍有限。
AI在很多方面的能力已超过人类平均水平,尤其在文科科目上,由于训练了大量公开资料。尽管AI能力进步明显,但目前仍无法完全替代人类,尤其在驾驭和利用AI解决问题方面。
OpenAI CTO Mira Murati 在一次访谈中说过:“如果你观察我们的进步轨迹,像 GPT-3 这样的系统,可以说智能水平相当于一个婴儿。而像 GPT-4 这样的系统差不多是高中生的智能水平。在未来几年,我们期望看到针对特定任务的博士级别的人工智能。”
可以预见,AI 参考高考,分数将轻松到达并进一步超过重点线,甚至最终成为高考状元。
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/164.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论