登录/注册
扫描二维码
手机浏览

首个AI大模型高考全卷评测结果发布

新榜商桥
情报行业动态AI

新榜讯 近日,OpenCompass评测体系选择了6个开源模型和OpenAI的GPT-4o来进行首个大型模型的高考"语数外"全卷能力测试。评测所使用的试卷为全国新课标I卷,所有参与评测的开源模型的发布时间都早于高考,确保了评测的"闭卷"性质。与此同时,评分由具有高考评卷经验的教师进行人工评判,以更加接近真实的阅卷标准。 首个大型模型高考全卷评测的结果显示,阿里通义千问Qwen2-72B、OpenAI的GPT-4o以及书生·浦语2.0文曲星(InternLM2-20B-WQX)分别获得了本次大型模型高考的前三甲。他们的得分率分别为72.1%、70.5%和70.4%。


分享文章链接