新榜讯 3 月 4 日,豆包大模型团队于近日开源SuperGPQA。这是一个在领域方面十分全面且具有高区分度的知识推理基准测试。此数据集成功构建起涵盖 285 个研究生级学科,包含 26529 道专业问题的评估体系。不但囊括了主流学科,还将轻工业、农业、服务科学等长尾学科收纳其中。充分彰显出全面学科的覆盖广度,成功填补了长尾知识评估领域的空白。
扫描二维码
手机浏览
豆包大模型团队开源基准测试集SuperGPQA
分享文章链接
相似推荐

字节跳动豆包大模型团队正式开源首个多语言类SWE数据集
新榜讯 4 月 10 日,字节跳动豆包大模型团队重磅开源首个多语言类 SWE 数据集——Multi-SWE-bench。

字节豆包大模型团队提出稀疏模型架构UltraMem
新榜讯 2 月 12 日消息,据字节跳动豆包大模型团队透露,其 Foundation 团队于近期推出 UltraMem,这是一种能将计算和参数解耦的稀疏模型架构,在确保模型效果的基础上成功化解了推理的访存难题。

字节豆包通用图像编辑模型SeedEdit开启测试
新榜讯 36 氪最新消息,11 月 11 日,字节于豆包大模型团队官网发布全新通用图像编辑模型 SeedEdit。