新榜讯 3 月 4 日,豆包大模型团队于近日开源SuperGPQA。这是一个在领域方面十分全面且具有高区分度的知识推理基准测试。此数据集成功构建起涵盖 285 个研究生级学科,包含 26529 道专业问题的评估体系。不但囊括了主流学科,还将轻工业、农业、服务科学等长尾学科收纳其中。充分彰显出全面学科的覆盖广度,成功填补了长尾知识评估领域的空白。
扫描二维码
手机浏览
豆包大模型团队开源基准测试集SuperGPQA
分享文章链接
相似推荐

字节豆包大模型团队提出稀疏模型架构UltraMem
新榜讯 2 月 12 日消息,据字节跳动豆包大模型团队透露,其 Foundation 团队于近期推出 UltraMem,这是一种能将计算和参数解耦的稀疏模型架构,在确保模型效果的基础上成功化解了推理的访存难题。

豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源
新榜讯 由豆包大模型团队携手北京交通大学、中国科学技术大学联合提出的视频生成实验模型“VideoWorld”,有别于 Sora 、DALL-E 、Midjourney 等主流多模态模型,在业界率先达成无需依赖语言模型便能认知世界的突破。

字节豆包通用图像编辑模型SeedEdit开启测试
新榜讯 36 氪最新消息,11 月 11 日,字节于豆包大模型团队官网发布全新通用图像编辑模型 SeedEdit。