新榜讯 4 月 10 日,字节跳动豆包大模型团队重磅开源首个多语言类 SWE 数据集——Multi-SWE-bench。该数据集能够用于评估并增强大模型“自动修 Bug”的能力。在 SWE-bench 的基础之上,Multi-SWE-bench 开创性地涵盖了除 Python 之外的 7 种主流编程语言,成为名副其实面向“全栈工程”的评测基准。其数据全部源自 GitHub issue,历经近一年时间精心构建,旨在尽可能精准地测评及提升大模型高阶编程的智能水平。
扫描二维码
手机浏览
字节跳动豆包大模型团队正式开源首个多语言类SWE数据集
分享文章链接
相似推荐

字节跳动开源长文本处理模型Seed-OSS-36B
新榜讯 字节跳动Seed团队重磅开源Seed - OSS - 36B系列大模型!该系列大模型专为长上下文、推理、Agent及通用场景量身打造,其最大上下文长度能够达到512k tokens。

字节跳动开源一款Deep Research项目
新榜讯 5 月 10 日,字节跳动技术团队宣称,依托 LangStack 的全新 Deep Research 开源项目——DeerFlow,已于 ByteDance 的 GitHub 官方组织实现开源。

富士康推出首个大语言模型
新榜讯 昨日,富士康母公司鸿海集团重磅宣布推出首个大语言模型“FoxBrain”。