新榜讯 5 月 26 日,红杉中国重磅宣布推出全新的 AI 基准测试 xbench,同时发布相关论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。据悉,这是首个由投资机构发起,联合国内外十余家高校以及研究机构的数十位博士研究生共同打造的 AI 基准测试,其采用双轨评估体系与长青评估机制。xbench 不仅能评估并推动 AI 系统能力提升上限及技术边界,还将重点量化 AI 系统在真实场景中的效用价值,并长期追踪 Agent 产品的关键突破。