新榜讯 1 月 10 日,微软亚洲研究院的全华班研究团队重磅推出 rStar-Math 算法,此创新推理方法大幅提高了小型语言模型(SLMs)处理数学问题的能力。在 MATH 基准测试中,rStar-Math 让 Qwen2.5-Math-7B 模型的准确率由 58.8%飙升至 90.0%,成功超越 OpenAI 的 o1-preview 模型。 据悉,该技术借助蒙特卡洛树搜索(MCTS)模拟人类的“深度思考”,还要求模型在输出时同步给出自然语言的推理步骤及 Python 代码。历经四轮自我演进,rStar-Math 在多项基准测试中收获显著成果,在美国数学邀请赛(AIME)中解决了 53.3%的问题,表现位居同类型的前 20%。 论文链接:https://arxiv.org/pdf/2501.04519