今天的故事开头,叫《重生之我在百度AI大会看李彦宏diss DeepSeek》。
众所周知,DeepSeek在过去几个月里从模型能力到开放策略一路高歌猛进,俨然成了“国产大模型之光”。
而在今天的百度AI开发者大会上,李彦宏却对DeepSeek频频打直球——“DeepSeek不是万能的”,DeepSeek目前只能处理文本,还不能理解和生成图片、音频、视频等多模态内容,幻觉率较高,而且慢和贵。
每年的AI开发者大会,都是厂商们亮底牌、秀肌肉的高光时刻,而今年的百度,显然希望借助这场发布重新扳回主导权。接下来,让我们把目光转向“商战”的重头戏,百度都掏出了哪些新“杀手锏”。
会上,百度不仅一口气发布了两款性能更强大、成本更低的主力大模型(文心 4.5 Turbo和深度思考模型X1 Turbo)。
还一连推出了高说服力数字人、通用超级智能体心响App、内容操作系统沧舟OS等多款AI应用,覆盖AI数字人、代码智能体、多智能体协作等热门赛道。
另外,百度还发布了全球首个电商交易MCP,搜索MCP等MCP server,目的是“帮助开发者积极全面拥抱MCP”,迎接AI应用爆发。
一边压成本提性能,一边加速AI应用的落地,接下来一起看看,这场发布会到底释放了哪些值得关注的新信号、新产品和新工具。
文心4.5 Turbo和X1 Turbo:多模态、低成本、强推理
大模型成本高、用不起是当前开发者做AI应用的一大阻碍。百度给出的解法是:模型必须更强,也必须更便宜,低成本是撬动应用落地的关键。
用李彦宏的话来说:“创新的本质其实是成本下降。”成本降低后,开发者和创业者们才可以放心大胆地做开发,企业才能够低成本地部署大模型,最终推动AI应用在各行业加速落地。
于是,百度带来了两款新升级的主力大模型:文心大模型4.5 Turbo和深度思考模型X1 Turbo,能力更强、成本更低。
相比文心4.5,文心大模型4.5 Turbo速度更快,价格下降80%。文心大模型X1 Turbo相比文心X1,性能提升的同时,价格再降50%。
降价不是降级,恰恰相反,文心大模型4.5 Turbo和X1 Turbo都进一步增强了多模态能力,在多个基准测试集中,文心4.5 Turbo多模态能力与GPT 4.1持平,甚至在某些维度超过了GPT-4o。李彦宏表示:“多模态将成为未来基础模型的标配,纯文本模型的市场会越变越小。”
文心4.5 Turbo-多模态
文心4.5 Turbo-文本
在模型能力展示环节,李彦宏用1986年马拉纳多打出“上帝之手”的经典照片,展示了文心4.5 Turbo的图像理解能力。
面对这张画质非常低、过度放大剪裁、信息量很少的足球赛照片,文心4.5 Turbo仅通过赛场广告牌Canon和球员动作等元素,就准确地判断出这是1986年世界杯四分之一决赛中阿根廷对战英格兰的比赛。
虽然让人感到不明觉厉,但这种场景下的演示不排除是硬编码或是喂过相关样本。
在视频理解能力方面,百度用了一个“水槽实验”的视频作为测试样本。可以看到,文心4.5 Turbo准确识别出画面中有三种不同形状和颜色的浮体:黄色圆柱体、红色圆柱体,以及红色水滴形浮体,并观察到红色水滴形浮体比其他两块浮体更快到达了终点。
现场李彦宏还展示了文心X1 Turbo画的武汉文创爆款“蒜鸟”,背后还有武汉的地标建筑黄鹤楼。
文心大模型X1 Turbo是基于4.5 Turbo的深度思考模型,在性能提升的同时,还具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强,实测表现领先 DeepSeek R1、V3 等主流国产模型。
李彦宏在大会上表示:“只要找对场景,选对基础模型,有时候再懂一点调模型的方法,在此基础上做出来的应用,是不会过时的。”他强调,“没有应用,芯片、模型都没有价值。未来统治世界的不是模型,而是应用”。
值得一说的细节是,李彦宏在大会现场谈及DeepSeek时相当直白地指出了其局限性,直言“DeepSeek不是万能的”。他解释说,DeepSeek目前只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容,幻觉率较高,更大的问题则是慢和贵。
一边降低模型成本,一边强调多模态应用的价值,百度释放出来的信号很明显:接下来百度的主战场将从“模型层”转向“应用层”。也因此可以看到,这次百度大会围绕多模态、智能体、MCP等发布了诸多应用案例。
高说服力数字人:一个“人”顶一个直播团队
会上,李彦宏称AI数字人是“2025年最令人激动的突破性应用之一”,并顺势发布了百度的高说服力数字人。
和过去那些文案枯燥呆板、机器音重、动作僵的数字人不同,这一代产品的表现力已经开始逼近真人,甚至在某些直播场景中超越了真人主播。它不仅能讲内容,还能生成剧本,根据语气、表情、动作进行实时匹配和调整,情绪节奏切换流畅,从现场展示的两个demo来看,着实让人难辨真假。
而这背后靠的是多模态大模型能力支撑,以及一个可以根据直播数据自动调度角色、素材、镜头的“AI大脑”。简单说,就是一个人顶一整个直播营销团队:会导播、会控场,能根据直播间实时热度和转化情况,灵活调度助播、场控、运营等角色,适时切换镜头画面、调度图片、视频素材等。
对于追求高效转化的电商、消费行业来说,这或许是个不小的诱惑。
目前,百度慧播星已上线“一键克隆”功能。最短只需录个2分钟视频,就能快速生成专属数字人。在慧播星AI展区,也吸引了不少参会嘉宾体验现场定制一个自己的数字人。
通用超级智能体心响App“心响”正式发布
在这次大会上,百度正式发布了通用超级智能体心响App,主打“多智能体协作”,从拆解需求、调度资源,到最后交付结果,全流程自动化。
例如,在租房维权场景中,它能先理清问题核心,再调动律师AI提供多角度专业意见,最后生成可下载的法律分析报告,甚至给出具体维权流程。
不止法律咨询,目前心响已覆盖旅游规划、知识问答、学习办公等200个日常高频任务场景。比如规划一趟城市旅行,它能从路线、餐厅到优惠活动一步到位搞定。
又比如办公场景,它可以生成提案、优化日程、安排提醒,甚至联动更多“AI分身”并行处理。
目前,心响App已登陆各大安卓应用商店,据官方透露,iOS版本也将很快上线。
无代码开发工具“秒哒”全面开放
代码智能体Coding Agent,无疑是最近半年AI应用进展最快、最火的赛道之一,全球已陆续涌现了 Cursor、Devin、Lovable等一系列代码智能体。
去年11月的百度世界大会上,百度发布了无代码编程工具“秒哒”,拥有无代码编程、多智能体协作、多工具调用三大特性。今年3月,秒哒向全社会开放,任何人都可以通过秒哒,一句话生成应用。
在会上展示的一些案例中,有大学生团队用它几分钟搭出了一个简单的营销应用,模型调用成本不到5块钱;
也有果农为自家苹果生意做了一个自动算账的应用;
还有退休师傅,创建了一个可以进行车位、访客、维修登记和社区活动公告的居民服务应用;
甚至有一个苏州的绣娘工作室,用它构建了一个苏绣AI博物馆。
全球首个电商交易MCP、搜索MCP
随着Manus的爆火,MCP成了今年AI圈的新顶流。通俗点来讲,MCP就像一个“万能插座”,让各种需求都能通过标准化的接口和大模型对接,实现“即插即用”。
OpenAI、微软、Google等海外巨头已纷纷支持该协议,阿里云百炼、腾讯云也迅速上线来支持MCP的搭建平台。而在这次百度Create大会上,百度也正式入局:发布了全球首个电商交易MCP、搜索MCP等MCP server。
这背后少不了技术底座的升级。百度优化了文心基础大模型,让它在调用MCP server时的任务规划和资源调度能力更强;百度搜索更是构建了专门的server发现平台,可以索引全网优质服务接口,提升搜索MCP效果。文心快码也成为国内首个支持MCP server 的智能编码助手;百度智能云千帆平台已全面支持开发者创建、发布、调用第三方MCP server。
除此之外,百度把自己电商、文库、网盘、地图的多个服务能力也都做成了MCP server对外开放,比如商品详情、参数对比、排行榜等功能模块。
文心大模型使用的联网搜索工具也变身为百度搜索MCP server供开发者调用,李彦宏称,百度搜索MCP是目前市场上“最好的搜索MCP”,并承诺将持续推动更多服务接口向MCP兼容。
除了大模型、多智能体协作、数字人等核心能力发布,百度在应用生态的延展上也有一些新的尝试。
面对AI应用的井喷,百度搜索开放平台发布了“AI开放计划”(sai.baidu.com),希望通过流量分发、服务接入、变现机制等一整套支持体系,为智能体、H5、小程序和App开发者打开通路。
同时,百度文库与网盘联合推出了全球首个内容领域的操作系统“沧舟OS”,强调对多模态内容的解析、向量化和再生成能力,本质上像是一个“AI内容操作系统”。
它可以理解图文、音视频等多种模态,还能完成内容结构化、重组、再生成的全过程。
一个典型的应用案例便是,百度网盘上线的“AI笔记”功能,用户在观看视频学习资料时,可一键生成结构化笔记、AI思维导图,甚至还能基于视频内容自动出题。
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、推荐 一起研究AI