这届打工人,可以使唤的“AI牛马”越来越多了。
“AI牛马”,顾名思义,是指那些像牛马一样辛勤工作、不知疲倦的AI。从今年年初DeepSeek R1横空出世,“AI牛马”这个概念就在小红书等平台上不断刷屏,不少打工人也开始把工作“外包”给AI。
不过现在最卷的“AI牛马”赛道已经不是DeepSeek、ChatGPT等AI聊天机器人了,而是被Manus带火AI Agent赛道。简单来说,主打Agent功能或特点的AI产品,不仅能“想”(规划),更能“做”(执行)。相比AI聊天机器人,这类产品里的AI更想直接帮你把活干了。
这个赛道最近有多卷?
从Manus一夜爆火,到字节跳动、百度相继布局通用AI Agent领域,短短两个月内,众多标榜“Agent”概念的产品如雨后春笋般涌现。其中前百度高管景鲲创办的Genspark,从AI搜索转型为通用型AI Agent产品后,仅用9天就突破了1000万美金ARR(年度经常性收入)。
接着,智谱Agent产品“AutoGLM沉思”也正式上线。发布时,智谱还披露了一个由“沉思”运营的小红书账号,并称该账号在短短两周内吸引了5000名粉丝,并接到了多个商业推广邀请,成功变现500元。
同样引人注目的还有一款由中国95后团队打造、号称“全球首个Agentic浏览器”的产品Fellou,也在AI圈获得了一定关注度,它的内测邀请码最近已经在某二手平台上被炒到29.99元。
这些打着Agent名头的“AI牛马”真的好用吗?它们分别擅长哪些应用场景?相比通用AI Agent产品,与浏览器等场景深度结合的垂类Agent应用是否更为可靠?带着这些问题,我进行了一番实测。
最新“AI牛马”实测:
把工作外包给AI,是噱头还是生产力革命?
从Manus到扣子空间,我发现当前通用型AI Agent产品普遍只做到了“通”,而在解决具体问题、达成实际效果层面并没有做到“好用”。
所以在以下实测过程中,我会更聚焦于AI牛马们在实际应用中究竟“能做什么”与“不能做什么”,力求为大家排雷避坑、减少试错成本。
Fellou:聪明能干活但是“职场糊弄大师”
Fellou主打特点是“会思考更会执行的Agentic浏览器”。
从互联网诞生起,浏览器就是一个重要的信息入口。也因此,Fellou的核心设计显得很巧妙。它整合了浏览器、Agent和工作流自动化等三大产品能力,从而实现“思考”、“操作”和“执行”闭环。
https://fellou.ai/
进入Fellou主页面,功能分区很清爽。右侧是与AI交互的对话框(可固定),方便用户随时与AI进行沟通和交互;左侧是搜索框,在这里你可以搜索浏览信息、也可以“监工”AI是怎么干活的。
Fellou目前仅支持Mac OS系统且有一定硬件限制
这也和不同Agent工作方式有关。Fellou的Agent是基于图形用户界面(GUI)而非API进行操作的。这意味着它能够像人类用户一样直接与软件界面进行交互,模拟鼠标点击、键盘输入等操作来完成任务。
最终它生成了一份网页报告,精准地筛选出了符合提示词要求的资讯,甚至连像“OpenAI图像生成API发布”这样非常新的重磅消息也能迅速捕获。
在此基础上,你还能让AI把报告换一个主题色、增加更多信息、或是添加一条时间线直观展示重要新闻事件。
详细报告地址:
https://chat.fellou.ai/report/4550ae9b-2b3d-42c7-82cb-bdff022c5c70
值得注意的是,这份看似很专业的报告,却在一些细节上存在“致命”错误。例如,把数据“1.3亿”误写成了“130万”。如果这种错误如果出现在真实的公司报告中,可能会成为“世界是个巨大的草台班子”的又一大例证。
Techcrunch原文写的是“130 million”(即1.3亿)
除了搜索整合信息生成报告外,你还可以让它去社交平台搜集特定领域的KOL,以及帮你完成发推文等任务。
提示词:帮我找到过去两周在推特上曝光量超过5万的10位科技领域的关键意见领袖(KOL)
需要用户授权才能登录具体网站获得信息
但相比新闻资讯收集,这类任务数据不准确问题更明显、参考链接也不完整。
不过,Fellou搜集出来的KOL还是有一定价值的,它给我的列表里有纳瓦尔、吴恩达等科技圈大佬。报告网页也做得有模有样,甚至有一些简单的交互和(有Bug的)搜索功能。
详细报告地址:
https://chat.fellou.ai/report/f0cbdd1d-2e52-45bb-a7e5-b2898123e2e8
让AI接管社交媒体运营倒是一个很新奇的体验,但我实际体验下来感觉用处不大:
Fellou执行发布单条推文这类简单指令基本没问题,可一旦涉及更复杂的工作流——比如需要策略性地转发多位AI头部博主的推文并附上恰当评论,这类既耗时又需要重复操作的“养号”任务时,AI就显得有些力不从心,要么陷入卡Bug式的循环运行、要么糊弄人“说自己完成任务了”,离真正的智能高效还有相当一段距离。
它给自己规划了8个任务步骤,实际仅做到第4步
不过值得一提的是,在Fellou上你可以通过输入“/”搜索指定的内容源(包括X、Reddit等社交平台)或是直接检索自己过往在Fellou中生成的报告,并基于这些历史报告向AI进一步提问(输入“@”可将报告作为上下文信息引入到对话),从而构建起一个可迭代的个人知识库。
AutoGLM沉思:智谱不语,只是一味干活
从任务完成情况和效率来看,AutoGLM沉思恐怕坐实了“职场老黄牛”身份。
https://autoglm-research.zhipuai.cn/
不论问题难度如何,AutoGLM沉思都会自动开启“一味干活”模式。
像“特朗普为什么在国内被叫做川普”这类简单问题,AutoGLM沉思也会走完全流程:从深度思考、推理规划,到上网检索、整理信息,最后生成结论,一个不落。
一顿操作猛如虎,最后给出的答案,和直接问元宝几秒钟得到的答案差别不大。
AutoGLM沉思使用安装上也更有操作门槛一些,不仅需要下载智谱清言Mac/Win客户端,还要安装Chrome浏览器插件,之后才能在客户端中使用。
而需要安装浏览器插件原因在于,AutoGLM沉思和Fellou一样,要替你浏览网页、收集信息。
但两者不同的是,AutoGLM沉思并没有以虚拟窗口的形式降低AI的存在感,反而是会占用用户的浏览器,影响整体使用体验。
左侧是AutoGLM沉思在操作浏览器
当然我也测试了AutoGLM沉思在更复杂场景下的表现。比如让它从零开始策划并运营一个定位为“销售3D打印挂件的科技博主”的小红书账号。
任务启动后,AutoGLM沉思表现得很专业:它会打开小红书并要求用户授权登录,进去后就是一顿操作,研究同赛道账号,初看颇有章法。
但到了实际产出环节,效果却不尽如人意。最终给出的关于用户名、头像选择以及账号简介的建议,比较宽泛,缺乏针对性和创意亮点。
看到“小红的3D世界”那一刻,
影视解说里的小美小帅都变高级了
此外实测中AutoGLM沉思并没有完成账号的创建动作,它仅仅停留在提供建议和操作步骤的层面,最终设置和修改都需要用户自己动手完成。
不过,AutoGLM沉思这种“不替用户操作”的特性放到别的场景倒成了优点。特别惊艳我的一个案例是:我之前研究了很久的AI电脑装机配置,交给AutoGLM沉思不到10分钟就整理出来了,并且贴心地打开了每一个配件对应的淘宝商品页面。
但它仅仅止步于此——提供信息和购买入口,而没有把这些商品自动加入购物车,在涉及购买决策这种场景下,体现出了恰到好处的“边界感”。
Genspark:新晋“不加预算请不起的留子”
比起ChatGPT,Genspark才是符合定义的“不加预算请不起的留子”。
毕竟,它是华人团队面向海外市场推出的一款通用AI Agent产品,相对而言更符合“留子”这一人设。
Genspark之前定位更偏AI搜索,如今Agent赛道大火之后,不止宣发重点,Genspark的产品界面也逐渐偏离搜索,更多地向Agent产品形态靠拢。
产品地址:https://www.genspark.ai/
和其他定位通用AI Agent的产品一样,你可以把旅行规划、制作报告、数据图表这类复杂任务丢给它,能不能做得完美另说,但它一定能做出来。
在没有多余提示词调教的情况下,Genspark生成的报告和数据图表,整体审美都很在线,且肉眼不容易发现明显的数据错误或制图瑕疵。
完成任务的速度也很快。以下这份报告是Genspark花了2分钟完成信息搜索,并通过代码驱动的方式自动化生成的PPT,整个工作流耗时控制在10分钟以内。
详细报告地址:
https://ajpbouva.genspark.space/
同类产品中,Genspark还支持一个少见的“AI打电话”能力。从官方Demo演示来看,Genspark已经可以流畅地帮用户预订餐厅和酒店,这种从虚拟走向现实,打破次元壁的能力,增强了AI在日常生活中的实用性。
不过,雇佣Genspark干活的费用并不低。官方每天会给免费用户发放200积分,只够生成一次常规报告。目前Genspark提供的订阅方案中,最便宜的年付会员也要19.99美元/月。
AI Agent赛道火了,
但它还没有那么“万能”
去年Sora,今年Manus,这两款现象级AI应用都带火了一个赛道。
相似的剧情也在重演:对大多数人来说,Sora是只有少数邀测艺术家能用的“期货”,Manus的邀请码也只流向了少数幸运儿。
一边是业界被点燃的热情。国内大厂如字节、阿里、百度已经出手,不仅布局产品还要卷MCP生态;初创公司则涌现了Fellou、Genspark等有华人背景的出海产品;开源方面也有不少项目如Suna,已经上线Github,狂揽7.5K星标。
另一边是,AI Agent产品还没有成熟到可以让C端用户体验到“wow moment”。这背后,既有技术的局限,也有互联网时代遗留下来的老问题。
互联网公域中有价值、可信赖的信息数量在下降,而各大平台间的信息壁垒依旧森严,形成一座座“数据孤岛”,这成为通用AI Agent发展绕不开的核心挑战之一。
技术方面,底层大模型仍然决定着AI Agent产品的上线,受限于当前大模型的智能水平和上下文记忆能力,AI Agent在面对逻辑链条过长的复杂任务时,往往容易“掉链子”或偏离目标。
同时由于AI幻觉问题的存在,“AI生成的内容不能全信”也应该成为每个首席牛马官的基本常识。
一个能自主完成任务的AI Agent打开了一个想象:把现代人从日益繁重的工作内卷中解放出来。但至少从目前来看,AI Agent产品们,还没有真正抵达那个“足够好用”、“足够可靠”的阶段。
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、推荐 一起研究AI