作者 | 阿虎月山橘‍‍‍‍

编辑 | 卷毛

“别把豆包不当干粮！”

今天，在2024火山引擎FORCE原动力大会上，字节豆包一口气发布了多项重磅更新，在演示视频中，豆包看着这幅画说，它虽然看起来小小的不起眼，但也有着重要的价值。

作为字节跳动在大模型领域的旗舰产品，豆包在国内众多同类竞品中一直是一个不容忽视的存在。

据AI新榜11月产品榜显示，豆包月访问量超2000万，下载量超860万，位列国内榜第一。

据官方最新数据，豆包大模型的日均tokens使用量于12月突破了4万亿大关，在7个月内增长超过33倍，这个数字背后体现了庞大、复杂的AI技术应用和需求。

在竞争激烈的国内大模型市场，各家都在忙着提升模型性能和拓展应用场景，下面我们一起来看看，豆包的这些更新有哪些值得关注的点。

豆包视觉理解模型升级，“加量不加价”

‍

一直以来，视觉理解能力都是衡量AI多模态认知能力的核心，也是迈向AGI的关键一步。AI能够“看见”和“理解”世界，意味着能够更全面地理解和处理复杂的任务，而不仅仅是简单的语音或文本响应。

在识图能力几乎成了所有AI对话类产品标配的当下，豆包这波属于是“加量不加价”，不仅升级了识图性能，还把价格打了下来。

据官方介绍，豆包视觉理解模型有着更强的内容识别能力、更强的推理能力和更细腻的视觉描述能力。然而，每千tokens输入价格仅为3厘，也就是说一块钱就能处理284张720P的图片，比行业价格便宜85％。

目前，豆包App的识图能力就是基于最新的视觉理解模型。用户可以同时上传图片并输入文本问题，模型能够综合理解并给出回答。

这里我们上传了一张空间透视较为复杂的图片，豆包准确地描述了图中小猫的表情、衣服和地板的颜色、空间关系、以及按钮等细节。

一些生活中常见的使用场景如翻译外文菜单、识别图中景点并介绍、看图解题/debug、看图创作等，自然也都不在话下。

据官方发布的demo视频，豆包还和抖音商城进行了打通，可以一键搜索同款。

不过，真正的视觉理解，不仅仅是识别图像中人/物的基础特征，还需要理解对象之间的关系，这个过程就涉及深度的推理能力。

太好了！是豆包文生图模型，AI生成中字有救了

“让我们说中文”，这次真的能让AI实现了。

基于豆包文生图模型、豆包视频生成模型，即梦近期上线了“一键生成海报”和“动态海报”的能力，成为首个可以生成图片中文字的AI产品。

比如，最近我们在写一篇“给抽象AI视频颁奖”的稿子，需要一张头图。我向AI表达了以下需求，让他帮我生成一张海报：

请帮我生成一张海报，主要用于视频内容宣传推广

类似于奖状的形式，中间偏上方横排写着中文字“奖状”，字体大，一定要符合奖状的样式。

其他小元素可以是各种抽象的、难以理解的场景，比如机器人吃苹果，像素风格

底部写着“AI新榜出品，仅供娱乐”，需要有设计感，电影效果

还需要在画面中生成一个符合海报的小logo，一个女孩带着3D眼镜观看电视，线条简单，比例为1:1

虽然生成后的部分小字还是有乱码的情况，但整体的完成度还是比较高的。并且，即梦平台还支持后编辑，我们可以进一步修改、消除不需要的元素，甚至将它变成动态海报。

另外，最近很流行的胶片风头像，只要在提示词中加入“梦核、胶片、闪光灯效果”等提示词，也可以靠即梦生成了：

即梦首页上也有不少创作者生成的产品海报、新年祝福、手机壁纸等等。

可以说，相比此前流行的Recraft生图模型，豆包文生图模型直接把国内用户的痛点解决了，在中文理解上更懂我们，也更适配需要中文字体的设计师们。

豆包音乐大模型升级，可局部修改歌词

除了视觉系的模型升级，豆包音乐大模型也迎来了更新。

豆包音乐模型发布3个月后，已经能支持长达3分钟的音乐生成，还可以利用旋律、节奏、和声等信息，使整首歌在风格、情感等音乐元素上保持一致。

用户可以在“海绵音乐”（https://www.haimian.com/create）中体验豆包音乐大模型的效果。

只要上传一张图，或是输入一句话的创意灵感，就可以让AI生成一首中文歌。比如，我们上传了一张最近流行的“自己吓自己”名场面，并输入“写一首新的水调歌头”，来听听效果：

如果对生成的歌词不满意，AI没有突出“自己吓自己”的经典语句，我们可以对歌词进行局部修改，AI会控制好具体的数字，我们只要按格填空就可以了。

另外，据官方介绍，“海绵音乐”后续会发布多张图片生成音乐，以及视频生成音乐的玩法，爱整活儿的玩家们可以期待一波。

豆包3D大模型发布，一句话生成3D世界

豆包也加入AI生成3D模型赛道了。

根据官方发布的Demo，豆包3D模型和数字孪生平台veOmniverse一起使用，就可以实现AIGC仿真模拟器。

比如，用户只需输入文本“生成一个符合机器人作业的车间场景”，就可以实时生成并搭建起一个具体的车间场景。将生成的模型上传到云后，布局师还能实时调用并完成场景设计，一定程度上提升了创作效率和协作体验。

在现场，火山引擎还专门设置了3D打印的区域，“啪”一下AI生成的模型就成为了你手中实实在在的资产。

写在最后

从今年5月豆包大模型家族正式亮相，短短7个月，豆包全家桶已经连续发布了视频生成、视觉理解等多种模型。

谭待在媒体群访环节透露，火山引擎有计划部署推理模型，现在可以看到豆包大模型在推理、数学理解能力上的雏形。这些模型能力已经应用在豆包、即梦等C端产品上。

另外，在现场，火山引擎还升级了火山方舟、扣子和HiAgent三款产品平台，帮助更多企业高效开发AI应用。

值得一提的是，从此次现场发布来看，字节内部的确正在提升剪映和即梦产品的优先级。

此前，据《智能涌现》报道，抖音管理层判断ChatBot类产品已经达到了“隐形天花板”，长期更理想的产品形式需要更视觉化的产品体验和更低使用门槛。因此，字节已经提升了剪映和即梦的产品优先级，尝试打造AI时代的“抖音”。

更视觉化的产品体验，也成为了豆包大模型此次发布的焦点。

谭待在接受媒体群访时表示，语言用来描述世界，但首先还是要理解世界。这也是豆包推出视觉理解模型的意义所在。

他强调，火山引擎的目标是朝着中国大模型领域、新的技术变革第一名发展。

“现在我们并不关注市场竞争，因为大模型市场仍处于早期阶段，我们更关心有哪些用户需求，到底还没被满足。让成本更低，应用性能更好，让大家用起来。从长期来看，大模型的C端和B端应该是齐头并进发展。”谭待补充道。

2024年无疑是大模型快速发展的一年，这一年中，我们看到了各家厂商开卷视频模型，陆续推出实时视频通话能力……作为国内热门厂商的字节跳动、火山引擎也不想掉队。

就像谭待在现场所说，“当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。”

这趟列车会带我们驶向什么样的AI未来，豆包正通过TA的能力交出答卷。

    
    
     
     
      
      
       
       
        
        

       
       
       
       
        「AI新榜交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。
       
       
       
       
        

       
       
      
      
     
     
    
    
     
     
       欢迎分享、点赞、在看
     
     
     
     
       一起研究AI