登录/注册
扫描二维码
手机浏览

太好了!是豆包文生图模型,AI生成中字有救了

AI新榜
新榜独家AIGC


作者 | 阿虎 月山橘‍‍

编辑 | 卷毛


“别把豆包不当干粮!”



今天,在2024火山引擎FORCE原动力大会上,字节豆包一口气发布了多项重磅更新,在演示视频中,豆包看着这幅画说,它虽然看起来小小的不起眼,但也有着重要的价值。


作为字节跳动在大模型领域的旗舰产品,豆包在国内众多同类竞品中一直是一个不容忽视的存在。


AI新榜11月产品榜显示,豆包月访问量超2000万,下载量超860万,位列国内榜第一。


据官方最新数据,豆包大模型的日均tokens使用量于12月突破了4万亿大关,在7个月内增长超过33倍,这个数字背后体现了庞大、复杂的AI技术应用和需求。



在竞争激烈的国内大模型市场,各家都在忙着提升模型性能和拓展应用场景,下面我们一起来看看,豆包的这些更新有哪些值得关注的点。



豆包视觉理解模型升级,“加量不加价”


一直以来,视觉理解能力都是衡量AI多模态认知能力的核心,也是迈向AGI的关键一步。AI能够“看见”和“理解”世界,意味着能够更全面地理解和处理复杂的任务,而不仅仅是简单的语音或文本响应。


在识图能力几乎成了所有AI对话类产品标配的当下,豆包这波属于是“加量不加价”,不仅升级了识图性能,还把价格打了下来。


据官方介绍,豆包视觉理解模型有着更强的内容识别能力更强的推理能力更细腻的视觉描述能力。然而,每千tokens输入价格仅为3厘,也就是说一块钱就能处理284张720P的图片,比行业价格便宜85%



目前,豆包App的识图能力就是基于最新的视觉理解模型。用户可以同时上传图片并输入文本问题,模型能够综合理解并给出回答。


这里我们上传了一张空间透视较为复杂的图片,豆包准确地描述了图中小猫的表情、衣服和地板的颜色、空间关系、以及按钮等细节。




一些生活中常见的使用场景如翻译外文菜单、识别图中景点并介绍、看图解题/debug、看图创作等,自然也都不在话下。





据官方发布的demo视频,豆包还和抖音商城进行了打通,可以一键搜索同款。



不过,真正的视觉理解,不仅仅是识别图像中人/物的基础特征,还需要理解对象之间的关系,这个过程就涉及深度的推理能力。



太好了!是豆包文生图模型,AI生成中字有救了


“让我们说中文”,这次真的能让AI实现了。


基于豆包文生图模型、豆包视频生成模型,即梦近期上线了“一键生成海报”和“动态海报”的能力,成为首个可以生成图片中文字的AI产品。


比如,最近我们在写一篇“给抽象AI视频颁奖”的稿子,需要一张头图。我向AI表达了以下需求,让他帮我生成一张海报:


请帮我生成一张海报,主要用于视频内容宣传推广


类似于奖状的形式,中间偏上方横排写着中文字“奖状”,字体大,一定要符合奖状的样式。


其他小元素可以是各种抽象的、难以理解的场景,比如机器人吃苹果,像素风格


底部写着“AI新榜出品,仅供娱乐”,需要有设计感,电影效果


还需要在画面中生成一个符合海报的小logo,一个女孩带着3D眼镜观看电视,线条简单,比例为1:1


虽然生成后的部分小字还是有乱码的情况,但整体的完成度还是比较高的。并且,即梦平台还支持后编辑,我们可以进一步修改、消除不需要的元素,甚至将它变成动态海报。



另外,最近很流行的胶片风头像,只要在提示词中加入“梦核、胶片、闪光灯效果”等提示词,也可以靠即梦生成了:



即梦首页上也有不少创作者生成的产品海报、新年祝福、手机壁纸等等。



可以说,相比此前流行的Recraft生图模型,豆包文生图模型直接把国内用户的痛点解决了,在中文理解上更懂我们,也更适配需要中文字体的设计师们。



豆包音乐大模型升级,可局部修改歌词


除了视觉系的模型升级,豆包音乐大模型也迎来了更新。


豆包音乐模型发布3个月后,已经能支持长达3分钟的音乐生成,还可以利用旋律、节奏、和声等信息,使整首歌在风格、情感等音乐元素上保持一致。


用户可以在“海绵音乐”(https://www.haimian.com/create)中体验豆包音乐大模型的效果。


只要上传一张图,或是输入一句话的创意灵感,就可以让AI生成一首中文歌。比如,我们上传了一张最近流行的“自己吓自己”名场面,并输入“写一首新的水调歌头”,来听听效果:



如果对生成的歌词不满意,AI没有突出“自己吓自己”的经典语句,我们可以对歌词进行局部修改,AI会控制好具体的数字,我们只要按格填空就可以了。



另外,据官方介绍,“海绵音乐”后续会发布多张图片生成音乐,以及视频生成音乐的玩法,爱整活儿的玩家们可以期待一波。



豆包3D大模型发布,一句话生成3D世界

豆包也加入AI生成3D模型赛道了。


根据官方发布的Demo,豆包3D模型和数字孪生平台veOmniverse一起使用,就可以实现AIGC仿真模拟器。


比如,用户只需输入文本“生成一个符合机器人作业的车间场景”,就可以实时生成并搭建起一个具体的车间场景。将生成的模型上传到云后,布局师还能实时调用并完成场景设计,一定程度上提升了创作效率和协作体验。



在现场,火山引擎还专门设置了3D打印的区域,“啪”一下AI生成的模型就成为了你手中实实在在的资产。




写在最后


从今年5月豆包大模型家族正式亮相,短短7个月,豆包全家桶已经连续发布了视频生成、视觉理解等多种模型。


谭待在媒体群访环节透露,火山引擎有计划部署推理模型,现在可以看到豆包大模型在推理、数学理解能力上的雏形。这些模型能力已经应用在豆包、即梦等C端产品上。


另外,在现场,火山引擎还升级了火山方舟、扣子和HiAgent三款产品平台,帮助更多企业高效开发AI应用。


值得一提的是,从此次现场发布来看,字节内部的确正在提升剪映和即梦产品的优先级。


此前,据《智能涌现》报道,抖音管理层判断ChatBot类产品已经达到了“隐形天花板”,长期更理想的产品形式需要更视觉化的产品体验和更低使用门槛。因此,字节已经提升了剪映和即梦的产品优先级,尝试打造AI时代的“抖音”。


更视觉化的产品体验,也成为了豆包大模型此次发布的焦点。


谭待在接受媒体群访时表示,语言用来描述世界,但首先还是要理解世界。这也是豆包推出视觉理解模型的意义所在。


他强调,火山引擎的目标是朝着中国大模型领域、新的技术变革第一名发展。


“现在我们并不关注市场竞争,因为大模型市场仍处于早期阶段,我们更关心有哪些用户需求,到底还没被满足。让成本更低,应用性能更好,让大家用起来。从长期来看,大模型的C端和B端应该是齐头并进发展。”谭待补充道。


2024年无疑是大模型快速发展的一年,这一年中,我们看到了各家厂商开卷视频模型,陆续推出实时视频通话能力……作为国内热门厂商的字节跳动、火山引擎也不想掉队。


就像谭待在现场所说,“当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。”


这趟列车会带我们驶向什么样的AI未来,豆包正通过TA的能力交出答卷。


    
    

AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

     
     
欢迎分享、点赞、在看
 一起研究AI

分享文章链接