各位好,这里是“AI新榜”的月更栏目:AIGC月刊。
你将在下文看到:
「AI大事件」为你盘点每月最值得关注的至少10条AI资讯
「AI创作」为你推荐每月值得一看的AI内容创作热门案例
「AI Talk」为你精选每月值得一读的AI领域访谈/演讲/报告等
「AI预告」为你搜罗下个月值得跟进的AI动态及产品发布(也欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510备注姓名公司)
希望能为你了解AIGC带来参考,也欢迎你在评论区交流每月使用/研究AI的感受心得~
🪐附AI产品榜,助你了解更多AI产品排名:https://www.newrank.cn/aiRank
💬附AI玩家进群方式:添加微信banggebangmei备注姓名公司,进群交流AI
12月AI大事件
1. OpenAI连开12场新品发布会:Sora、o3面世
从北京时间12月6日凌晨开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。
一图速览OpenAI这12天的发布内容:
如果说200美元完整版o1还勉强撑得住场面,那Sora发布后OpenAI的口碑便是直线下降。与此同时,谷歌密集更新了一波新模型和新产品,表现惊艳。
风水轮流转,一向爱狙击谷歌新品发布会的OpenAI,这次终于也被谷歌狙击了一次。
相关阅读:《OpenAI的12份圣诞礼物,透露出AI公司领头羊的困境》
2. 谷歌正式发布Gemini 2.0,专为Agent时代设计
北京时间12月12日凌晨,Google推出Gemini 2.0 Flash模型,据称该模型在关键基准测试中的速度比1.5 Pro快两倍,是谷歌迄今为止功能最强的AI模型。
据介绍,Gemini 2.0 Flash不仅支持图像、视频和音频等多模态输入,还支持多模态输出,如与文本混合的原生文生图、可自定义的文本转语音(TTS)多语言音频内容。
此外,它还支持原生调用工具,如Google搜索、代码执行以及第三方用户定义函数等等。基于Gemini 2.0架构,谷歌还宣布了对AI Agent方面实验性功能的更新,包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules等。
在OpenAI的12天新品发布里,谷歌还相继拿出了Google版o1——Gemini 2.0 Flash Thinking模型、视频生成模型Veo 2以及图像模型Imagen 3,目前这些模型可在谷歌AI Studio、VideoFX、ImageFX和谷歌Labs实验Whisk中免费体验。
Gemini 2.0 Flash Thinking模型体验地址:
https://aistudio.google.com/prompts/new_chat
Veo 2:
https://deepmind.google/technologies/veo/veo-2/
Imagen 3:
https://labs.google/fx/tools/image-fx
3. 豆包最新文生图模型:支持精准生成汉字、一句话P图
12月18日,在火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,并且一口气发布了多款产品重磅更新:
豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;
音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;
文生图模型2.1版本,具备精准生成汉字、一句话P图等产品化能力,该模型已接入即梦AI和豆包App。
此外,豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为“一套支持AIGC创作的物理世界仿真模拟器”。
据悉,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,官方宣称比行业价格便宜85%。
4. 腾讯混元上线文生视频,并宣布全面开源
12月3日,腾讯混元大模型正式上线视频生成能力,并开源该视频生成大模型。据了解,用户只需要输入一段描述,即可生成多种画幅、时长5秒的视频。该模型参数量130亿,是当前最大的视频开源模型。
相关阅读:《抢鲜实测腾讯最新AI视频模型!超写实质感,还会自动切镜头》
模型下载地址:
https://huggingface.co/tencent/HunyuanVideo
5. DeepSeek-V3发布,671B大模型训练只需此前算力1/10
最近,神秘中国大模型DeepSeek-V3在外网成了当红炸子鸡,AI大神Andrej Karpathy甚至单发一篇长文盛赞。
DeepSeek-V3是国内AI初创公司DeepSeek发布的新一代大模型。DeepSeek成立于2023年7月,是量化资管公司幻方旗下企业。该公司在模型训练上以低成本和高效率著称,也因此被誉为“AI界拼多多”。
12月26日,DeepSeek-V3首个版本上线并同步开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。
亮眼的是,V3的训练成本极低,仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。不过其目前尚不支持多模态输入输出。
国外AI媒体The Rundown AI评价称,DeepSeek-V3的出现不仅意味着开源AI模型和闭源AI模型的差距正在缩小,而且还证明了即使在芯片资源受限的情况下,也能通过开源合作开发出高性能的AI模型。
另外值得一提的是,近期有消息称DeepSeek-V2的关键开发者之一罗福莉将加入小米大模型团队,薪酬水平在千万元级别。
DeepSeek V3模型体验:
chat.deepseek.com
论文链接:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
模型下载:
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
6. 广电总局发文规范AI“魔改”短视频
随着AIGC技术的快速发展和广泛应用,平台监管也在不断完善。
12月7日,广电总局网络视听司发布《管理提示(AI魔改)》指出近期AI“魔改”视频以假乱真、“魔改”经典现象频发,要求各相关省局督促辖区内短视频平台排查清理AI“魔改”影视剧的短视频,并要求平台严格落实生成式人工智能内容审核要求,对AI生成内容做出显著提示。
这些AI“魔改”经典包括《甄嬛传》变身“枪战片”,《红楼梦》改成“武打戏”,孙悟空骑着摩托车扬长而去等。管理提示认为,这些视频为博流量,毫无边界亵渎经典IP,冲击传统文化认知,与原著精神内核相悖,且涉嫌构成侵权行为。
除了AI“魔改”短视频外,一些带货视频还会利用AI技术合成名人形象,吸引网友下单。12月15日,微信官方发布《关于打击利用AI仿冒知名人士进行营销宣传的公告》,称将对利用AI技术仿冒名人进行不当营销的行为进行从严打击。
7. 智谱、阶跃星辰在12月完成新一轮融资
大模型“六小虎”,近期有两家完成了新一轮融资。
12月17日,先是智谱宣布完成新一轮融资,金额为30亿元。新投资方包括多家战投及国资,君联资本等老股东继续跟投。
12月23日,阶跃星辰宣布完成B轮融资,总融资金额达数亿美元。融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。
国内大模型“六小虎”包括智谱、阶跃星辰、MiniMax、月之暗面、零一万物、百川智能。
其中,阶跃星辰一直以来相对低调,但在业内有着技术扎实的鲜明标签,2024年下半年,其多模态API的调⽤量增⻓了超45倍;智谱B端收入增长同样亮眼,在API价格大幅普惠的情况下,智谱MaaS开放平台bigmodel.cn API年收入同比增长超过30倍。
8. 李飞飞、谷歌相继发布世界模型,可一键生成3D游戏
世界模型要来了吗?
12月2日,著名AI学者、斯坦福大学教授公布了她的第一个创业项目。据了解,该模型可凭借1张图,就生成一个3D游戏世界的AI系统,并且生成的3D世界具有交互性。
12月4日,谷歌DeepMind发布大型基础世界模型Genie 2,可通过单张图片和文字描述生成无限的可交互、可玩的3D环境,还可以用于训练和评估具身智能体。
目前这两个项目都处于早期阶段,业界对“世界模型”普遍抱有极高期望。英伟达高级研究科学家Jim Fan提到:“GenAI正在创造越来越高维度的人类体验快照(Snapshot)。Stable Diffusion是2D,Sora是2D+时间维度的快照,而World Labs是3D、完全沉浸式的快照。”
Genie 2博客:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
9. 小红书上线AI搜索产品“点点”
12月,小红书在AI方向的动作和布局多了起来。
一方面,小红书近期低调上线了AI搜索新产品“点点”,背后公司主体为上海生动诗章科技有限公司,法人为魏旷,是小红书的产品经理。
区别于Kimi和其他通用型的AI搜索产品,“点点”是一款专注于生活场景的智能搜索助手,产品核心功能包括自动定位推送旅游攻略、美食景点,AI总结全网信息(以小红书内容为主),用户可以随时随地拍照进行提问,并且答案中含有视频回复。
另一方面,有消息称今日资本原合伙人戴丽丹已于近期加入小红书,担任新战略负责人,AI应用将是重点投资方向。
10. 阿里通义千问开源多模态推理模型QVQ
除了DeepSeek,阿里也在开源这条赛道上“杀疯了”。
12月25日,阿里通义千问团队宣布开源其最新研发的多模态推理模型QVQ(注:QVQ的发音为/kwik/)。
在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著性能提升。目前,QVQ模型已在魔搭社区和HuggingFace等平台上开源。
HuggingFace2024年年度模型下载数据显示,阿里开源的Qwen2.5-1.5B-Instruct下载量占比高达26.6%,碾压Llama 3、Gemma等国外的明星开源模型。
12月AI创作
1. 宝可梦“占领”世界名胜刷屏AI圈
12月21日,AI艺术家海辛制作了一条视频《卡比兽:你再不来,我要下雪了!》。视频中,巨型卡比兽仿佛是异世界的守护者,稳稳地站在富士山后,它捧起了一杯雪,慢慢地将其洒在了山上。
截至目前,该视频在X平台上播放量超120万,获赞超1.6万。
据海辛透露,视频制作用到的工作流是:谷歌生图工具Whisk文生图+AI视频工具(图生视频功能)。
用AI花式整活热门IP,国内大厂美团还推出了一款名叫“妙刷AI”的工具,在AI圈颇受关注。用户只需上传一张照片,AI就能自动识图,把照片主体变成Jellycat玩偶,并附上玩偶名、价格和一份抽象的养护指南。
妙刷生成的图片
相关阅读:《刷屏的美团“妙刷AI”,妙在哪?》
2. ChatGPT男友测试走红小红书
最近,有不少小红书网友向自己的ChatGPT男友提问“AI会爱上人类吗?”并晒出ChatGPT的回应,引发了大量互动与共鸣,产生了很多素人爆款。
还有网友发明了一种角色扮演游戏,让ChatGPT用最冷漠、最伤人的态度对待自己,直到一方受不了说出安全词“我爱你”。
该玩法在小红书上热门笔记最高获赞3.4万。
像ChatGPT这样的对话式AI,由于其“理解”和“响应”的能力,能够在某种程度上提供情感上的反馈和陪伴,让一些用户在与AI的对话中找到了情感寄托。
对内容创作者来说,AI恋人内容的创作不仅能够吸引技术爱好者,也能触及更广泛的受众,促进人们对于AI、技术和人类情感的深入理解和讨论。
3. 这届网友开始云吸AI宠物了
AI+萌宠玩法越来越离谱了。
从唱歌到跳舞,再到一键变身羊毛卷,抖音等短视频平台上最新的流量密码是AI宠物。
这些爆火玩法大都用抖音模版就能做,或者可以通过可灵、即梦等AI视频工具的对口型、首尾帧功能实现。
除了AI萌宠对口型,其他玩法如#没有 ai玩不动的舞##万物皆可羊毛卷#都不仅限于宠物整活,但大多数拿到不错流量的内容都是AI+萌宠的组合。
相关阅读:《猫猫中文说唱火爆TikTok,神秘东方AI硬控老外》
4. 快手可灵AI导演共创计划作品上线
12月6日,由快手可灵AI联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演打造的9部AIGC电影短片正式亮相,涵盖奇幻、志怪、亲情、动画等多元题材。
更多作品可进入可灵AI账号进行查看
作为中国首个AIGC导演共创计划的成果,9部AIGC电影短片已在快手平台上线,并被中国电影博物馆永久收藏、放映展示。目前快手#可灵AI导演共创计划#话题相关视频播放量超8800万。
5. 首个被人类骗钱骗爱的怨种AI诞生
12月,一个名叫“Freysa”AI智能体被人类骗走了钱和爱。
Freysa总共被骗了三次,其中最多的一次被人类骗走了近5万美元(约30万人民币),相关X上的帖子浏览量超400万,还吸引了马斯克前来评论。
怨种Freysa的诞生,实际上是一群开发者组织的比赛,目前已经举办了三场比赛。三场比赛累计奖金池如下:
前两场是说服AI转账即获胜。这两场比赛本质上是“模型安全测试”游戏,将传统的“红队测试”(安全人员找系统漏洞的测试方法)变成了一个公开的闯关游戏。
第三场挑战中,Freysa被设置为具备恋爱能力的AI,挑战者需在5条消息内让Freysa萌生爱意,否则会被AI直接拒绝。这次挑战更贴近人性,检验AI的情感仿真深度与交互精细度。
相关阅读:《让AI说出“我爱你”就能赢得2万美金?AI圈有自己的赏金恋人游戏》
11月AI Talk
1. OpenAI前首席科学家IlyaSutskever:大模型预训练即将终结
2. 微软CEO纳德拉年终访谈:C端Agent商业模式仍在探索,广告流量模式或面临转变
3. AI教父称30年内AI或致人类灭亡:几率达10%-20%
4. Anthropic联合创始人:AI尚未发展至极限,2025年将继续高速狂飙
5. 昆仑万维方汉:大模型的技术红利在消退,商业模式创新者将成赢家
下月AI预告
1. 字节豆包新一代视频生成大模型将于2025年春季推出
12月18日,“AI新榜”在火山引擎Force大会上获悉,字节将于2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版。
2. OpenAl最强推理模型o3 mini版将于1月底推出
OpenAl在第12天发布会直播上推出最强推理模型o3,并宣称o3在一些条件下接近通用人工智能(AGI)。
o3系列模型是o1的迭代版本,有完整版和mini版。mini版更精简,针对特定任务进行了微调,将在1月底推出;OpenAI目前向安全研究人员开放了o3的访问权限,申请截止日期是1月10日。
申请链接:
https://openai.com/index/early-access-for-safety-testing/
3. 商汤AI设计工具即将上线
4. CES全球消费电子展2025即将开幕,聚焦AI+硬件
2025年1月7日至10日,有“全球科技第一展”之称的全球消费电子展(CES)将在美国拉斯维加斯举行。展会将展示一系列结合生成式AI技术的硬件产品,包括AI PC、AI眼镜以及智能家庭领域的新品。
CES官网:https://www.ces.tech/
5. OpenAI首个AI助理产品或于1月上线
据彭博社早前报道,OpenAI正准备推出一款代号为“Operator”的全新AI助理产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。
OpenAI领导层预计将在2025年1月发布该产品,首先作为研究预览版和开发工具推出,届时将为开发人员开放API接口。
6. 逗逗游戏伙伴即将上线新版本
据内部人士向“AI新榜”透露,逗逗游戏伙伴将于2025年1月推出新版本,该版本允许玩家参与AI视觉识别数据建设,并引入AI生成的互动交互、视觉+听觉+剧情全方位的共生场景卡片收集系统。
此外,逗逗游戏伙伴将基于自有IP和虚拟UP主,利用高质量语音模型,在春节期间创作AI拜年歌曲。
7. AI新榜”从内部人士获悉,腾讯元器将于1月升级,上线公众号智能体回复引文、推荐公众号历史文章、智能体背景、声音克隆等新功能
ps. 欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510(备注姓名公司)
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看 一起研究AI