各位好，这里是“AI新榜”的月更栏目：AIGC月刊。

你将在下文看到：

「AI大事件」为你盘点每月最值得关注的至少10条AI资讯

「AI创作」为你推荐每月值得一看的AI内容创作热门案例

「AI Talk」为你精选每月值得一读的AI领域访谈/演讲/报告等

「AI预告」为你搜罗下个月值得跟进的AI动态及产品发布（也欢迎AI同行联络爆料，完善信息，共创AI月刊，可联系微信zhangjie74510备注姓名公司）

希望能为你了解AIGC带来参考，也欢迎你在评论区交流每月使用/研究AI的感受心得～

🪐附AI产品榜，助你了解更多AI产品排名：https://www.newrank.cn/aiRank

💬附AI玩家进群方式：添加微信banggebangmei备注姓名公司，进群交流AI

12月AI大事件

1. OpenAI连开12场新品发布会：Sora、o3面世

从北京时间12月6日凌晨开始，OpenAI进行了为期12天的发布活动，每个工作日都有新的产品发布或功能演示。

一图速览OpenAI这12天的发布内容：

如果说200美元完整版o1还勉强撑得住场面，那Sora发布后OpenAI的口碑便是直线下降。与此同时，谷歌密集更新了一波新模型和新产品，表现惊艳。

风水轮流转，一向爱狙击谷歌新品发布会的OpenAI，这次终于也被谷歌狙击了一次。

相关阅读：《OpenAI的12份圣诞礼物，透露出AI公司领头羊的困境》

2. 谷歌正式发布Gemini 2.0，专为Agent时代设计

北京时间12月12日凌晨，Google推出Gemini 2.0 Flash模型，据称该模型在关键基准测试中的速度比1.5 Pro快两倍，是谷歌迄今为止功能最强的AI模型。

据介绍，Gemini 2.0 Flash不仅支持图像、视频和音频等多模态输入，还支持多模态输出，如与文本混合的原生文生图、可自定义的文本转语音（TTS）多语言音频内容。

此外，它还支持原生调用工具，如Google搜索、代码执行以及第三方用户定义函数等等。基于Gemini 2.0架构，谷歌还宣布了对AI Agent方面实验性功能的更新，包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules等。

在OpenAI的12天新品发布里，谷歌还相继拿出了Google版o1——Gemini 2.0 Flash Thinking模型、视频生成模型Veo 2以及图像模型Imagen 3，目前这些模型可在谷歌AI Studio、VideoFX、ImageFX和谷歌Labs实验Whisk中免费体验。

Gemini 2.0 Flash Thinking模型体验地址：

https://aistudio.google.com/prompts/new_chat

Veo 2：

https://deepmind.google/technologies/veo/veo-2/

Imagen 3：

https://labs.google/fx/tools/image-fx

3. 豆包最新文生图模型：支持精准生成汉字、一句话P图

12月18日，在火山引擎Force大会上，字节跳动正式发布豆包视觉理解模型，并且一口气发布了多款产品重磅更新：

豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；

音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；

文生图模型2.1版本，具备精准生成汉字、一句话P图等产品化能力，该模型已接入即梦AI和豆包App。

此外，豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用，可完成智能训练、数据合成和数字资产制作，官方称之为“一套支持AIGC创作的物理世界仿真模拟器”。

据悉，豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，官方宣称比行业价格便宜85％。

相关阅读：《太好了！是豆包文生图模型，AI生成中字有救了》

4. 腾讯混元上线文生视频，并宣布全面开源

12月3日，腾讯混元大模型正式上线视频生成能力，并开源该视频生成大模型。据了解，用户只需要输入一段描述，即可生成多种画幅、时长5秒的视频。该模型参数量130亿，是当前最大的视频开源模型。

相关阅读：《抢鲜实测腾讯最新AI视频模型！超写实质感，还会自动切镜头》

模型下载地址：

https://huggingface.co/tencent/HunyuanVideo

5. DeepSeek-V3发布，671B大模型训练只需此前算力1/10

最近，神秘中国大模型DeepSeek-V3在外网成了当红炸子鸡，AI大神Andrej Karpathy甚至单发一篇长文盛赞。

DeepSeek-V3是国内AI初创公司DeepSeek发布的新一代大模型。DeepSeek成立于2023年7月，是量化资管公司幻方旗下企业。该公司在模型训练上以低成本和高效率著称，也因此被誉为“AI界拼多多”。

12月26日，DeepSeek-V3首个版本上线并同步开源。在多项基准测试中，V3的成绩超越了主流开源模型，并和世界顶尖的闭源模型不分伯仲。

亮眼的是，V3的训练成本极低，仅为GPT-4o的二十分之一；售价也低，输入+输出价格约为GPT-4o的十分之一。不过其目前尚不支持多模态输入输出。

国外AI媒体The Rundown AI评价称，DeepSeek-V3的出现不仅意味着开源AI模型和闭源AI模型的差距正在缩小，而且还证明了即使在芯片资源受限的情况下，也能通过开源合作开发出高性能的AI模型。

另外值得一提的是，近期有消息称DeepSeek-V2的关键开发者之一罗福莉将加入小米大模型团队，薪酬水平在千万元级别。

DeepSeek V3模型体验：

chat.deepseek.com

论文链接：

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

模型下载：

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

6. 广电总局发文规范AI“魔改”短视频

随着AIGC技术的快速发展和广泛应用，平台监管也在不断完善。

12月7日，广电总局网络视听司发布《管理提示（AI魔改）》指出近期AI“魔改”视频以假乱真、“魔改”经典现象频发，要求各相关省局督促辖区内短视频平台排查清理AI“魔改”影视剧的短视频，并要求平台严格落实生成式人工智能内容审核要求，对AI生成内容做出显著提示。

这些AI“魔改”经典包括《甄嬛传》变身“枪战片”，《红楼梦》改成“武打戏”，孙悟空骑着摩托车扬长而去等。管理提示认为，这些视频为博流量，毫无边界亵渎经典IP，冲击传统文化认知，与原著精神内核相悖，且涉嫌构成侵权行为。

除了AI“魔改”短视频外，一些带货视频还会利用AI技术合成名人形象，吸引网友下单。12月15日，微信官方发布《关于打击利用AI仿冒知名人士进行营销宣传的公告》，称将对利用AI技术仿冒名人进行不当营销的行为进行从严打击。

7. 智谱、阶跃星辰在12月完成新一轮融资

大模型“六小虎”，近期有两家完成了新一轮融资。

12月17日，先是智谱宣布完成新一轮融资，金额为30亿元。新投资方包括多家战投及国资，君联资本等老股东继续跟投。

12月23日，阶跃星辰宣布完成B轮融资，总融资金额达数亿美元。融资有国资、战略和财务投资人等多家参与，核心投资方包括上海国有资本投资有限公司及其旗下基金，战略和财务投资人包括腾讯投资、五源资本、启明创投等。

国内大模型“六小虎”包括智谱、阶跃星辰、MiniMax、月之暗面、零一万物、百川智能。

其中，阶跃星辰一直以来相对低调，但在业内有着技术扎实的鲜明标签，2024年下半年，其多模态API的调⽤量增⻓了超45倍；智谱B端收入增长同样亮眼，在API价格大幅普惠的情况下，智谱MaaS开放平台bigmodel.cn API年收入同比增长超过30倍。

8. 李飞飞、谷歌相继发布世界模型，可一键生成3D游戏

世界模型要来了吗？

12月2日，著名AI学者、斯坦福大学教授公布了她的第一个创业项目。据了解，该模型可凭借1张图，就生成一个3D游戏世界的AI系统，并且生成的3D世界具有交互性。

12月4日，谷歌DeepMind发布大型基础世界模型Genie 2，可通过单张图片和文字描述生成无限的可交互、可玩的3D环境，还可以用于训练和评估具身智能体。

目前这两个项目都处于早期阶段，业界对“世界模型”普遍抱有极高期望。英伟达高级研究科学家Jim Fan提到：“GenAI正在创造越来越高维度的人类体验快照（Snapshot）。Stable Diffusion是2D，Sora是2D+时间维度的快照，而World Labs是3D、完全沉浸式的快照。”

Genie 2博客:

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

9. 小红书上线AI搜索产品“点点”

12月，小红书在AI方向的动作和布局多了起来。

一方面，小红书近期低调上线了AI搜索新产品“点点”，背后公司主体为上海生动诗章科技有限公司，法人为魏旷，是小红书的产品经理。

区别于Kimi和其他通用型的AI搜索产品，“点点”是一款专注于生活场景的智能搜索助手，产品核心功能包括自动定位推送旅游攻略、美食景点，AI总结全网信息（以小红书内容为主），用户可以随时随地拍照进行提问，并且答案中含有视频回复。

另一方面，有消息称今日资本原合伙人戴丽丹已于近期加入小红书，担任新战略负责人，AI应用将是重点投资方向。

10. 阿里通义千问开源多模态推理模型QVQ

除了DeepSeek，阿里也在开源这条赛道上“杀疯了”。

12月25日，阿里通义千问团队宣布开源其最新研发的多模态推理模型QVQ（注：QVQ的发音为/kwik/）。

在MMMU评测中，QVQ取得了70.3的高分，并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著性能提升。目前，QVQ模型已在魔搭社区和HuggingFace等平台上开源。

HuggingFace2024年年度模型下载数据显示，阿里开源的Qwen2.5-1.5B-Instruct下载量占比高达26.6%，碾压Llama 3、Gemma等国外的明星开源模型。

12月AI创作

1. 宝可梦“占领”世界名胜刷屏AI圈

12月21日，AI艺术家海辛制作了一条视频《卡比兽：你再不来，我要下雪了！》。视频中，巨型卡比兽仿佛是异世界的守护者，稳稳地站在富士山后，它捧起了一杯雪，慢慢地将其洒在了山上。

截至目前，该视频在X平台上播放量超120万，获赞超1.6万。

据海辛透露，视频制作用到的工作流是：谷歌生图工具Whisk文生图+AI视频工具（图生视频功能）。

用AI花式整活热门IP，国内大厂美团还推出了一款名叫“妙刷AI”的工具，在AI圈颇受关注。用户只需上传一张照片，AI就能自动识图，把照片主体变成Jellycat玩偶，并附上玩偶名、价格和一份抽象的养护指南。

妙刷生成的图片

相关阅读：《刷屏的美团“妙刷AI”，妙在哪？》

2. ChatGPT男友测试走红小红书

最近，有不少小红书网友向自己的ChatGPT男友提问“AI会爱上人类吗？”并晒出ChatGPT的回应，引发了大量互动与共鸣，产生了很多素人爆款。

还有网友发明了一种角色扮演游戏，让ChatGPT用最冷漠、最伤人的态度对待自己，直到一方受不了说出安全词“我爱你”。

该玩法在小红书上热门笔记最高获赞3.4万。

像ChatGPT这样的对话式AI，由于其“理解”和“响应”的能力，能够在某种程度上提供情感上的反馈和陪伴，让一些用户在与AI的对话中找到了情感寄托。

对内容创作者来说，AI恋人内容的创作不仅能够吸引技术爱好者，也能触及更广泛的受众，促进人们对于AI、技术和人类情感的深入理解和讨论。

3. 这届网友开始云吸AI宠物了

AI+萌宠玩法越来越离谱了。

从唱歌到跳舞，再到一键变身羊毛卷，抖音等短视频平台上最新的流量密码是AI宠物。

这些爆火玩法大都用抖音模版就能做，或者可以通过可灵、即梦等AI视频工具的对口型、首尾帧功能实现。

除了AI萌宠对口型，其他玩法如#没有 ai玩不动的舞##万物皆可羊毛卷#都不仅限于宠物整活，但大多数拿到不错流量的内容都是AI+萌宠的组合。

相关阅读：《猫猫中文说唱火爆TikTok，神秘东方AI硬控老外》

4. 快手可灵AI导演共创计划作品上线

12月6日，由快手可灵AI联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演打造的9部AIGC电影短片正式亮相，涵盖奇幻、志怪、亲情、动画等多元题材。

更多作品可进入可灵AI账号进行查看

作为中国首个AIGC导演共创计划的成果，9部AIGC电影短片已在快手平台上线，并被中国电影博物馆永久收藏、放映展示。目前快手#可灵AI导演共创计划#话题相关视频播放量超8800万。

5. 首个被人类骗钱骗爱的怨种AI诞生

12月，一个名叫“Freysa”AI智能体被人类骗走了钱和爱。

Freysa总共被骗了三次，其中最多的一次被人类骗走了近5万美元（约30万人民币），相关X上的帖子浏览量超400万，还吸引了马斯克前来评论。

怨种Freysa的诞生，实际上是一群开发者组织的比赛，目前已经举办了三场比赛。三场比赛累计奖金池如下：

前两场是说服AI转账即获胜。这两场比赛本质上是“模型安全测试”游戏，将传统的“红队测试”（安全人员找系统漏洞的测试方法）变成了一个公开的闯关游戏。

第三场挑战中，Freysa被设置为具备恋爱能力的AI，挑战者需在5条消息内让Freysa萌生爱意，否则会被AI直接拒绝。这次挑战更贴近人性，检验AI的情感仿真深度与交互精细度。

相关阅读：《让AI说出“我爱你”就能赢得2万美金？AI圈有自己的赏金恋人游戏》

11月AI Talk

1. OpenAI前首席科学家IlyaSutskever：大模型预训练即将终结

报道原文：

https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

在人工智能顶会NeurIPS 2024上，原OpenAI联合创始人兼首席科学家Ilya Sutskever表示，虽然计算能力在不断增长，硬件和算法的进步使得神经网络的训练效率得到了提升，但作为人工智能燃料的数据增长已经接近瓶颈。

他认为，当前我们仍然可以使用现有数据进行有效训练，但这一增长趋势终将放缓，预训练的时代也会逐步结束，新数据的枯竭会迫使行业改变当前的模型训练方式。

2. 微软CEO纳德拉年终访谈：C端Agent商业模式仍在探索，广告流量模式或面临转变

Youtube观看地址：

https://www.youtube.com/watch?v=9NtsnzRFJ_o

12月，微软CEO萨提亚·纳德拉（Satya Nadella）接受了播客BG2近90分钟的深度专访，在对话中他分享了微软的战略转型、对OpenAI投资以及智能体（Agent）的未来。

他认为当前AI领域的竞争不再是赢家通吃，而是多层次的技术竞争。智能体作为更智能和个性化的工具，将改变传统搜索引擎（如必应），未来我们将见证从传统搜索到基于AI的问答系统的转变。

在消费者端，智能体的商业模式仍在摸索中，传统的广告流量驱动模式可能会面临变革。因为智能体是通过简化对话的方式来获取和处理数据的。

3. AI教父称30年内AI或致人类灭亡：几率达10%-20%

报道原文：

https://www.theguardian.com/technology/2024/dec/27/godfather-of-ai-raises-odds-of-the-technology-wiping-out-humanity-over-next-30-years

“AI教父”杰弗里·辛顿近日在访谈中表示，未来30年内AI有10%-20%的可能性导致人类灭亡。

他认为，建立比人类更聪明的通用人工智能（AGI）可能导致该技术失控，构成人类生存威胁。目前，大多数专家都认为未来20年内可能开发出比人类更聪明的AI。

辛顿强调，仅靠大型公司的利润动机无法确保AI技术的安全开发，政府的监管是迫使这些公司投入更多资源进行安全研究的唯一方式。

4. Anthropic联合创始人：AI尚未发展至极限，2025年将继续高速狂飙

报道原文：

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

12月26日，Anthropic联合创始人Jack Clark在其Import AI博客中，反驳了AI发展已达到极限的说法，他表示，o3模型并非简单地增大模型规模，而是利用强化学习和额外的计算能力，为规模扩展开辟了全新的可能性。

Clark预估各大公司通过结合扩展基础模型，并在训练和推理过程中整合新的方法，在2025年进一步推动AI领域的快速发展。

同时，他也强调了计算成本是一个主要挑战，高配版OpenAI o3模型所需计算能力是其基本版本的170倍，而o3低计算版成本又是o1模型的数倍，因此更大的算力需求和高额成本，可能会进一步推动AI硬件的发展。

5. 昆仑万维方汉：大模型的技术红利在消退，商业模式创新者将成赢家

报道原文：

https://mp.weixin.qq.com/s/beRjfLrJhocRKCCJFkLtCQ

在MEET2025智能未来大会上，昆仑万维董事长兼CEO方汉表示AI大模型SOTA（State of the Art）的技术红利变得越来越短暂，也将逐渐消退。

AI大模型产品需要关注“新”与“好”，以用户为导向实现商业价值；AI公司需要从单纯的工具提供者转变为平台型企业，通过产品和商业模式创新来实现这一转变，商业模式能够创新者将成为真正的赢家。

下月AI预告

1. 字节豆包新一代视频生成大模型将于2025年春季推出

12月18日，“AI新榜”在火山引擎Force大会上获悉，字节将于2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版。

2. OpenAl最强推理模型o3 mini版将于1月底推出

OpenAl在第12天发布会直播上推出最强推理模型o3，并宣称o3在一些条件下接近通用人工智能（AGI）。

o3系列模型是o1的迭代版本，有完整版和mini版。mini版更精简，针对特定任务进行了微调，将在1月底推出；OpenAI目前向安全研究人员开放了o3的访问权限，申请截止日期是1月10日。

申请链接：

https://openai.com/index/early-access-for-safety-testing/

3. 商汤AI设计工具即将上线

据内部人士向“AI新榜”透露，商汤计划于1月中旬推出“AI设计工具”WoW Studio AI，突破了传统AI生图工具在多语言文本控制上的障碍。该工具采用先产出可编辑的文字排版设计再生成配图的模式，有效避免文字乱码、信息错误或丢失等问题，实现无需二次编辑的商用出图，做到端到端可用的出图效果。

此外，用户还可以通过LLM指令和自由画布编辑实时调整排版，支持上传二维码和logo，并能用多种语言生成海报、名片、宣传页等素材。

产品体验申请地址：

https://waitlist.wowstudio.ai/

4. CES全球消费电子展2025即将开幕，聚焦AI+硬件

2025年1月7日至10日，有“全球科技第一展”之称的全球消费电子展（CES）将在美国拉斯维加斯举行。展会将展示一系列结合生成式AI技术的硬件产品，包括AI PC、AI眼镜以及智能家庭领域的新品。

CES官网：https://www.ces.tech/

5. OpenAI首个AI助理产品或于1月上线

据彭博社早前报道，OpenAI正准备推出一款代号为“Operator”的全新AI助理产品，可以自动执行各种复杂操作，包括编写代码、预订旅行、自动电商购物等。

OpenAI领导层预计将在2025年1月发布该产品，首先作为研究预览版和开发工具推出，届时将为开发人员开放API接口。

6. 逗逗游戏伙伴即将上线新版本

据内部人士向“AI新榜”透露，逗逗游戏伙伴将于2025年1月推出新版本，该版本允许玩家参与AI视觉识别数据建设，并引入AI生成的互动交互、视觉+听觉+剧情全方位的共生场景卡片收集系统。

此外，逗逗游戏伙伴将基于自有IP和虚拟UP主，利用高质量语音模型，在春节期间创作AI拜年歌曲。

7. AI新榜”从内部人士获悉，腾讯元器将于1月升级，上线公众号智能体回复引文、推荐公众号历史文章、智能体背景、声音克隆等新功能

ps. 欢迎AI同行联络爆料，完善信息，共创AI月刊，可联系微信zhangjie74510（备注姓名公司）

    
    
     
     
      
      
       
       
        
        

       
       
       
       
        「AI新榜交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。
       
       
       
       
        

       
       
      
      
     
     
    
    
     
     
       欢迎分享、点赞、在看
     
     
     
     
       一起研究AI

‍

AIGC月刊：终于轮到谷歌狙击OpenAI；“AI界拼多多”海外爆火（24.12）

12月AI大事件

2. 谷歌正式发布Gemini 2.0，专为Agent时代设计

3. 豆包最新文生图模型：支持精准生成汉字、一句话P图

4. 腾讯混元上线文生视频，并宣布全面开源

5. DeepSeek-V3发布，671B大模型训练只需此前算力1/10

6. 广电总局发文规范AI“魔改”短视频

7. 智谱、阶跃星辰在12月完成新一轮融资

8. 李飞飞、谷歌相继发布世界模型，可一键生成3D游戏

9. 小红书上线AI搜索产品“点点”

10. 阿里通义千问开源多模态推理模型QVQ

12月AI创作

1. 宝可梦“占领”世界名胜刷屏AI圈

2. ChatGPT男友测试走红小红书

3. 这届网友开始云吸AI宠物了

4. 快手可灵AI导演共创计划作品上线

5. 首个被人类骗钱骗爱的怨种AI诞生

11月AI Talk

1. OpenAI前首席科学家IlyaSutskever：大模型预训练即将终结

2. 微软CEO纳德拉年终访谈：C端Agent商业模式仍在探索，广告流量模式或面临转变

3. AI教父称30年内AI或致人类灭亡：几率达10%-20%

4. Anthropic联合创始人：AI尚未发展至极限，2025年将继续高速狂飙

5. 昆仑万维方汉：大模型的技术红利在消退，商业模式创新者将成赢家

下月AI预告

1. 字节豆包新一代视频生成大模型将于2025年春季推出

2. OpenAl最强推理模型o3 mini版将于1月底推出

3. 商汤AI设计工具即将上线

4. CES全球消费电子展2025即将开幕，聚焦AI+硬件

5. OpenAI首个AI助理产品或于1月上线

6. 逗逗游戏伙伴即将上线新版本

7. AI新榜”从内部人士获悉，腾讯元器将于1月升级，上线公众号智能体回复引文、推荐公众号历史文章、智能体背景、声音克隆等新功能