这里是“头号AI玩家”的新栏目：AIGC月刊。每月更新一次，以下是我们梳理汇总的2024年5月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考，也欢迎在评论区和我们交流你的想法～

5月AIGC行业趋势

1. 《Her》走进现实

科幻电影《Her》中，AI操作系统Samantha拥有与人类高度相似的交互能力，能够理解并表达情感，这在当时看来是对未来AI的一种美好设想。随着生成式AI技术的快速发展，如今电影中的设想正在逐渐成为现实。

OpenAI在5月14日的发布会上推出了一款名为GPT-4o（omini，全能）的多模态大模型，改进了对音频中情感标记的识别和理解，使得对话更加自然。谷歌随后也发布了名为Project Astra的AI智能体，它能够通过手机和AR眼镜与用户进行实时交互。

我们可以期待，像Samantha这样的AI助手将更加智能化、个性化，并在更多领域中发挥作用，改善人们的生活和工作效率。

不过GPT-4o语音模式“Sky”的声音与Samantha的配音演员斯嘉丽·约翰逊极为相似，OpenAI在收到其律师函后目前已停用Sky。

2. 大模型厂商打响价格战

5月15日，字节跳动在火山引擎原动力大会上正式发布自研的豆包大模型，其中豆包通用模型推理定价为0.0008元/千Tokens，比行业便宜99.3%。这意味着，花一块钱，就能让豆包生成上万篇140-200字左右的图文内容。

大模型的价格彻底“卷起来了”。这一轮的降价潮可以追溯到5月初，DeepSeek发布第二代MoE DeepSeek-V2，API定价为每百万tokens输入1元、输出2元（32K上下文），价格为GPT-4-Turbo的近百分之一。

此后，阿里、百度、讯飞、腾讯等也先后加入到降价浪潮中，部分模型低至免费。同时也有百川智能、零一万物等大模型创企宣布不参与这场纷争。

多家公司提到降价背后的原因是技术进步带来的成本下降，希望加快AI普惠化。实际上，降价是大势所趋，目前云厂商市场竞争激烈，需要通过API降价来吸引开发者，从而收集更多优质数据。尽管价格打下来了，但模型是不是好用安全，如何产生更多落地价值，还有待进一步观察。

相关阅读：《花1块钱就有上万篇内容，新晋AI顶流把价格打下来了》

3. AI+电商持续火热

AI技术与电商行业的结合在5月份延续着火热的发展趋势，其主要应用包括AI导购、智能营销、智能客服和AI数字人等。这些应用正在帮助电商平台和商家提高效率、降低成本，并改善用户的购物体验。

5月7日，淘宝宣布网页版Taobao.com启动升级，淘宝网站业务部负责人空无表示，AI应用在PC浏览器有巨大的应用想象空间。此外，618期间，淘宝App推出了“天猫AI讲价小助手”，可帮助用户一键砍价。抖音电商也在内测“AI购物小助手”，可以提供个性化推荐商品、辅助消费决策。

抖音“AI购物小助手”

继上个月刘强东AI数字人直播带货首秀，今年京东618将有18位总裁AI数字人开启直播。同时，李佳琦也宣布美ONE旗下的“所有女生”直播间将测试数字人直播，并搭建AI智能客服。

AI被认为是电商竞争的下一个焦点。从去年至今，AI电商正在从炒作进入成熟应用阶段，在消费者端我们能看到越来越多的智能产品和服务。

你可能错过的10大AI热点

1. Sora短片“造假”，被曝依靠大量后期实现

上个月，OpenAI联动视觉艺术家、电影制作人和设计师等专业创意人士用Sora创作了7支视频，其中，多媒体制作公司shy kids打造的短片《Air Head（气球人）》广受好评。然而，这部短片近期被曝出并非Sora一键直出，实际制作过程中使用了大量转描技术（Rotoscoping）和人工后期创建的视觉特效。

相关阅读：《“打假”Sora爆火短片：史上最佳发布，背地里全靠人工驱动》

2. 通义千问2.5发布，通义大模型品牌升级

5月9日，阿里云发布通义千问2.5大模型，宣称在中文语境下，其文本理解、文本生成、知识问答和生活建议、闲聊和对话以及安全风险等多项能力上赶超GPT-4。此外，通义千问2.5相比2.1有多项能力提升，理解能力提升9%，逻辑推理提升16%，指令遵循提升19%，代码能力提升10%。

同时，阿里云宣布通义大模型品牌升级，“通义千问App”更名为“通义App”，集成通义大模型全栈能力，免费为所有用户提供服务。

3. TikTok将自动标记从其他平台上传的AI生成内容

5月9日，TikTok宣布同“内容来源和真实性联盟”（C2PA）合作，成为首个采用其内容证书技术的视频分享平台。C2PA的创始成员包括Adobe和微软等行业巨头。

TikTok已对使用TikTok AI工具制作的AI生成内容（AIGC）实行标注，此次将自动标记功能扩展到其他部分平台创建的AIGC。声明称，这项功能即日起针对图片和视频推出，不久将面向纯音频内容推出。

4. OpenAI发布多模态AI模型GPT-4o

5月14日凌晨，OpenAI在春季发布会上推出了一个新的旗舰模型GPT-4o。“o”是Omni的缩写，意为“全能”，GPT-4o是标志性产品GPT-4模型的一个迭代版本，提供了GPT-4级别的智能，但速度更快，并改进了其在文本、语音和视觉方面的能力。

GPT-4o支持零延迟实时语音交互，自然真实富有情感，目前该语音模式还未上线，其他能力可免费试用。

5. 谷歌推出对标GPT-4o的多模态AI助手Astra

5月15日凌晨，在谷歌I/O大会上，谷歌宣布已全面进入Gemini时代，推出了对标GPT-4o的多模态项目Project Astra，支持低延迟的语音交互，并发布了下一代开放模型Gemma 2.0。在视频和图像生成方面，谷歌推出了Veo和Imagen 3模型。同时，谷歌将生成式AI整合到搜索结果中，推出AI Overviews体验。

6. 抖音电商内测“AI购物小助手”

近日，抖音电商正在测试首款面向C端的AI电商服务“AI购物小助手”，该服务内嵌在抖音商城内，仍处于灰度测试阶段，从体验上看该服务与淘宝问问、京东京言类似。

据悉，抖音电商从去年下半年就开始着手研发“AI购物小助手”，由上海团队负责，去年年底进行过小范围测试，其算法推荐机制是基于云雀大模型算法。

7. OpenAI联创兼首席科学家Ilya Sutskever宣布离职

5月15日，OpenAI联合创始人兼首席科学家Ilya Sutskever在X上发文宣布离开OpenAI，接下来会做一些“对自己意义重大”的项目。OpenAI CEO Sam Altman表达了对Ilya的不舍与感激，同时宣布Jakub Pachocki将担任新首席科学家，他是GPT-4项目的整体负责人之一，也是优化团队负责人。

此外，RLHF发明者之一Jan Leike也在当天宣布离开OpenAI，他和Ilya共同领导的超级对齐团队成立还不到一年，已经分崩离析。

8. 腾讯混元大模型升级：部分中文能力已追平GPT-4

5月17日，在腾讯云生成式AI产业应用峰会上，腾讯公布了一系列产品研发进展：腾讯混元大模型能力持续升级，三大版本将面向产业客户和个人开发者全面开放接入；腾讯一站式AI智能体创作与分发平台“腾讯元器”正式发布，即日起开放申请体验；腾讯混元大模型面向个人的助手App“腾讯元宝”将于5月30日发布。

腾讯副总裁蒋杰表示，混元大模型目前整体性能已居国内第一梯队，部分中文能力已追平GPT-4。

相关阅读：《从OpenAI开始的AI爆炸周，现在终于轮到腾讯秀肌肉了》

9. 英国AI初创公司Stability AI或将面临出售

5月16日，英国AI初创公司Stability AI正在与潜在买家讨论出售问题。据悉，该公司在2024年第一季度的营收不到500万美元，但却亏损超过3000万美元。同时，Stability AI还拖欠云计算供应商和其他公司近1亿美元。目前，Stability AI尚未就此消息作出回应。

10. 微软推出Copilot+PC：支持GPT-4o，可记住所有交互行为

5月20日，微软推出搭载Copilot功能的全新PC产品Windows 11 AI PC，支持在本地直接运行AI大模型，Windows内置的AI助手Copilot也已支持GPT-4o。

此外，Windows 11 AI PC还具有Recall功能，能够跟踪用户在PC上的一切操作，并快速、直观地检索出想要寻找的内容。据现场展示，用户可以跨越几个月以内的时间线，在浏览过的任意应用程序、网站、文档及其他地方查找内容，或通过屏幕快照进行询问，例如某封特定邮件。

新上线的7个AI工具（功能）

1. 月之暗面上线智能体功能“Kimi+”

月之暗面近日推出了“Kimi+”功能，现支持在网页聊天框输入@唤起某个智能体进行提问，或在左侧工具栏点击即可使用。目前Kimi+显示有24个不同功能的智能体，类似于GPTs，涵盖办公提效、辅助写作、社交娱乐、生活实用等方面。

Kimi+：https://kimi.moonshot.cn/kimiplus-square

2. Claude推出苹果iOS版App

5月1日，AI创业公司Anthropic首次推出旗下大模型产品Claude的移动端App，除了提供聊天机器人等基础功能之外，还支持上传照片、分析图像，目前仅有iOS版。此前，Claude只能通过网站或第三方模型库来使用。

Claude App下载：https://apps.apple.com/us/app/claude-by-anthropic/id6473753684

此外，Anthropic还推出了Claude Team计划提供更多的聊天和查询次数，之后Claude将提供更大的上下文窗口，用户可以用来分析长篇文档，进行复杂对话。

3. Dreamina更名为“即梦”，AI绘画和AI视频功能全量上线

5月9日，剪映Dreamina官方宣布其品牌正式更名为中文“即梦”，同时其AI作图和AI视频生成功能已全量上线，用户可访问新网址来体验这些功能（https://jimeng.jianying.com/）。

即梦目前提供了6个图片生成模型，其中最新推出的通用1.4模型优化了中国元素、写实场景和摄影方向。视频生成支持上传首帧或尾帧图片，增强可控性。

4. 阿里国际旗下Pic Copilot推出AI虚拟试衣功能

近日，阿里国际旗下Pic Copilot推出了“AI虚拟试衣”功能，可以在1分钟内为模特穿上商品服装并搭配风格匹配下装，还原服装形变、褶皱、材质等细节，输出全身商品图。

Pic Copilot官网：https://www.piccopilot.com/create

相关阅读：《真人版“奇迹暖暖”？谷歌阿里竞相布局的AI试衣有何商机？》

5. 阿里开源视频自动化剪辑工具FunClip

近日，阿里巴巴达摩院发布了一款开源、准确、易用的视频语音识别和剪辑工具FunClip，基于LLM的AI剪辑集成。用户上传视频后，可以从语音识别结果中自由选择文本片段或说话人，然后单击剪辑按钮即可获取所选片段对应的视频片段。

体验地址：https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary

开源地址：https://github.com/alibaba-damo-academy/FunClip

6. 腾讯元器和腾讯元宝上线

腾讯元器是基于腾讯混元大模型的一站式AI智能体创作与分发开放平台，用户可以通过提示词、插件、工作流、AI辅助创建等能力，低门槛创建专属AI智能体。创建好的智能体还可以发布到QQ、微信、腾讯云等腾讯全域分发渠道，优质智能体有机会获得流量扶持。

腾讯元器可通过官网申请体验：https://open.hunyuan.tencent.com/my-creation

腾讯元宝是混元大模型面向个人的助手App，针对工作效率场景提供AI搜索、AI总结、AI写作能力；针对日常生活场景，元宝新增创建个人智能体、口语陪练等玩法。目前，腾讯内部有超600个业务及场景已接入腾讯混元。

腾讯元宝官网：https://yuanbao.tencent.com/chat/naQivTmsDa

相关阅读：《微信公众号来到AI推荐时代》

7. 网易天音AI工具全面开放

网易天音平台已对网易云音乐的全部用户开放使用权限。据介绍，网易天音具备词、曲、编、唱、混等音乐创作全流程的AI创作辅助功能，具备生产力级别的专业音乐创作水准。

此外，网易云音乐App同步开启“神奇礼物店”活动，用户参与活动即可生成“AI音乐”关键词，可在网易天音官网进行AI创作时使用。

网易天音官网：https://tianyin.music.163.com/

5个AIGC热门案例

1. 丑萌的黏土AI滤镜席卷全网

最近，一款AI黏土风滤镜席卷了小红书、抖音等平台，走的还是另类丑萌风，用户可以一键将自己的照片转换成黏土风格，也可以做成旅行vlog转场、定格动画、Live动态图。

这款滤镜来自于AI制图应用Remini，五一期间Remini日下载量飙升至38万+，占据苹果中国区Appstore免费榜Top 1多日。美图秀秀、Uni Dream等本土应用也随后上线了类似的黏土滤镜。

不过AI技术在处理不同文化背景和性别的照片时存在局限性，这类AI滤镜如何避免昙花一现也是需要长远考量的问题。

2. 用扣子创建AI论文助手

5月9日，B站科技区UP主“林亦LYi”发布视频分享自己搭建AI论文助手的经历，尝试用AI切实提高写论文的生产力。目前该视频播放量近40万。

UP主选择的工具是能够引用外部插件、支持知识库匹配、可以快速搭建工作流的字节扣子。我们只需在创建Bot时提前布入几个插件，便可以让扣子像写论文一样尽量查阅扎实的专业内容。我们还可以将复杂的任务拆解为“摘要”“选题意义”“方法”“结论”“参考文献”五个意图，并为每个意图分别定制不同的分析模型。

https://www.coze.cn/s/ijjuhDsn/

需要注意的是，AI也许能提供一定写论文的思路，降低写论文的难度，但AI不能代替严谨的科学研究。使用AI伪造和篡改数据，属于严重的学术不端。

3. 新中式美学已被AI狠狠拿捏

近日，小红书博主“不言而喻”发布了一篇AI绘画作品，使用奇域AI生成了“立夏石榴花开”这一意象，目前获赞超1万。

从小红书的其他作品数据来看，新中式AI绘图可谓涨粉神器。博主“不言而喻”自今年3月17日起开始发布新中式风格的AI绘画作品，目前收获粉丝1.7万，获赞与收藏超8.9万。

奇域AI由小红书官方出品，定位为专注中式美学的创作社区，用它创作的国风作品不会像Midjourney或Stable Diffusion那样夹杂日式动漫风格和西方元素，比较符合国人审美。

4. 用AI分析我和男友的3万行聊天记录

5月20日，小红书博主“清华取经柴”分享了一个有趣的AI玩法——用Kimi分析情侣的聊天记录。首先将微信的聊天记录导出到电脑本地，格式为txt或word，然后在Kimi网页端上传聊天记录文件即可提问。

比如Kimi根据博主和男友三万行的聊天记录，分析了两人相识相恋的发展历程；也能基于聊天记录中的互动和语言表达，总结情侣不同的性格特点；Kimi还能猜出是谁先追的谁，以及提炼总结两人约定好要做的事情清单。

目前这条小红书图文笔记的浏览量超6万，获赞超1.1万。借助AI的分析，情侣或好友能够从过去的海量数据中看到彼此的想法和感受，如果担心隐私泄露的话，可以选择删除会话数据。

5. 抖音“AI证件照”特效爆火

抖音官方近期了“AI证件照”的特效，共有4种特效模板，其中“AI证件照·女”显示已有超120万人使用过。

操作方式与其他AI写真类产品类似，需要先上传3~10张人像照片来制作数字形象，然后AI生成证件照。不过目前制作的等待时间很久，许多用户反映超过1700分钟，即28小时。

从网友们晒出的照片来看，生成效果普遍不错，与本人长相相似度高，磨皮提亮等美颜效果也比较自然，其中一条视频最高获赞超30万。

    
     
      
       
        

       
       
        「头号AI玩家交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。
       
       
        

       
      
     
    
     
       欢迎分享、点赞、在看
     
     
       一起研究AI

5月AIGC复盘：《Her》走进现实；大模型厂商卷价格；AI电商持续火热