这里是“AI新榜”的新栏目:AIGC月刊。每月更新,以下是我们梳理汇总的2024年6月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考,也欢迎在评论区和我们交流你的所思所想
6月AIGC行业趋势
1. AI视频进入爆发期
AI视频内容生成技术正在快速进步。
国内方面,从快手版Sora“可灵”开放测试,到生数科技联合清华大学发布视频大模型Vidu,再到潞晨Open-Sora团队开源文生视频项目,越来越多的AI视频模型和产品开始涌现。
AI视频同样是国际竞争的焦点,前有Runway更新第三代视频生成模型Gen-3 Alpha,后有Luma AI推出视频生成工具Dream Machine。此外还有一些为AI生成视频“配乐”的新进展,比如Google Deepmind发布了视频生成音频(Video-to-Audio,V2A)技术,ElevenLabs推出了视频生成音效工具Sound Effects。
据观察,视频大模型有望率先在影视、广告、游戏、建筑设计、艺术创作等行业掀起变革。6月17日,抖音率先联合博纳影业推出了首部AIGC科幻短剧集《三星堆:未来启示录》。
相关阅读:《AI视频进入有声时代!谷歌发布视频生成音频技术,效果丝滑惊艳网友!》
2. 国产大模型优势突显
卷完价格,卷服务,最近国内大模型厂商们又卷出了一条新赛道:“无痛搬家计划”。
OpenAI宣布从7月9日起停止对某些未受支持的国家和地区提供API服务,目前其API已向近200个国家和地区开放,但中国内地和中国香港未包含在内。消息一出,国产大模型厂商们纷纷推出了无痛搬家计划,帮助开发者和企业无缝切换到国产大模型,并提供各种优惠和支持。
尽管OpenAI的断供短期内可能会给部分开发者和企业带来挑战,但从长远来看,这也可能成为推动国内AI技术和产业发展的机遇。国产大模型厂商提供的服务在价格上更具优势,同时,随着技术的进步,国产大模型在中文内容理解等方面可能更胜一筹。
你可能错过的10大AI热点
1. 斯坦福Llama3-V团队承认抄袭中国大模型并致歉
5月29日,斯坦福大学的AI研究团队发布了一个多模态模型“Llama3V”,宣称仅需500美元就能训练出一个SOTA多模态模型,且效果比肩GPT-4V、Gemini Ultra和Claude Opus。但随后被网友其抄袭了中国AI企业面壁智能发布的MiniCPM-Llama3-V 2.5。6月4日,两位作者Siddharth Sharma和Aksh Garg在X上承认抄袭,发布了致歉声明。
2. “中国版Sora”视频大模型Vidu视频生成时间延长至32秒
6月6日,生数科技与清华大学联合发布视频大模型Vidu,近期完成三个重大技术迭代:
1. 目前Vidu可以一键生成32s视频;
2. 支持音视频合成,即Vidu视频生成有声音了(Text-2-Audio)。
3. 支持4D生成,可以从单一视频生成时空一致的4D内容。
论文地址:https://arxiv.org/abs/2405.16822
3. Chrome浏览器将内置AI大模型Gemini Nano
近日,Chrome团队宣布正在探索“内置AI”概念。最新的Chrome已经内测内置了Gemini Nano大语言模型,可以完成AI生成摘要、翻译、写作等任务,并且可以完全本地运行,离线免费。Gemini Nano是Gemini模型系列中最小的版本,可在大多数配备Chrome的台式机和笔记本电脑上本地运行。
4. 苹果WWDC发布AI全家桶,GPT-4o加入iOS18
北京时间6月11日,苹果在WWDC24(苹果全球开发者大会)上围绕AI功能宣布“苹果智能”(Apple Intelligence)套件,旨在提升用户在iPhone、iPad和苹果电脑上的体验。同时,苹果正式宣布与OpenAI达成合作,由GPT-4o提供支持的ChatGPT集成将于今年晚些时候登陆iOS、iPadOS和macOS。未来ChatGPT将被整合到Siri当中,并且被融入全系统的书写工具当中。
相关阅读:《苹果用AI爆改iPhone,没成想压轴菜竟是大米饭》
5. 字节“扣子”上线“模型广场”
6月12日,字节跳动旗下的AI应用开发平台“扣子”上线新功能“模型广场”。它可以让两个大语言模型实时PK,一决胜负,帮助用户挑选出最适合自己的大语言模型。据了解,扣子目前已经接入了包括豆包、通义千问、MiniMax、Moonshot、百川智能、智谱等多个国内大语言模型。
相关阅读:《一个提问高下立见?国产AI大模型冲上扣子广场PK》
6. 微软Copilot GPTs官宣停服
6月12日,微软在官网宣布,Copilot GPTs将于7月10日起停服,用户已经创建的GPTs将被清空,而这距离Copilot GPTs的发布仅仅过去3个月时间。微软表示,公司正在进行战略调整,将GPT的重点转向商业和企业场景,而非消费者市场,这一决策背后的可能原因是Copilot GPTs在商业回报上的缺乏。
7. 视频号拟禁止数字人直播带货
近日,腾讯视频号发布《视频号橱窗达人【发布低质量内容】实施细则》修订意见征集通知,拟限制数字人直播。本次修订中,视频号提到“非真实直播”即直播过程中存在使用非实时直播内容或道具代替真实直播的行为,相关的违规示例包括使用插件、AI等工具生成虚拟形象进行直播。
对此,视频号官方表示,数字人直播、虚拟人直播二者概念在视频号中没有区分,且均属于违规行为。
8. Anthropic推出Claude 3.5 Sonnet
北京时间6月21日,Anthropic推出新模型Claude 3.5 Sonnet,支持200K token的上下文窗口,在多项评测中超过了OpenAI最强的GPT-4o,以及自家的Claude 3 Opus。现在所有用户都可以登录官网和移动客户端免费试用。
同时,Claude 3.5 Sonnet新增功能“Artifacts”,改变了用户和AI的交互方式。用户想要Claude生成代码片段、文本、或网站设计等内容时,Claude会直接独立出一个窗口,用户可以直接在窗口中边看边改,将AI生成内容集成到自己的工作中。
体验地址:http://claude.ai
相关阅读:《3句提示词重现经典游戏,爆款游戏的秘诀是带上AI?》
9. 小红书版ChatGPT“达芬奇”上线
继去年9月小规模上线内测版本,小红书的AI聊天机器人“达芬奇”(Davinic)近日再度亮相并正式开启公测。在小红书关注账号“达芬奇”,即可通过与该账号私信对话,体验相关功能。达芬奇称自己可以帮助用户更好地整理信息,为用户提供问题建议和创意灵感。
相关阅读:《小红书版ChatGPT“达芬奇”上线,它准备好了吗?》
10. 讯飞星火V4.0发布,整体超越GPT-4 Turbo
6月27日,科大讯飞发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的落地应用。据介绍,讯飞星火V4.0七大核心能力全面升级,整体超越GPT-4 Turbo。目前讯飞星火App下载量达1.31亿,在星火大模型的加持下,讯飞智能硬件的销量同比增长了70%,月均使用次数超4000万。
相关阅读:《讯飞星火V4发布:多语言实时转文字炸场,这下GPT-4o不香了》
新上线的8个AI工具/功能
1. 开源AI文本转语音工具ChatTTS
近期文本转语音项目ChatTTS上线GitHub一周即狂揽超1万Stars,一度登顶GitHub Trending榜首并连续霸榜。ChatTTS可以将文本转化为自然流畅、接近真人的语音,还能自动添加语气停顿、笑声和衔接词,支持中英文和多种音色。
在线体验网址:https://chattts.com/
相关阅读:《我们让中文AI语音天花板,PK了一下“华尔街金融老油子”》
2. ElevenLabs推出AI生成音效工具Sound Effects
6月2日,ElevenLabs推出了可以为播客、电影或游戏创作音效的AI工具“Sound Effects”,可以根据用户提供的文本描述生成最长22秒的音效,并与其原有的语音和音乐平台结合使用。目前该功能已向所有用户开放。
体验地址:https://elevenlabs.io/sound-effects
3. 快手上线AI图像应用“可图”
近日,快手自研文生图大模型“可图”面向公众开放,用户可通过“可图大模型”微信小程序和网页版使用。可图目前支持文生图和图生图两类功能,用于创作AI图像以及AI形象定制,让用户生成不同场景下的个人形象照片。
网页版地址:https://kolors.kuaishou.com/
相关阅读:《快手、字节“妙鸭化”,AI图像应用还能再度出圈吗?》
4. Stability Al开源Stable Diffusion 3 Medium
6月12日,Stability Al正式开源发布其最新的文本到图像生成模型Stable Diffusion 3 Medium(SD3Medium)。该模型包含20亿个参数,是StabilityAl迄今为止最先进的文本到图像开放模型,更小的VRAM占用空间旨在使其更适合在消费级GPU以及企业级GPU上运行。
下载地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main
5. 快手版Sora“可灵”开放测试
近日,快手自研大模型可灵登录快手旗下视频剪辑工具快影App,用户只需在主页找到“AI生视频”即可申请内测。
可灵采用类Sora的技术路线,结合多项自研技术创新,能够生成长达2分钟、30fps的1080p高分辨率视频,并且支持多种宽高比。6月21日,可灵更新了“图生视频”“视频续写”两大功能,最长可续写达3分钟。
体验地址:http://kling.kuaishou.com/
相关阅读:《超5万人排队内测!海内外爆火的“中国版Sora”惊艳全场,真这么好用?| AI评测》
6. 微信输入法1.2.0支持直接获取AI回答
近日,微信输入法正式推出1.2.0版本,新增AI问答功能,用户在输入内容后按下“=”,可直接获取AI回答。根据功能说明,AI生成的内容由微信读书AI问书提供,用户还能选择将搜索结果输出为图片。
7. Luma AI推出视频生成工具Dream Machine
6月13日,Luma发布AI视频生成工具Dream Machine,可通过文本、图片快速生成高质量视频,120秒即可生成120帧视频,用户可直接注册免费使用。Dream Machine不仅能够保持角色的一致和流畅自然的动作,还能呈现出逼真的物理效果。
体验地址:https://lumalabs.ai/dream-machine
相关阅读:《Sora再遇劲敌?Luma视频生成打造大片既视感,全网已刷屏!| AI评测》
8. ChatGPT推出Mac桌面端
6月26日,OpenAI宣布其首款适用于Mac的ChatGPT聊天机器人应用面向所有用户开放下载。该应用原生支持Mac系统,通过快捷键(Command+空格键)用户可以随时启动应用,并且可以选择附加文件、照片和屏幕截图等素材与其进行多模态交互。此外,该桌面端应用还支持“语音模式”,用户可以使用语音与ChatGPT进行交流。
下载地址:https://openai.com/chatgpt/download/
5个AIGC热门案例
1. 800万网友用AI“转生”在柯南的世界
最近,一款名为“柯南动画风”的AI特效刷屏抖音,目前已有超800万人使用过。开头一张真人照片,然后柯南登场,喊出那句超燃的经典台词“真相永远只有一个!”紧接着,熟悉的BGM响起,仿佛下一秒就要指认真凶了。
使用该滤镜生成的照片画风极为还原,类似的还有前不久大火的“莫奈花园”特效,本质上都是一种AI创作模版,无需用户自行剪辑和配乐,大大降低了创作门槛,容易引发效仿和跟拍,从而形成爆款效应。
2. 让AI互评高考作文
今年高考,人工智能已经直接被当做作文题出现在新课标I卷上了。考虑到让AI写高考作文已不足为奇,我们上新了AI打分互评环节——先让几位参赛选手围绕“人工智能应用”写一篇作文,然后让它们互相给对方作文打分。原以为会变成大型商业互吹现场,实际却是各怀鬼胎,暗流涌动。
相关阅读:《让AI互评高考作文,Kimi和GPT-4o“互掐”,通义前问实力演绎“端水大师”》
3. AI哈利波特唱Rap
最近,一条哈利波特变身嘻哈歌手、身穿宽松街头服饰,与戴着墨镜满满黑帮风的海格热唱Rap的视频在X爆火,播放量超940万次。除哈利波特与海格外,原作者ntflx_and_drill也为电影《哈利波特》中的其他角色,如小精灵多比、斯莱特林王子马尔福、黑魔王伏地魔等,量身定做了歌曲,在TikTok上收获超1600万次观看。
原作者表示,视频中使用的AI技术只是用来变换自身的音色,歌曲Beat、歌词以及动画的制作都是由他自己操刀。这些视频的爆火让我们看到了粉丝们对原作的热爱,也展示了AI技术与艺术、娱乐的创意结合。
4. AI鬼畜攻占B站
AI鬼畜正在B站鬼畜区掀起一阵新的风潮。在AI音乐创作神器Suno的加持下,UP主“鸽潭一姐”在B站发布首条视频《Suno AI热唱【萨菲罗斯男人中的男人】》,就斩获了超560万播放量。
除了用AI生成鬼畜音乐,UP主还用AI语音技术生成更还原的影视二创配音,用AI换脸呈现出荒诞的画面,大大提升了视频制作效率,“年更”变“月更”,鬼畜区变得更加百花齐放了。
相关阅读:《AI鬼畜攻占B站:一条视频播放数百万,UP主年更变月更》
5. 文风测试在小红书上火了,话题浏览量破200万
想知道你的文风最像哪位作家吗?最近,一个文风测试网站(testurtext.site)在小红书上迅速走红,只需搜索“文风”,就能看到一系列与该网站相关的联想词,以及网友们的“破防”笔记,相关话题#文风测试#浏览量达224万。
据开发者透露,文风测试网站自上线以来访问量已经突破了十万。用大语言模型测文风,在技术上是基于深度学习技术,分析文本中的词汇使用、句式结构、情感色彩等语言特征,与已知作家的文风进行比较。这样的分析结果更多是提供一种有趣的视角,而不是绝对的文学评价。
「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看 一起研究AI