登录/注册
扫描二维码
手机浏览

阿里通义首个音频生成模型ThinkSound正式开源

新榜商桥
情报行业动态

新榜讯 7月5日讯,阿里“通义大模型”公众号发布消息,通义实验室首个音频生成模型ThinkSound正式开源,此举将突破“静音画面”所带来的想象力限制。ThinkSound开创性地将CoT应用于音频生成领域,促使AI能够逐步明晰画面事件与声音之间的关联,进而达成高保真、强同步的空间音频生成效果。这并非简单的“看图配音”,而是真正意义上的“听懂画面”。


分享文章链接