新榜讯 3 月 27 日凌晨,阿里巴巴最新发布且开源了首个端到端全模态大模型——通义千问 Qwen2.5-Omni-7B。该模型能够同时应对文本、图像、音频以及视频等多种输入形式,并能够实时生成文本以及进行自然语音合成输出。在权威的多模态融合任务 OmniBench 等测评当中,Qwen2.5-Omni 一举刷新业界纪录,在全维度上大幅超越 Google 的 Gemini-1.5-Pro 等同类模型。Qwen2.5-Omni 能够以近似人类的多感官模式“立体”地认知世界,并与之进行实时交互,还能够通过音视频识别情绪,于复杂任务里作出更具智能化、更显自然的反馈与决策。
扫描二维码
手机浏览
阿里开源首个全模态大模型Qwen2.5-Omni,7B尺寸实现全球最强性能
分享文章链接
相似推荐

阿里通义千问登顶全球开源模型榜首
新榜讯 全球最大的 AI 开源社区 Hugging Face 大模型榜单迎来更新,近期阿里通义千问开源的端到端全模态大模型 Qwen2.5-Omni 荣登总榜首位,DeepSeek-V3-0324 与群核的 SpatialLM-Llama-1B 依次位居其后,杭州公司成功包揽全球开源模型榜单前三甲。

阿里开源全模态模型R1-Omni 情感识别能力更优
新榜讯 昨日,阿里通义实验室重磅开源 R1-Omni 模型,此模型为业界首例将具备可验证奖励的强化学习(RLVR)运用于全能多模态大语言模型。

阿里云通义开源首个多模态推理模型QVQ
新榜讯 12 月 25 日,阿里云通义千问重磅推出首个开源多模态推理模型 QVQ-72B-Preview。