Qwen2.5-Omni:看,听,说,写,样样精通!

  来源:通义千问Qwen   今天,我们发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图...

  来源:通义千问Qwen

  今天,我们发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

  该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放,你可以通过我们的Demo体验互动功能,或是通过Qwen Chat 直接发起语音或视频聊天,沉浸式体验全新的 Qwen2.5-Omni 模型强大性能。

  主要特点

全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

  Qwen2.5-Omni-7B demo

  模型架构

  Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

Qwen2.5-Omni:看,听,说,写,样样精通!

  模型架构图

  模型性能

  Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

  在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

Qwen2.5-Omni:看,听,说,写,样样精通!

  模型性能图

  下一步

  我们期待听到您的反馈,并看到您使用 Qwen2.5-Omni 开发的创新应用。在不久的将来,我们将着力增强模型对语音指令的遵循能力,并提升音视频协同理解能力。更值得期待的是,我们将持续拓展多模态能力边界,以发展成为一个全面的通用模型!

  体验方式

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

  👇点击‘阅读原文’一键体验全模态实时互动

本文来自作者[adminc]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/post/20035.html

(10)

文章推荐

  • 光大期货:2月13日软商品日报

      白糖:  昨日原糖期价持平,主力合约移仓至5月,收于18.32美分/磅。广西制糖集团报价5980~6090元/吨;云南制糖集团报价5900~5950元/吨;加工糖厂主流报价区间6400~6850元/吨,普遍上调10~30元/吨不等。原糖方面中期关注的重点在于巴西估产问题,目前普遍认为巴西

    2025年02月13日
    38
  • 长盈集团(控股)完成发行9.52亿股配售股份

      长盈集团(控股)(00689)发布公告,配售协议所载的所有条件已获达成,而配售已于2025年2月12日完成。根据配售协议,合共9.52亿股配售股份(占公司紧随配售完成后的已发行股本约15.38%)已按配售价每股配售股份0.017港元成功配售予不少于六名独立承配人。

    2025年02月13日
    42
  • 英国首相斯塔默称未来十年英国国防预算寻求达到GDP的3%

      英国首相斯塔默周二对议会表示,到2027年英国将把国防开支提高到相当于GDP的2.5%。在对唐纳德·特朗普任下美国支持力度的疑虑日益加深之际,欧洲各国政府试图加强自身安全。  斯塔默阐述了实现这一目标的途径,军方负责人称这是英国自卫、并有可能在俄罗斯和乌克兰停火的情况下为维和部队做出贡献而需

    2025年02月26日
    28
  • ST百利:3月14日将召开2025年第二次临时股东大会

    证券日报网讯2月26日晚间,st百利发布公告称,公司将于2025年3月14日召开2025年第二次临时股东大会。本次股东大会将审议《关于聘任2024年度审计机构的议案》等多项议案。

    2025年02月27日
    31
  • 许可:国联民生证券聚焦产业投行战略 打造长三角产融协同标杆

    专题:2025国联民生证券项目合作大会:融汇江湖潮涌向新  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  2月27日,国联民生证券在无锡举办以“融汇江湖,潮涌向新”为主题的项目合作大会。国联集团党委书记、董事局主席许可出席会议并致辞。  许可表示,国联证券与

    2025年02月27日
    22
  • G20财长会议未能达成联合公报,保护主义成焦点

      汇通财经APP讯——在南非开普敦举行的二十国集团(G20)财长和央行行长会议于周三(2月26日)落下帷幕,但未能达成联合公报。东道主南非发布了一份“主席总结”,重申了抵制保护主义的承诺,并呼吁支持基于规则的多边贸易体系。此次会议因多位主要经济体财长的缺席以及地缘政治紧张局势而蒙上阴影。  会

    2025年02月28日
    25
  • 喜相逢集团午前涨逾5% 将于下周发布年度业绩

      喜相逢集团(02473)午前上涨4.91%,现报6.62港元,成交额998.85万港元。  喜相逢集团宣布,董事会会议将订于3月20日考虑及批准2024年12月31日止年度业绩等。此前,喜相逢集团发布盈喜公告,该集团预期2024年实现收入不少于人民币14.7亿元,而2023年收入为13.04

    2025年03月12日
    13
  • 欧洲股市下跌 特朗普关税威胁冲击饮料公司

      欧洲股市震荡下跌,饮料生产商走弱,之前美国总统特朗普威胁要对来自欧盟的酒精饮料征收200%的关税,发出跨大西洋贸易战升级信号。  截至伦敦市场收盘,斯托克欧洲600指数下跌0.2%,盘中一度上涨0.6%。销售酩悦香槟和其他产品的LVMH下跌1%,而烈酒生产商保乐力加、干邑白兰地生产商人头马君度

    2025年03月14日
    14
  • “新债王”冈拉克预警:经济衰退风险加剧 市场波动或再临

    有“新债王”之称的双线资本首席执行官杰弗里·冈拉克(JeffreyGundlach)周四表示,随着经济衰退风险的加剧,市场可能将迎来另一段痛苦的波动期。他在一次采访中表示:“我认为投资者早就应该调整他们的投资组合了……我们即将面临新一轮的风险。”他补充道,双线资本已将用于扩大杠杆基金头寸的借款

    2025年03月21日
    10
  • 西锐盘中再拉升涨超14% 2024年度收入创历史新高

      3月25日消息,西锐早盘高开超5%,盘中股价再次拉升,截至发稿上涨14.21%,现报41.4港元,成交额3.77亿港元。  西锐公布昨日发布2024年业绩,收入创历史新高,从10.7亿美元增至12亿美元,同比增长12.1%;毛利约4.14亿美元,同比增长13.4%;年内利润约1.21亿美元

    2025年03月25日
    6

发表回复

本站作者后才能评论

评论列表(4条)

  • adminc
    adminc 2025年04月05日

    我是竹日号的签约作者“adminc”!

  • adminc
    adminc 2025年04月05日

    希望本篇文章《Qwen2.5-Omni:看,听,说,写,样样精通!》能对你有所帮助!

  • adminc
    adminc 2025年04月05日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • adminc
    adminc 2025年04月05日

    本文概览:  来源:通义千问Qwen   今天,我们发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们