OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…

财联社3月21日讯(编辑 刘蕊)美东时间周四,OpenAI举行了一场重磅的技术直播,发布了三款全新语音模型:语音转文本模型GPT-4o Transcribe和GPT-4o Mi...

财联社3月21日讯(编辑 刘蕊)美东时间周四,OpenAI举行了一场重磅的技术直播,发布了三款全新语音模型:语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本转语音模型GPT-4o MiniTTS。

OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…

OpenAI声称,这些模型在之前版本的基础上取得了明显的进步,也标志着OpenAI距离其“AI智能体(AI AGENT)”的愿景更进一步。

更逼真的语音生成模型

OpenAI声称,其新的文本到语音模型GPT-4o MiniTTS不仅能提供更细致入微、听起来更逼真的语音,而且比前一代语音合成模型更“可操控”。

开发人员可以指导该模型如何用自然语言说话——例如,“像一个疯狂的科学家一样说话”、“像一个富有同理心的客服一样说话”或“像一个正念老师一样使用平静的声音”。

OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…

OpenAI产品人员杰夫哈里斯 (Jeff Harris) 表示,他们的目标是让开发者能够定制语音“体验”和“环境”。

哈里斯表示:“在不同的情况下,你想要的不会仅仅是一个平淡、单调的声音…如果你在客户支持体验中,你希望这个声音表达出犯错后的歉意,你可以让声音表达出那种情感……我们的信念是,开发者和用户不仅想要真正控制说什么,还想要控制怎么说。”

语音转文字模型准确率大幅提升

至于OpenAI的新语音转文本模型“GPT-4o-transcript”和“GPT-4o-mini- transcript”,它们的准确度明显高于 OpenAI之前发布的语音转文本模型Whisper,并在多种语言中实现更低的词错误率 (WER)。

OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…

OpenAI声称,经过“多样化、高质量音频数据集”的训练,新模型可以更好地捕捉口音和不同的语音,即使在混乱的环境中也是如此。

OpenAI还表示,新模型在工作中产生幻觉的概率也降低了。哈里斯补充道。众所周知,Whisper喜欢在谈话中编造词汇,甚至整段文字,而“新模型在这方面比Whisper有了很大的改进。”

哈里斯表示:“确保模型的准确性对于获得可靠的语音体验至关重要,(在这种情况下)准确性意味着模型准确地听到了单词,(并且)没有填写他们没有听到的细节。”

当然,模型的准确率和其被转录的语言有较大关系。

根据OpenAI的内部基准测试,GPT-4o-transcribe是两种新转录模型中更准确的一种,其在英语、西班牙语中的单词错误率仅有2%左右,在普通话中的错误率为7%左右,而在印度语和达罗毗荼语系(如泰米尔语、泰卢固语等)中,其“单词错误率”仍接近30%,这意味着模型中每10个单词中就有3个与这些语言的人类转录不同。

距离AI智能体更进一步

OpenAI声称,这些模型符合其更广泛的“AI智能体(AI AGENT)”的愿景:构建能够代表用户独立完成任务的自动化系统。

尽管“智能体(Agent)”的定义可能存在争议,但OpenAI的产品主管奥利维尔·戈德曼(Olivier Godement)将一种解释描述为可以与企业客户交谈的聊天机器人。

“在接下来的几个月里,我们会看到越来越多的AI智能体出现,”戈德蒙德表示,“因此,总的主题是帮助客户和开发者利用有用、可用和准确的智能体。”

与传统不同的是,OpenAI并不打算公开其新的转录模型。该公司此前在麻省理工学院的许可下发布了用于商业用途的新版Whisper。

哈里斯表示,GPT- 4o -transcribe和GPT- 4o -mini-transcribe“比Whisper大得多”,因此不适合公开发布。

“它们不是那种能在笔记本电脑上本地运行的模式,比如Whisper那种,”他继续说道,“我们想确保,如果我们以开源方式发布东西,我们是经过深思熟虑的,我们有一个真正针对特定需求的模型。”

本文来自作者[admin]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/post/18078.html

(11)

文章推荐

  • 世界上的摩擦力手抄报 积极向上的手抄报

    网上有关“世界上的摩擦力手抄报积极向上的手抄报”话题很是火热,小编也是针对世界上的摩擦力手抄报积极向上的手抄报寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。小学四年级积极向上手抄报积极向上的手抄报关于摩擦力的物理手抄报保护视力的手抄报积极向上的简笔手

    2025年01月19日
    62
  • 绿城中国盘中涨超3% 机构看好公司低毛利项目结转完成后盈利修复

      绿城中国(03900)盘中涨超3%,截至发稿,股价上涨2.08%,报9.036港元,成交额2330.04万港元。  开源证券发布研报称,绿城中国于2025年2月3日发布盈利警告,预计公司2024年归母净利润同比下降50%以内,即不低于15.59亿元,主要原因是在房地产市场下行背景下,公司主动

    2025年02月12日
    42
  • 娃哈哈回应商标转让:387件商标正在申请从娃哈哈集团公司转让至娃哈哈食品公司

      每经2月12日电(记者叶晓丹)国家知识产权局商标局官网显示,杭州娃哈哈集团有限公司正在对“娃哈哈”多个商标进行转让,包括国际分类3、10、12、33等,涉及行业包括医疗器械、饮料、护肤品等。  2月12日,娃哈哈集团认证的微博账号发布声明回应此事。娃哈哈集团表示,目前,“娃哈哈”系列商标共计3

    2025年02月12日
    39
  • 【矿山季季观】铁矿:供应保持平稳

      来源:黑产掘金俱乐部  淡水河谷  淡水河谷2024年四季度铁矿石粉矿产量为8527.9万吨,同比下降4.6%,环比下降6.3%,铁矿石销量达8119.6万吨,同比下降10.1%,环比下降0.8%。淡水河谷四季度下调部分低利润产品的生产,但年产量增长依然达2%。根据2025年产量指导目

    2025年02月12日
    49
  • 二十一木筏求生神级生存系统

    在当今的游戏与小说世界中,“木筏求生”这个概念犹如一颗璀璨的新星,吸引着无数玩家和读者的目光。一、“木筏求生”概念的多元呈现“木筏求生”,这简单的四个字涵盖了丰富的内涵。从游戏领域来看,它构建了一个充满挑战与未知的海上世界。在这个虚拟的游戏场景里,玩家置身于一片汪洋大海之上,脚下仅仅是一个小小的木筏

    2025年02月18日
    28
  • 特朗普说汽车、药品和芯片关税可能定在25%左右 最早将于4月2日官宣

      美国总统唐纳德·特朗普表示,他可能会对汽车、半导体和药品征收约25%的进口关税,相关决定最早将在4月2日正式宣布。  “我可能会在4月2日告诉你们,但税率会在25%左右,”特朗普周二在佛罗里达的海湖庄园被问及汽车关税时对记者说。  “那将是25%甚至更高,而且会在一年之内大幅提高,”特朗

    2025年02月19日
    30
  • 古茗午前涨近7%股价刷新上市新高 总市值突破400亿港元

      古茗(01364)早盘涨逾7%,高见17.34港元,创上市新高。截至发稿,股价上涨6.84%,现报17.18港元,成交额6220.24万港元,总市值突破400亿港元大关。  公开资料显示,古茗主要通过加盟模式,开设门店并运营”古茗”品牌。据悉,古茗是中国10-20元价格带内最大的大众现制茶饮

    2025年03月19日
    15
  • 策略师:美元因避险资金流入而上涨,但涨势可能不会持续

      美元走强,Pepperstone策略师MichaelBrown在一份报告中表示,这是由于普遍的风险厌恶情绪促使投资者转向避险资产。  他表示,全球经济前景的不确定性以及美国总统特朗普可能发表令人不安的言论的威胁,意味着投资者仍然没有心情持有风险资产。他表示,最近一轮美元走强很可能不会持续下去

    2025年03月21日
    10
  • 泡泡玛特早盘涨超4% 去年财务表现超预期收入同比增106.9%

      泡泡玛特(09992)早盘股价上涨4.28%,现报163.20港元,成交额5.82亿港元。  近日,泡泡玛特披露2024年业绩。交银国际认为,泡泡玛特去年财务表现超预期,收入同比增106.9%,毛利率提升至66.8%,净利润率25.4%。派息比率35%,与2023年保持一致。该行指出,泡泡玛

    2025年04月01日
    7
  • 美国3月非农新增就业大超预期,因劳动参与率上升、失业率走高

    专题:美国3月非农人数高于预期,交易员削减5月降息押注  来源:华尔街见闻    美国3月非农就业增长超过市场预期,随着劳动参与率的上升,失业率略有上升,薪资增长保持稳定。这显示在全球经济面临广泛关税冲击前,美国劳动力市场仍然健康。  4月4日周五,美国劳工统计局公布的数据显示:3月非农就业

    2025年04月04日
    2

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年04月05日

    我是竹日号的签约作者“admin”!

  • admin
    admin 2025年04月05日

    希望本篇文章《OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…》能对你有所帮助!

  • admin
    admin 2025年04月05日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年04月05日

    本文概览:财联社3月21日讯(编辑 刘蕊)美东时间周四,OpenAI举行了一场重磅的技术直播,发布了三款全新语音模型:语音转文本模型GPT-4o Transcribe和GPT-4o Mi...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们