OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

  来源:华尔街见闻   OpenAI周四在System Card报告中推出OpenAI GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型,现已向每月订阅费用200...

  来源:华尔街见闻

  OpenAI周四在System Card报告中推出OpenAI GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型,现已向每月订阅费用200美元的ChatGPT Pro订阅用户开放。

  下周,该模型也将向每月20美元的ChatGPT Plus订阅用户开放。OpenAI首席执行官Altman表示,届时该公司将增加数万块GPU,提供算力支撑。

  情商更高、幻觉更少

  OpenAI表示,在GPT-4o的基础上,GPT-4.5进一步扩展了预训练,并被设计成比其强大的stem推理模型更通用。早期测试表明,与GPT-4.5互动感觉更自然。它拥有更广泛的知识库,更符合用户意图,情商更高,因此非常适合写作、编程和解决实际问题等任务,而且幻觉更少。

  例如,在面对“我考试失败了,心情很低落”这样的输入时,OpenAI 之前的模型会立即尝试解决问题。而新模型 GPT-4.5 会先询问用户是否想聊聊这个问题,还是需要一些分散注意力的方法。研究人员认为,这种回应显示出更高的情感智能。

  在早期测试中,该模型的“幻觉率”——即AI系统生成不准确信息的概率——为37%,相比之下,其前代模型GPT-4o的幻觉率接近60%。OpenAI在博客中表示,

  成本太高 Altman:下周再增数万GPU 支撑算力

  GPT-4.5最初将作为“研究预览版”,提供给一小部分软件开发者以及支付每月200美元订阅费用的ChatGPT Pro用户。该公司计划从首批试用者那里收集反馈。

  OpenAI首席执行官Altman也在X平台发文说,将在下周正式发布GPT-4.5的时候增加数万块GPU:

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

  OpenAI在2022年底推出ChatGPT,引发了生成式AI的狂热潮流,该工具最初基于GPT-3.5模型运行。自那以来,该公司陆续发布了一系列日益先进的系统,包括多个模拟人类推理过程的选项。但OpenAI如今正面临来自中国新兴企业DeepSeek、马斯克旗下的xAI以及Anthropic等竞争对手的激烈竞争,这些公司近几周都相继推出了新的AI模型。周一,Anthropic发布了Claude 3.7 Sonnet,而在上周,马斯克旗下的xAI也推出了最新模型Grok 3。

  吹牛吹过头?基准测试部分表现不如DeepSeek、Anthropic及o系列模型

  在GPT-4.5之前,每一代GPT模型的扩展都会带来跨数学、写作和编程等多个领域的巨大性能提升。然而,从多个迹象来看,单纯依赖数据和计算能力的扩展所带来的收益正在逐步减少。在多个AI基准测试中,GPT-4.5的表现不及DeepSeek、Anthropic以及OpenAI自身开发的新一代推理模型。

  OpenAI研究副总裁Nick Ryder向媒体表示,他预计GPT-4.5的能力提升幅度将与GPT-3.5升级至GPT-4时的变化相当,而GPT-4是在2023年初发布的。OpenAI强调,GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平台的主力模型。

  从性能上看,GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如,在OpenAI的SimpleQA基准测试(该测试考察 AI 在处理简单、事实性问题时的准确度)中,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

  然而,OpenAI并未公布其最先进的AI推理模型deep research在SimpleQA测试中的表现。OpenAI发言人告诉媒体,公司尚未公开deep research在该基准测试中的得分,并表示这一对比不具备参考价值。值得注意的是,AI初创公司Perplexity的Deep Research模型在此测试中的表现优于GPT-4.5。

  在编程能力方面,GPT-4.5在SWE-Bench Verified基准测试(测试AI在编程问题上的能力)上与GPT-4o和o3-mini表现相当,但逊色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer编程测试(衡量AI生成完整软件功能的能力)上,GPT-4.5超过了GPT-4o和o3-mini,但仍不及deep research。

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

  在一些学术基准测试(如AIME和 GPQA)上,GPT-4.5的表现不及领先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型)。不过,在数学和科学相关问题上,GPT-4.5的表现仍然处于领先水平,与其他非推理模型相比表现更优。

  打造过程充满挑战

  打造GPT-4.5的过程充满挑战。彭博新闻此前报道称,该模型在公司内部被称为“Orion”,但在去年未能达到OpenAI设定的性能基准。例如,截至去年夏天,Orion在回答其未受训练的编程问题时表现不佳。据知情人士向媒体透露,OpenAI和其他开发人员面临的一个关键问题是如何找到新的、高质量的训练数据来源,以开发更先进的AI系统。

  对此,GPT-4.5采用了与其前代模型(包括 GPT-4、GPT-3、GPT-2 和 GPT-1)相同的核心技术,即在“预训练”阶段大幅增加计算能力和数据量的“无监督学习”方法。在这一过程中,系统会结合人类反馈来优化回答内容,并调整模型与用户互动的语气等。此外,该公司还想出了一些新方法,利用从GPT-4.0训练数据中提取的信息来进一步训练GPT-4.5。OpenAI研究副总裁Mia Glaese表示,这一方法有助于改进模型的整体表现。

  分析认为,GPT-4.5的发布标志着OpenAI时代的一个转折点。本月早些时候,Altman在X平台发文称,这将是公司推出的最后一个不依赖额外计算能力来“思考”查询后再回答的模型。OpenAI已在一些较新的模型(如o1和o3)中采用了这一推理方法。

  未来,OpenAI计划在今年晚些时候发布GPT-5,将把GPT系列模型与o系列模型结合,构建能够自主判断需要思考多久再生成回答的AI系统。Altman表示,这一目标是为了简化用户体验,让用户不必在越来越复杂的选项列表中进行选择。

  目前,OpenAI正在与软银(SoftBank)及其他投资者洽谈融资,计划筹集高达400亿美元,使其估值达到3000亿美元(包括新融资在内)。与此同时,Anthropic也在进行一轮约35亿美元的融资,估值超过600亿美元,两位知情人士向媒体透露。

本文来自作者[admin]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/shhcs/202502-11553.html

(1)

文章推荐

  • 福州科技馆开放时间及门票

    网上有关“福州科技馆开放时间及门票”话题很是火热,小编也是针对福州科技馆开放时间及门票寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。福州科技馆开放时间在每周三到周日的9点到17点,属于免费科技馆,无需购买门票。根据查询福州科技馆官方网站显示。福州科技馆于19

    2025年01月22日
    50
  • 富士康股票走势如何?其投资价值怎样?

    富士康股票走势如何?其投资价值怎样?富士康股票走势会受到多种因素的影响,如市场行情、公司业绩、行业竞争、宏观经济环境等。要准确评估其股票走势是较为复杂的,需要综合考虑各种因素的动态变化。关于投资价值,这也需要对富士康的财务状况、业务发展前景、市场竞争力等进行深入分析。富士康在电子

    2025年01月24日
    36
  • 载有104名印度非法移民的美国军用飞机降落在印度

      央视记者获悉,当地时间2月5日,一架载有104名被驱逐出境的印度非法移民的美国军用飞机降落在印度。(央视记者许弢)

    2025年02月06日
    21
  • 光伏股早盘走强 协鑫科技涨超7%信义光能涨超4%

      光伏股早盘走强,协鑫科技(03800)上涨7.69%,报1.26港元;信义光能(00968)上涨4.20%,报3.47港元;福莱特玻璃(06865)上涨3.34%,报12.38港元;新特能源(01799)上涨3.57%,报7.55港元。

    2025年02月07日
    21
  • 做好金融“五篇大文章” 资本市场有了施工图

    登录新浪财经APP搜索【信披】查看更多考评等级  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  证券时报记者程丹  中国证监会2月7日发布《关于资本市场做好金融“五篇大文章”的实施意见》(以下简称《实施意见》)。《实施意见》共分为8个部分、18条措施,明确了

    2025年02月08日
    21
  • 又是这家?平安证券开年双罚

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  来源:券业行家  又是这家?平安证券开年双罚,合规内控在哪?  来自浙江证监局的券商首罚,剑指平安证券浙江分公司合规内控缺陷。而这家分支机构的违规事项,其实还不止如此。就在上一年,还曾因为“偷税”而被税务部门处罚。

    2025年02月10日
    23
  • 美银证券:重申华润啤酒“买入”评级 目标价下调至30.6港元

      美银证券发布研究报告称,重申华润啤酒(00291)“买入”评级,因为预计润啤在艰难的市场中将超越中国前三大啤酒厂,其2024年的销量下降幅度最低(跌3.1%,而青岛啤酒股份(00168)为中单位数下降,百威亚太(01876)降幅超过10%),这得益于其主动的自救措施。目标价下调7%至30.6港

    2025年02月12日
    24
  • 友邦保险早盘涨逾4% 已完成公司120亿美元股份回购计划

      友邦保险(01299)盘中涨超5%,截至发稿,股价上涨3.97%,现报53.75港元,成交额13.77亿港元。  2月12日,友邦保险发布公告,本公司欣然宣布,已透过场内回购合共本公司14.09亿股股份(占本公司截至2022年3月公告公布当日已发行股份总数的11.7%),完成其总价值约120

    2025年02月13日
    27
  • 上海土拍,象屿地产“起了个大早,赶了个晚集”

      转自:乐居财经  乐居财经赵盼盼近日,上海迎来今年首轮土拍,4宗地块分别位于浦东新杨思、虹口瑞虹新城、松江新城西区、奉贤区南桥新城,总出让面积22.7万平方米,土地出让总金额159.26亿元。  此次土拍共吸引了17家企业参拍。  最后,浦东新杨思地块由华润+越秀联合体竞得,成交价50.9

    2025年02月22日
    12
  • 连续两个“20cm涨停”!双飞集团股价创历史新高,1.35万股民嗨了

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  来源:华夏时报  双飞集团上市以来周K线  2月21日,市场全天震荡走高,科创50指数上涨近6%,创2023年4月26日以来新高。  当天,主要从事自润滑轴承业务的浙江双飞无油轴承股份有限公司(下称“双飞集团”

    2025年02月23日
    7

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年02月28日

    我是竹日号的签约作者“admin”!

  • admin
    admin 2025年02月28日

    希望本篇文章《OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU》能对你有所帮助!

  • admin
    admin 2025年02月28日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年02月28日

    本文概览:  来源:华尔街见闻   OpenAI周四在System Card报告中推出OpenAI GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型,现已向每月订阅费用200...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们