李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

专题:DeepSeek为何能震动全球AI圈

  《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。

  据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

  这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

  《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

  ▍通义模型的“基座”作用

  根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

  青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

  国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

  谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

  “以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

  ▍低成本训练大模型有局限,但也是方向

  尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

  首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

  其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

  此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

  尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

  武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

  (科创板日报记者 黄心怡)

本文来自作者[adminc]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/shhcs/202502-3157.html

(16)

文章推荐

  • 豆渣饼怎么做才美味?具体做法步骤有哪些

    豆渣饼怎么做才美味?具体做法步骤有哪些豆渣饼怎么做才美味豆渣饼要做得美味,以下是一些关键步骤:(1)准备材料:豆渣、面粉、鸡蛋、葱花、盐、胡椒粉等。(2)将豆渣与适量面粉混合,打入鸡蛋,加入葱花、盐、胡椒粉等调味料,搅拌均匀。(3)根据面团的干湿程度,适当添加水或面粉,揉成合适的

    2025年01月13日
    42
  • windows7 正版系统如何辨别?怎样获取正版 windows7

    windows7正版系统如何辨别?怎样获取正版windows7windows7正版系统如何辨别1.查看产品密钥:正版Windows7系统通常会有唯一的产品密钥。2.从正规渠道购买:通过微软官方商店或授权经销商购买的一般是正版。3.检查包装和文档:正版系统有完整的包装

    2025年01月16日
    65
  • ai如何设计矢量

    网上有关“ai如何设计矢量”话题很是火热,小编也是针对ai如何设计矢量寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。ai如何设计矢量图?ai是一个矢量图绘制软件,它能做出不同类型的海报,如书籍、杂志、包装、商品及网站图等,矢量图的作用是非常强大的,可直接将导

    2025年01月21日
    32
  • 文山有哪些值得一去的旅游景点?旅游攻略是什么

    文山有哪些值得一去的旅游景点?旅游攻略是什么文山有哪些值得一去的旅游景点?文山有很多值得一去的旅游景点,以下是一些推荐:-**普者黑**:以水上田园、湖泊峰林等景观而闻名,景色十分优美。-**坝美村**:宛如世外桃源般的存在,具有独特的喀斯特地貌和田园风光。旅游攻略是什么

    2025年02月02日
    28
  • 手机 QQ 邮箱如何找到并打开?具体操作步骤是什么

    手机QQ邮箱如何找到并打开?具体操作步骤是什么手机QQ邮箱如何找到并打开在手机上打开QQ邮箱可以通过以下几种方式:方式一:通过手机QQ应用1.打开手机QQ软件;2.在QQ界面中,点击下方的“联系人”选项卡;3.在联系人列表中找到“公众号”分类,点

    2025年02月10日
    32
  • 世纪铝业盘前涨7%,特朗普将宣布对所有进口至美国的钢铁和铝加征25%关税

      格隆汇2月10日|美国铝业公司(AA.US)盘前涨7%,报20.01美元。消息面上,美国总统特朗普表示,他将于10日宣布,对所有进口到美国的钢铁和铝征收25%的新关税。这项新关税将在现有金属关税基础上叠加,标志着特朗普贸易政策改革的又一次“重大升级”。(格隆汇)

    2025年02月10日
    22
  • 自动麻将机打牌有规律吗

    一、自动麻将机打牌有规律吗视频?在当今这个信息爆炸的时代,视频已经成为人们获取知识和信息的重要途径之一。对于自动麻将机打牌是否有规律这样一个充满好奇的话题,很多人会首先想到在视频平台上去寻找答案。随着麻将在全球范围内的广泛流行,尤其是自动麻将机的普及,越来越多的玩家渴望了解其背后可能存在的规律。无论

    2025年02月12日
    22
  • 最后一分钟,突涨超6%!

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  01  2月17日,截至收盘,三大指数小幅上涨。全市场1000余只ETF中,700只上涨,307只下跌。收涨基金数量较早盘有所增加。领涨的多为科技、医药板块ETF,影视、黄金板块ETF领跌。  02  盘面结构上

    2025年02月17日
    8
  • 麻将机有没有办法控制拿好牌

    在麻将这个充满趣味与策略的游戏世界里,麻将机的出现无疑给玩家带来了更多的便利。然而,随之而来的一个神秘而又引人遐想的问题便是:麻将机有没有办法控制拿好牌呢?麻将,作为一种古老而又广泛流行的棋牌游戏,在中国乃至亚洲许多地区都拥有庞大的玩家群体。传统的麻将游戏是在手工洗牌、码牌的过程中进行的,每个玩家都

    2025年02月18日
    7
  • 长安汽车:长安汽车和马自达汽车分别持有长安马自达汽车47.5%的股份

    有投资者向长安汽车提问,长安与马自达各持有合资公司多少股份?公司回答表示,您好,长安汽车和马自达汽车分别持有长安马自达汽车47.5%的股份,感谢关注。

    2025年02月21日
    4

发表回复

本站作者后才能评论

评论列表(4条)

  • adminc
    adminc 2025年02月23日

    我是竹日号的签约作者“adminc”!

  • adminc
    adminc 2025年02月23日

    希望本篇文章《李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型》能对你有所帮助!

  • adminc
    adminc 2025年02月23日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • adminc
    adminc 2025年02月23日

    本文概览:专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们