李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

专题:DeepSeek为何能震动全球AI圈

  《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。

  据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

  这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

  《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

  ▍通义模型的“基座”作用

  根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

  青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

  国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

  谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

  “以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

  ▍低成本训练大模型有局限,但也是方向

  尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

  首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

  其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

  此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

  尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

  武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

  (科创板日报记者 黄心怡)

本文来自作者[adminc]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/post/3157.html

(42)

文章推荐

  • “走进世博”科普知识

    网上有关““走进世博”科普知识”话题很是火热,小编也是针对“走进世博”科普知识寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。一、选择题(共40题)1、世博会与奥林匹克运动会、世界杯(A)赛一起,并称全球三大顶级盛事。A、足球B、篮球锦标C、排球2、综合

    2025年01月16日
    64
  • 智驾概念股午后集体走高 佑驾创新涨超9%比亚迪电子涨超6%

      智驾概念股午后集体走高,佑驾创新(02431)上涨9.22%,报26.05港元;比亚迪电子(00285)上涨6.53%,报58.70港元;比亚迪股份(01211)上涨6.28%,报348.40港元;地平线机器人-W(09660)上涨4.37%,报5.73港元。

    2025年02月12日
    37
  • 约旦王储会见埃及总统,双方重申支持重建加沙地带

    当地时间2月16日,约旦王储侯赛因访问埃及,并与埃及总统塞西进行会见。会谈期间,双方探讨了两国关系,并就深化各领域合作交换了意见。此外,双方还就地区局势,特别是巴勒斯坦问题,进行了讨论。侯赛因与塞西重申,约旦和埃及坚决支持重建加沙地带,并反对迫使巴勒斯坦人民流离失所。双方强调,有必要确保加沙地带的

    2025年02月16日
    39
  • 2月24日,许峰律师代理的易联众(300096)投资者索赔案再向法院提交立案

    登录新浪财经APP搜索【信披】查看更多考评等级2月24日,许峰律师代理的易联众(300096)投资者索赔案再向法院提交立案上海久诚律师事务所许峰律师团队目前正在推进易联众(300096)涉嫌虚假陈述案的投资者索赔代理工作,符合条件的投资者请尽快与律师联系。许峰律师代理的易联众(300096

    2025年02月25日
    31
  • DeepSeek“评”ESG报告|周大福创建:净零路径提速,供应链管理待突破

      周大福创建(HK00659,原名新创建集团)《2024年环境、社会及管治(ESG)报告》首次披露“突破2050”可持续战略,提出2035年减排50%、2050年净零目标。报告覆盖道路、保险、物流等核心业务,新增物流板块数据,温室气体排放总量较上年减少9%。尽管绿色融资与创新项目表现亮眼,供应链

    2025年02月28日
    29
  • 原油:油价创出9月以来最大单月跌幅 关税风险重创市场人气

      原油在2月份创出去年9月以来最大单月跌幅,因为关税威胁降低了投资者的风险偏好,推高了美元,也给能源需求前景蒙上阴影。  WTI原油期货周五下跌近1%,收于每桶70美元下方,2月份累计下跌3.8%。特朗普确认3月4日开始对从加拿大和墨西哥进口的商品加征关税,这两个国家是美国最大的石油供应国。

    2025年03月01日
    28
  • 3月12日增减持汇总:中曼石油等3股增持 大地电气等16股减持(表)

      据统计,3月12日,包括中曼石油、派斯林、旺能环境在内的3家A股上市公司披露增持情况。包括大地电气、卓兆点胶、思特威、科林电气、润贝航科、凯德石英、太湖远大、江瀚新材、龙建股份、亚康股份、三羊马、信安世纪、神宇股份、亚华电子、开勒股份、昀冢科技在内的16家A股上市公司披露减持情况。

    2025年03月12日
    17
  • 据悉G7外长终于就联合公报达成共识

      七国集团(G7)外长终于就联合公报达成共识,在其中加入了如果俄罗斯不同意停火,将对该国实施更多制裁的语句。但知情人士透露,这个结果是盟友对美国做出让步才换来的。  知情人士称,外长们对有关中东问题的措辞做了明显淡化,对乌克兰也有所弱化。来来回回的磋商讨论反映出特朗普政府的外交政策与拜登时期有很

    2025年03月15日
    14
  • 华商领袖与华人智库圆桌会议在海南博鳌举行

    专题:博鳌亚洲论坛2025年年会  本报海南博鳌3月26日电  (记者于景浩)博鳌亚洲论坛2025年年会·华商领袖与华人智库圆桌会议26日在海南博鳌举行。  本次会议由国务院侨务办公室主办,以“变局开启新局 发展创造未来”为主题。来自15个国家和地区的23名华商代表、民营企业家和智库专家围绕“普

    2025年03月27日
    9
  • 总投资收益率均超5%!五大上市险企业绩高增背后的投资逻辑是什么

    2024年以来,支持“长钱长投”的政策不断出台。新“国九条”提出,大力推动中长期资金入市,持续壮大长期投资力量。主要举措包括:优化保险资金权益投资政策环境;完善全国社会保障基金、基本养老保险基金投资政策;提升企业年金、个人养老金投资灵活度。2024年9月26日中央政治局会议召开后,证监会在次日表示

    2025年04月01日
    4

发表回复

本站作者后才能评论

评论列表(4条)

  • adminc
    adminc 2025年04月05日

    我是竹日号的签约作者“adminc”!

  • adminc
    adminc 2025年04月05日

    希望本篇文章《李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型》能对你有所帮助!

  • adminc
    adminc 2025年04月05日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • adminc
    adminc 2025年04月05日

    本文概览:专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们