阿里巴巴的Qwen AI模型助力斯坦福、伯克利能够开发出低成本推理模型

  斯坦福的S1和伯克利的TinyZero是研究人员越来越多地使用阿里巴巴技术降低AI训练成本的两个例子。随着美国计算机科学家(包括著名的华裔“AI教母”李飞飞)利用阿里巴巴的...

  斯坦福的S1和伯克利的TinyZero是研究人员越来越多地使用阿里巴巴技术降低AI训练成本的两个例子。随着美国计算机科学家(包括著名的华裔“AI教母”李飞飞)利用阿里巴巴的开源Qwen2.5模型,以不到50美元的成本训练出一种新的推理模型,在中国DeepSeek取得突破性成功后,生产最便宜且性能顶尖的人工智能(AI)模型的竞赛正在升温。

  根据上周发表的一篇研究论文,S1推理模型是由斯坦福大学(李飞飞工作的地方)和华盛顿大学的研究人员在阿里巴巴的Qwen2.5-32b-Instruct模型基础上开发的。

  阿里巴巴模型的能力是中国正在缩小与领先美国AI企业差距的最新证据。此前,DeepSeek发布的低成本、高性能开源模型已引起全球关注。阿里巴巴在香港上市的股票本周一上涨了6%。

  根据论文,S1模型在经过1000个精心设计的问题答案和从谷歌Gemini思维实验模型中蒸馏的“思维过程”训练后,在数学和编程技能上超越了OpenAI的o1-preview模型。

  根据研究中提到的计算,仅用于开发S1的图形处理单元(GPU)运行成本可能低至14美元。论文指出,该模型在16个Nvidia H100上训练了26分钟。这些芯片可以以每小时2美元的价格租用。

  加州大学伯克利分校的计算机科学家Pan Jiayi表示,以如此低的成本(大约相当于纽约熟食店一个三明治的价格)训练一个强大的推理模型的关键在于基础模型。“基础模型的质量是关键,”他说。

  Pan Jiayi的团队在启动一个项目时得出了这一结论。该项目成功复制了DeepSeek-R1模型在倒计时游戏(一种需要模型达到目标数字的算术运算)和乘法任务中的推理能力。该团队的TinyZero项目也是在一系列Qwen2.5模型的基础上构建的,成本约为30美元。

  通过使用强化学习,Pan Jiayi的团队从使用5亿参数的Qwen2.5版本升级到70亿参数的版本。Pan Jiayi在X(前身为Twitter)上表示,一旦使用15亿参数的模型,它就开始“学习搜索、自我验证和修正解决方案,从而使其能够获得更高的分数”。

  S1和TinyZero都选择了阿里巴巴的Qwen2.5,因为该模型的开源代码允许任何人访问和修改基础模型,并且其性能表现出众。

  阿里巴巴的云计算部门于去年9月首次推出Qwen2.5系列,参数规模从5亿到720亿不等。参数是指AI系统在训练过程中存在的变量。AI模型的复杂性和有效性在很大程度上取决于训练过程中涉及的参数规模。

  在发布时,该系列最大的模型Qwen2.5-72b的表现优于其他开源竞争对手模型,包括Meta Platforms的Llama3.1-405b,尽管后者规模更大。

  根据当时的基准测试,其性能也与微软支持的OpenAI和亚马逊支持的Anthropic的顶级闭源模型相当。

  Qwen2.5是全球最大的深度学习和AI模型社区Hugging Face上去年下载量最多的模型,取代了Meta的Llama系列,成为全球研究人员和开发人员的首选。这也解释了为什么越来越多的全球计算机科学家正在通过在Qwen模型上进行实验来增强AI系统。

  OpenAI的GPT系列等顶级模型并非开源,因此无法下载用于此类研究。

  在本月早些时候发表的一篇论文中,上海交通大学的计算机科学家展示了一种使用高质量训练样本来增强AI系统推理能力的方法,该实验也以Qwen模型为基础。

  加拿大滑铁卢大学计算机科学助理教授Chen Wenhu表示:“Qwen模型确实有一些神奇之处。”

  Chen Wenhu在X上写道,他的团队尝试使用相同质量的数据方法训练其他模型,但几乎没有取得任何进展。

本文来自作者[adminc]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/bpdc/202502-5097.html

(27)

文章推荐

  • 陈松伶个人资料都有哪些?她的演艺经历如何

    陈松伶个人资料都有哪些?她的演艺经历如何陈松伶个人资料陈松伶,1971年1月21日出生于中国香港。陈松伶演艺经历陈松伶是香港影视歌三栖女艺人。她14岁参加无线电视举办的“叶倩文歌唱大赛”,以一曲《零时十分》荣获冠军。1987年主演了电影《鬼马校园》。之后她在TV

    2025年01月12日
    38
  • 中医有哪些养生的常识-中医基本常识_1

    网上有关“中医有哪些养生的常识:中医基本常识”话题很是火热,小编也是针对中医有哪些养生的常识:中医基本常识寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。中医养生,历史悠久,渊源极深。在中医第一部经典巨作中,就提到了很多的中医养生方法。那么,中医有哪些养生的常

    2025年01月18日
    38
  • 数码宝贝头像哪里找?怎样选择合适的数码宝贝头像

    数码宝贝头像哪里找?怎样选择合适的数码宝贝头像数码宝贝头像哪里找?1.可以在搜索引擎中输入“数码宝贝头像”等相关关键词,然后浏览搜索结果,找到喜欢的头像图片。2.相关的动漫图片网站上可能有大量的数码宝贝头像资源可供选择。3.在一些数码宝贝的粉丝论坛或社区中,也能找到粉丝们分享的

    2025年01月21日
    60
  • 原油:特朗普政策频出

      来源:紫金天风期货研究所  【20250206】原油:特朗普政策频出  观点小结   核心观点:震荡春节假期期间,原油震荡下行,主要受到前期制裁溢价回落+特朗普关税政策冲击影响,横向资产来看,黄金继续走强,部分“特朗普交易”重现,本周EIA数据显示美湾开工大幅走弱,商业原油库存累库明

    2025年02月06日
    16
  • 长垣未来 15 天天气怎样?天气预报该如何查看?

    长垣未来15天天气怎样?天气预报该如何查看?长垣未来15天天气怎样很抱歉,无法直接得知长垣未来15天的具体天气情况呢。P天气预报该如何查看要查看长垣未来15天的天气预报,你可以通过以下几种方式:1.天气预报类的手机应用程序,如墨迹天气、彩云天气等,在应用中

    2025年02月07日
    20
  • 爱得科技经销商疑云密布:多家0参保0实缴资本刚成立就贡献高收入 有的还涉嫌关联交易非关联化

    登录新浪财经APP搜索【信披】查看更多考评等级  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  出品:新浪财经上市公司研究院  作者:IPO再融资组/郑权  近日,医疗器械生产商苏州爱得科技发展股份有限公司(下称“爱得科技”)收到了北交所问询函,二次IPO之旅

    2025年02月08日
    16
  • 【复工专题】节后钢铁上下游产业链复工情况调研汇总

      (卓创资讯分析师初晓)  【导语】节后钢材价格窄幅调整,交投暂未恢复至正常水平。春节期间停工企业陆续在正月初八至正月十二恢复,而下游工地开工不足10%。对于后市,需求预估到2月底复苏到偏正常水平,短期供需不匹配,对价格支撑不足,预计价格或弱势震荡。中后期随着需求陆续恢复,价格有望反弹。

    2025年02月11日
    18
  • 2024年钼进口同比增加30.5%,出口同比增加6.27%

    海关数据显示,2024年12月份中国进口氧化钼580吨(实物量),环比增加74.17%;进口钼精矿7045吨(实物量),环比减少13.39%;进口钼铁464吨(实物量),环比减少53.58%。经测算,12月份钼产品进口总量为4483吨钼(折合金属量),环比减少14.41%。出口方面,12月份中国出

    2025年02月11日
    17
  • 两家城商行ROE超15%!

      上一期,轻金融对4家股份行的2024年业绩快报进行了详细梳理,详见:  4家股份行业绩比拼:招行ROE最高,兴业、中信业绩“双增长”!  本文来分析下13家城商行的业绩快报。由于公布业绩快报的城商行,约半数位于江浙地区,加上成都银行、长沙银行等业绩较好的银行,使得城商行的整体业绩表现要好过

    2025年02月13日
    14
  • 大和:电力股中首选煤电 最看好中国电力

      大和发布研究报告称,在去年末季至今年首季煤价持续回调下,燃煤发电单位利润扩张,煤电公司盈利或带来惊喜,并跑赢整体能源板块。其最新偏好排序首选煤电,其次是水力及可再生能源,最后是核能。  在政策支持及估值低企下,现在对独立发电厂更有信心。大和对大唐新能源(01798)及龙源电力(00916)的悲

    2025年02月14日
    13

发表回复

本站作者后才能评论

评论列表(4条)

  • adminc
    adminc 2025年02月23日

    我是竹日号的签约作者“adminc”!

  • adminc
    adminc 2025年02月23日

    希望本篇文章《阿里巴巴的Qwen AI模型助力斯坦福、伯克利能够开发出低成本推理模型》能对你有所帮助!

  • adminc
    adminc 2025年02月23日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • adminc
    adminc 2025年02月23日

    本文概览:  斯坦福的S1和伯克利的TinyZero是研究人员越来越多地使用阿里巴巴技术降低AI训练成本的两个例子。随着美国计算机科学家(包括著名的华裔“AI教母”李飞飞)利用阿里巴巴的...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们