自建低成本生成式人工智能的热潮才刚刚开始

  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。...

自建低成本生成式人工智能的热潮才刚刚开始

  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。

  中国的 DeepSeek 的出现是一个主要原因,现在,数十亿美元的人工智能数据中心建设正受到审视,阿里巴巴联合创始人蔡崇信最近也发出了警告。

  但在斯坦福大学和加州大学伯克利分校等顶尖学校的计算机科学家当中,仅需 30 美元就能构建一个大语言模型的能力,带来了 “顿悟” 时刻。

  当 DeepSeek 发布其 R1 模型,并声称仅花费 600 万美元就实现了其生成式人工智能大语言模型时,包括微软投资的 OpenAI 在内的美国人工智能市场领先企业所投入的数十亿美元资金,立即受到了审视。

  DeepSeek 的成本分析仍然受到怀疑,投资者对 OpenAI 的信心也并未减弱。据报道,它准备以高达 3000 亿美元的估值进行一轮 400 亿美元的融资,并表示今年的收入将增长两倍,达到 127 亿美元。热门人工智能芯片公司 CoreWeave 本周也希望重振不稳定的首次公开募股(IPO)市场,并开启人工智能股票发行热潮。但对人工智能市场是否发展过快、支出水平是否过高的担忧也并未停止。

  今年到目前为止,“七巨头” 科技股一直是市场表现最差的股票之一,就在本周,阿里巴巴联合创始人蔡崇信警告称,他看到了美国人工智能泡沫正在形成的迹象。随着对人工智能发展以及美国在人工智能竞赛中领先地位的预期不断调整,其影响已经广泛蔓延,从要求实施更严厉的芯片禁运以减缓中国的发展,到另一方面,风险投资家们向中国的人工智能开发者投入更多资金。

  但对于美国人工智能领域的一些人来说,一切仍在全速前进,因为生成式人工智能领域的廉价采购热潮,让研究人员能够以前所未有的方式推动大语言模型的构建能力,而在 DeepSeek 出现之前,他们似乎无法做到这一点。

  加州大学伯克利分校的研究人员是最早对 DeepSeek 进行小规模语言模型复现的团队之一,而且仅花费了 30 美元。这是在公共云上租用两块英伟达 H200 图形处理器(GPU),并使用一个简单游戏来训练 “30 亿参数”(3B)模型的费用 —— 这里的 “30 亿” 指的是模型中的参数数量,实际上比最复杂的大语言模型(其参数数量可达数万亿)要少得多。

  “在 DeepSeek R1 发布后,我们立即启动了这个项目。”TinyZero 项目负责人、该校研究生研究员潘佳怡说。

  OpenAI 的突破对该团队的研究兴趣同样至关重要,潘佳怡表示,他们对一种新的人工智能推理范式很着迷,这种范式 “旨在让人工智能在做出回应之前多花些时间思考”。

  但 DeepSeek R1 是首个有助于解释如何实现这种 “先思考再回答” 能力的公开研究,这种能力提高了人工智能模型的性能。“我们非常好奇这种算法是如何工作的。” 潘佳怡说。但潘佳怡补充道,即便 DeepSeek 据说只花了 600 万美元来训练其 R1 模型,这对他们来说 “还是太贵了”。

  TinyZero 项目背后的主要思路是,如果在减小模型规模的同时降低任务复杂度,模型仍然能够展现出涌现的推理行为。这些调整将大幅降低成本,同时仍能让研究人员测试和观察实际的推理行为。

  人工智能的 “顿悟” 时刻

  为了验证这一思路,该团队在一个名为 “倒计时”(Countdown)的数学游戏中复现了 DeepSeek R1-Zero 算法,这个游戏更注重推理能力,而不是基于已有的 “领域” 知识(即数学知识)来寻找解决方案。在这个游戏中,人工智能需要得出一个目标数字,可以通过加、减、乘或除来实现。

  起初,TinyZero 采用随机的方法来寻找目标数字;然而,经过训练,它开始学会调整方法,找到更好、更快的解决方案。而且,即使任务复杂度和模型规模都降低了,该模型仍然能够展现出涌现的推理行为。它通过在游戏的参数范围内学习玩这个游戏,学会了推理。

  “我们证明了,即使是像 30 亿参数这么小的模型,也能学会对简单问题进行推理,并开始学会自我验证和寻找更好的解决方案。” 潘佳怡说。她表示,这是 DeepSeek R1 和 OpenAI o1 发布成果中的一个关键结果,通常被称为 “顿悟时刻”。

  虽然最大的人工智能模型、DeepSeek 和 TinyZero 这样的项目之间存在显著差异,但涌现的推理行为是相似的,TinyZero 这样的成功案例表明,预算有限的研究人员、工程师和爱好者也能够接触到前沿的人工智能算法。

  “我们的项目吸引了很多人访问我们在 GitHub 上的页面,复现实验并亲自体验‘顿悟’时刻。” 潘佳怡说。

  斯坦福大学的研究人员最近发布了他们关于使用 “倒计时” 游戏来观察人工智能如何学习的预印本论文,并克服了之前阻碍他们进展的工程挑战。

  “TinyZero 很棒。” 该项目的首席研究员卡尼什克・甘地说,因为它使用了 “倒计时” 游戏,这是斯坦福团队引入并正在研究的一个任务。

  其他人工智能项目的开源也起到了重要作用,包括由 TikTok 的母公司字节跳动创建的火山引擎强化学习系统(VERL)。“VERL 对我们运行实验至关重要。” 甘地说。“这种一致性极大地帮助了我们进行实验,并实现了更快的迭代周期。”

  超越 “大实验室”,依靠开源

  斯坦福团队试图理解为什么一些大语言模型在推理能力上有显著提升,而另一些则停滞不前,甘地表示,他不再期望与推理、智能和改进相关的计算机科学突破必然来自大型实验室。“即使在大型实验室内部,对当前大语言模型的科学理解也存在缺失,因为其能力在不断提高。在自主开发人工智能、开源和学术界方面,有很大的空间可以在此做出贡献。” 他说。

  像斯坦福大学和加州大学伯克利分校的这些项目,将基于如何训练能够自我提高推理能力的模型的研究,带来更多的共享开发成果。

  但即使是这些超低成本的模型,也比研究人员所解释的要昂贵。

  人工智能商业咨询公司 OneSix 的高级首席机器学习科学家尼娜・辛格表示,TinyZero 这样的项目的开源方面依赖于在其他基础模型之上进行训练,其中不仅包括 VERL,还包括阿里云开源的通义千问(Qwen)大语言模型。“所说的 30 美元训练成本不包括通义千问最初的训练时间,阿里巴巴在将其作为开源权重发布之前,在这上面投入了数百万美元。” 她说。

  辛格表示,这并不是对 TinyZero 的批评,而是强调了开源权重模型的重要性 —— 即使没有完全开源人工智能数据和架构,这些模型也会向公众发布训练参数,从而推动进一步的研究和创新。

  “针对特定任务进行微调的较小人工智能模型,能够以更小的规模和成本与大得多的模型相媲美。” 辛格说。

  随着越来越多的个人、学者和小型公司期望在无需进行大规模基础设施投资的情况下就能参与到人工智能领域,尝试模仿基础模型的性能并针对特定任务进行微调的趋势正在增长。辛格举了 Sky-T1 的例子,它为用户提供了花费 450 美元训练自己的 o1 模型的能力,还有阿里巴巴的通义千问,最低只需 6 美元就能进行人工智能模型的微调。

  辛格预计,较小项目的开源权重模型将促使主要参与者采用更开放的方法。“自主微调以及社区驱动的模型改进的成功,给像 OpenAI 和 Anthropic 这样的公司带来了压力,要求它们为其受 API 限制的模型提供合理依据,尤其是当开源替代方案在特定领域开始达到或超过它们的能力时。” 她说。

  TinyZero 最重要的发现之一是,数据质量和针对特定任务的训练,比单纯的模型规模更重要。

  “这是一个重大发现,因为它挑战了行业中普遍存在的观点,即只有像 ChatGPT 或(Anthropic 的)Claude 这样拥有数千亿参数的大规模模型,才能够进行自我修正和迭代学习。” 辛格说。“这个项目表明,我们可能已经越过了一个临界点,即额外增加参数带来的收益在递减 —— 至少对于某些任务来说是这样。”

  这意味着人工智能领域的重点可能正在从模型规模转向效率、可及性和有针对性的智能。

  或者正如 TinyZero 团队在项目页面上自己所说:“你可以用不到 30 美元亲自体验‘顿悟’时刻。”

本文来自作者[admin]投稿,不代表竹日号立场,如若转载,请注明出处:https://eodbgbl.cn/post/20396.html

(9)

文章推荐

  • 科技科幻手抄报

    网上有关“科技科幻手抄报”话题很是火热,小编也是针对科技科幻手抄报寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。科技科幻手抄报:科技之歌?文/飘逸的思绪是什么让炙热的夏季不在闷热是什么让久冻的冰雪得以融化是什么让平凡的生活充满神奇是科技

    2025年01月18日
    71
  • 舜宇光学科技发盈喜 预期2024年度股东应占溢利同比增加约140%至150%

      舜宇光学科技(02382)发布公告,集团预期截至2024年12月31日止年度取得公司股东应占溢利约人民币26.39亿元至人民币27.49亿元,较截至2023年12月31日止年度的约人民币10.99亿元增加约140.0%至150.0%。

    2025年02月13日
    41
  • 信达澳亚李晓西:港股市场高质量价值投资效果分析

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

    2025年02月21日
    34
  • 光大期货:2月24日有色金属日报

      铜:TC走弱 震荡偏强  1、宏观。海外方面,美联储理事鲍曼表示,美联储在决定降息之前,需要对通胀持续下降建立更大信心,并密切关注特朗普政府的贸易政策对经济前景带来的不确定性;费城联储主席哈克,当前政策仍具限制性,预计利率能“在长期内”下降。美联储1月会议纪要显示,与会官员们认为,在进一

    2025年02月24日
    28
  • 美国国债上涨 交易员加大对美联储降息的押注

      美国国债上涨,交易员增加对美联储降息的押注,美国总统唐纳德·特朗普的关税计划打压风险偏好。  10年期美国国债收益率一度下跌7个基点,至4.33%,为两个多月来最低水平。根据掉期数据,市场对美联储年底前放松政策的押注上升至53个基点,高于周一的48个基点左右。  随着围绕特朗普政府政策的不确

    2025年02月25日
    29
  • 3月5日武汉凡谷(002194)涨停分析:5.5G技术、华为产业链、毫米波产品驱动

      证券之星消息,武汉凡谷3月5日涨停收盘,收盘价13.37元。该股于9点32分涨停,未打开涨停,截止收盘封单资金为8170.45万元,占其流通市值1.2%。  今日武汉凡谷涨停的可能因素有:一是公司毫米波天线产品在基站系统数据回传领域的应用持续深化,结合5.5G技术商用化进程加速,推动市场对其技

    2025年03月05日
    17
  • 中国印钞造币声明:从未通过任何途径发售虚拟货币

      3月13日金融一线消息,中国印钞造币集团有限公司今日发布严正声明:近期,我司收到群众反映,有不法分子冒充我公司在网站及App中发售虚拟货币。我司在此郑重声明,我司从未通过任何途径发售虚拟货币。请广大群众谨防上当受骗,避免自身经济利益损失。

    2025年03月13日
    18
  • 盘前:纳指期货跌0.38% 今日关注美国PPI

    美股股指期货周四盘前小幅下挫,欧股也轻微下滑,投资者的注意力重新回到全球贸易战的糟糕局势。此前,市场曾因周三美国通胀数据低于预期而出现小幅反弹。截至发稿,道指期货跌0.15%,标普500指数期货跌0.22%,纳指期货跌0.38%。德国DAX指数跌0.49%,英国富时100指数涨0.02%,

    2025年03月13日
    21
  • 收盘:美股收跌纳指跌超300点 市场聚焦联储会议

      北京时间19日凌晨,美股周二收跌。纳指下跌超300点,标普500指数结束两连涨,延续了近期跌势。市场等待美联储公布议息会议结果,并密切关注央行对当前关税战潜在经济影响的评论。美俄两国元首就俄乌停火等诸多问题通话。  道指跌260.32点,跌幅为0.62%,报41581.31点;纳指跌304

    2025年03月19日
    18
  • 伊拉克总理批准为黎巴嫩供应六个月燃料

      当地时间3月29日,伊拉克总理媒体办公室发布声明称,伊拉克总理苏达尼与黎巴嫩国民议会议长纳比·贝里进行了电话沟通。通话中,苏达尼确认批准伊拉克石油部为黎巴嫩提供为期六个月的燃料供应。  苏达尼在通话里着重指出,伊拉克支持黎巴嫩各派系的安全与稳定,并且承诺助力该国的重建工作。  同时,苏达尼对

    2025年03月30日
    12

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年04月07日

    我是竹日号的签约作者“admin”!

  • admin
    admin 2025年04月07日

    希望本篇文章《自建低成本生成式人工智能的热潮才刚刚开始》能对你有所帮助!

  • admin
    admin 2025年04月07日

    本站[竹日号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年04月07日

    本文概览:  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。...

    联系我们

    邮件:竹日号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们