新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 天津外国语大学原校长修刚突发疾病去世,享年68岁
  • IMF将今年亚洲GDP增速预测下调至3.9%并警告进一步下修风险
  • 马会传真:揭秘澳门博彩业的百度搜索风云
  • 直通部委 | 生态环境部严惩机动车排放检验机构造假 一季度居民人均消费支出同比增5.2%
  • 俄愿无先决条件谈判乌称须无条件停火俄乌冲突迎来拐点?
  • 一码一世界,一肖一人生,一特一风景,一子一希望
  • 百度集团-SW现涨超4% 发布新一代文心大模型4.5Turbo和X1 Turbo
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 成都银行:2024年每10股派发现金股利8.91元,分红率30.04%
  • 【深度】重塑供应链:汽车工厂的生命线到了变革时刻?
  • 调查:英国消费者信心降至17个月低点 受账单上涨和贸易战打压
  • 中诚信托首单算力服务信托正式落地
  • 气温“过山车”现象未来或更频繁且更剧烈
  • 越南总理定调“谈判不应损害其他市场“,越南股市一度闪崩,随后V型反转
  • 从地下金库到地上IP,看海昏汉文化“最美变装”
  • 关键词: