av 巨乳
你的位置:r级书屋长篇小说 > av 巨乳 > 泷川雅美百度影音 仅需一万块钱!清华团队靠强化学习让7B模子数学击败GPT-4o
泷川雅美百度影音 仅需一万块钱!清华团队靠强化学习让7B模子数学击败GPT-4o
2025-01-08 18:04    点击次数:116

泷川雅美百度影音 仅需一万块钱!清华团队靠强化学习让7B模子数学击败GPT-4o

PRIME团队 投稿泷川雅美百度影音

量子位 | 公众号 QbiAI

OpenAI o1和o3模子的发布证实了强化学习大致让大模子领有像东说念主不异的快速迭代试错、深度念念考的高阶推理才智,在基于效法学习的Scaling Law冉冉受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。

近日,清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提议一种新的集合过程奖励的强化学习面孔——PRIME(Process Reinforcement through IMplicit REwards)。

继承PRIME面孔,研究东说念主员不依赖任何蒸馏数据和效法学习,仅用8张A100,消耗一万块钱傍边,不到10天时辰,就能高效教练出一个数学才智高出 GPT-4o、Llama-3.1-70B的7B模子 Eurus-2-7B-PRIME。

具体而言,研究东说念主员期骗Qwen2.5-Math-7B-Base动作基座模子,教练出了新模子Eurus-2-7B-PRIME,并在好意思国IMO继承检察AIME 2024上的准确率达到26.7%,大幅额外GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了Qwen Math数据的 1/10。其中,强化学习面孔PRIME为模子带来了16.7%的统统升迁,远超已知的任何开源决议。

该神志照旧开源就在外洋AI社区爆火,短短几天Github取得近300star。

往时,基于PRIME面孔和更强的基座模子有后劲教练出接近OpenAI o1的模子。

PRIME面孔先容

耐久以来,开源社区严重依赖数据驱动的效法学习来增强模子推理才智,但这种面孔的局限也可想而知——更强的推理才智需要更高质地的数据,但高质地数据老是稀缺,使得效法和蒸馏难以握续。

天然OpenAI o1和o3的得手证实了强化学习有着更高的上限,但强化学习有着两个舛误挑战:(1)如何获取精确且可膨大的密集奖励;(2)如何打算不错充分期骗这些奖励的强化学习算法。

午夜电影

PRIME算法从隐式过程奖励(implicit process reward)的念念想开拔惩处这两个问题。隐式过程奖励模子不错仅在输出奖励模子(outcome reward model, ORM)的数据泷川雅美百度影音,即谜底的最终对错上进行教练,而隐式地建模过程奖励,最终自动教练出一个过程奖励模子,这统统这个词过程齐有严格的表面保证。

详备推导见:https://huggingface.co/papers/2412.01981

基于隐式过程奖励模子的这种性质,研究东说念主员指出将其应用于强化学习有三大上风:

过程奖励:隐式过程奖励模子大致为每个 token 提供价值揣测,在提供过程奖励的同期无需教练额外的价值模子(value model)可膨大性:隐式过程奖励模子只需适度标签即可在线更新。是以,咱们不错聚共计策模子采样与适度考证器来平直更新PRM,有用缓终结播偏移与可膨大性问题。简约性:隐式过程奖励模子本体上即是一种讲话模子。在实行中,研究东说念主员发现不错平直用开动的计策模子开动化PRM。

隐式过程奖励惩处了PRM在大模子强化学习中若何用,若何训,若何膨大的三大问题,以致不需要教练额外的奖励模子就不错入手强化学习,易用性和可膨大性极佳。

具体的PRIME算法经由如下图所示,它是一种在线强化学习算法,大致将每个token的过程奖励无缝应用于强化学习经由中。

实验适度

研究东说念主员详备比较了PRIME算法和基线面孔。

比拟于仅用适度监督,PRIME有着2.5倍的采样适度升迁,鄙人游任务上也有着权贵升迁。

研究东说念主员还考证了PRM在线更新的穷苦性,不错看到,在线的PRM更新要权贵优于固定不更新的PRM,这也证实了PRIME算法打算和合感性。

此外,研究东说念主员还额外网罗数据,基于Qwen2.5-Math-Instruct教练了SOTA水平的EurusPRM,大致在Best-of-N采样中达到开源首先水平。

Showcase演示

Question (AIME 2024试题,Claude-3.5-Sonnet作念错)

Answer

Question

Which number is larger? 9.11 or 9.9?

Answer

强化学习是伙同已有智能体(大模子)和实际宇宙(宇宙模子,具身智能)的桥梁,以及将宇宙反应内化为模子智能的旅途,将鄙人一代东说念主工智能的发展中起到穷苦作用。PRIME 算法改变性地将隐式过程奖励与强化学习集合,惩处了大模子强化学习的奖励疏淡问题,有望鼓舞大模子复杂推理才智的进一步升迁。

blog不息:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub不息:https://github.com/PRIME-RL/PRIME

— 完 —

量子位 QbitAI · 头条号签约

关心咱们泷川雅美百度影音,第一时辰获知前沿科技动态