之前调换 OpenAI 安全团队的北大学友翁荔(Lilian Weng)泷川雅美视频,下野后第一个动作来了。
虽然是发~博~客。
前脚刚发出来,后脚就被大伙儿都刷刷码住,商量区一堆东谈主列队加待读清单。
还有不少 OpenAI 前共事转发推选。
此次的博客一如既往万字干货,妥妥一篇推测综述,翁荔本东谈主直言写起来阻止易。
主题围绕强化学习中奖励黑客(Reward Hacking)问题伸开,即 Agent 讹诈奖励函数或环境中的间隙来获取高奖励,而并未果真学习到预期行动。
她强调奖励黑客行动在大模子的 RLHF 历练中的潜在影响,并号召更多推测关注清醒虚心解这一问题。
在我看来,这是现实全国部署更多自主 AI 模子应用的主要圮绝。
尝试界说 Reward Hacking
传统意见强化学习中,Agent 讹诈奖励函数中的弱势或暗昧性来获取高额奖励,而莫得果真学习或完成预期任务,是一个常见的问题。
她举的例子包括:
机器东谈主把手放在物体和录像头之间,诈欺东谈主类依然收拢物体了
以跳的更高为目的的 Agent 在物理模拟器中讹诈本领 bug,完成不相宜物理法则的朝上。
……
在大模子中,Reward hacking 则可能推崇为:
摘抄生成模子讹诈 ROUGE 评估目的的弱势获取高分,但生成的摘抄难以阅读。
翁荔合计 Reward hacking 的存在有两大原因:
强化学习环境平庸不好意思满
准确指定奖励函数现实上是一项悉力的挑战
谈话模子兴起的期间,况且 RLHF 成为对都历练事实上的模式,谈话模子强化学习中的 Reward hacking 推崇也极端令她担忧。
畴昔学术界对这个话题的推测都极端表面,专注于界说或解释 Reward hacking 的存在,然而对于现实该若何缓解这种风物的推测仍然有限。
她写这篇博客,亦然念念号召更多推测关注、清醒虚心解这一问题。
为了界说 Reward Hacking,翁荔当先转头了比年来学术界提议的联系意见
包括奖励老套 ( Reward corruption ) 、奖励删改 ( Reward tampering ) 等等。
其中,Reward hacking 这个意见,早在 2016 年由 Anthropic 首创东谈主 Dario Amodei 共一论文提议。
那时他和另一位联创 Chris Olah 还在谷歌大脑,且依然与 OpenAI 联创 John Schulman 伸开和谐。
如今他们仨又在 Anthropic 汇合了……
漫谈休说,概述一系列推测,翁荔合计 Reward Hacking 在较高脉络上可分为两类:
环境或目的设定不妥:由于环境瞎想或奖励函数存在弱势,导致 Agent 学到非预期行动。
奖励删改:Agent 学会胜仗侵扰奖励机制自身。
同期她也合计瞎想有用的奖励塑造机制现实上很坚苦。
与其按捺瞎想不妥的奖励函数,不如承认由于任务自身的复杂性、部分可不雅察现象、琢磨的多个维度和其他身分,瞎想一个好的奖励函数自身等于一项内在挑战。
另外皮散布外环境中测试强化学习 Agent 时,还可能出现以下问题:
模子即使有正确的目的也无法有用泛化,这平庸发生在算法零落迷漫的智能或智商时。
模子大概很好地泛化,但追求的目的与其历练目的不同。
那么,为什么会出现 Reward Hacking?凭证 Amodei 等东谈主 2016 年的分析成因包括:
环境现象和目的的不全都可不雅测性,导致奖励函数无法好意思满表征环境。
系统复杂性使其易受袭击,尤其是被允许实践转换环境的代码时。
触及抽象意见的奖励难以学习或表述。
RL 的目的等于高度优化奖励函数,这与瞎想细腻的 RL 目的之间存在内在"龙套"。
此外,不雅察到的 Agent 行动可能与无数个奖励函数相一致,准确识别其果真优化的奖励函数在一般情况下是不可能的。
翁荔预测跟着模子和算法的日益复杂,Reward Hacking 问题会愈加精深。
更智能的模子更善于发现并讹诈奖励函数中的"间隙",使 Agent 奖励与真实奖励出现偏差。比较之下,智商较弱的算法可能无法找到这些间隙。
那么,大模子期间的 Reward Hacking,又有哪些特有之处?
谈话模子中的 Reward Hacking
在 RLHF 历练中,东谈主们平庸关注三种类型的奖励:
东谈主们果真但愿大模子优化的内容,被称为黄金奖励(Gold reward)
东谈主类奖励(Human reward),现实用来评估大模子,在数据标注任务中来自个体东谈主类,且标注偶然期圆寂,并不周到都准确地响应黄金奖励
代理奖励(Proxy reward),也等于在东谈主类数据上历练的奖励模子所预测的得分,接收了东谈主类奖励的统共短处,加上潜在的建模偏差
翁荔合计,RLHF 平庸优化代理奖励分数,但东谈主们最终矜恤的是黄金奖励分数。
免费午夜电影举例,模子可能进程优化,学会输出看似正确且有劝服力的薪金,但现实上却是不准确的,这可能会误导东谈主类评估者更常常地批准其自便谜底。
换句话说,由于 RLHF,"正确"与"对东谈主类看似正确"之间出现了不对。
在一项 RLHF 推测中,使用了大模子竞技场 ChatbotArena 数据历练奖励模子,就出现 AI 更擅长劝服东谈主类它们是正确的情况:
RLHF 进步了东谈主类对 AI 薪金的招供度,但不一定就能进步 AI 的正确率。
RLHF 减轻了东谈主类对 AI 薪金的评估智商,评估的自便率更高。
RLHF 使自便的 AI 薪金对于东谈主类更有劝服力,推崇为评估的假阳性率权臣增多。
此外,跟着大模子越来越多当作评估者对其他模子提供反馈,也可能进一步引入偏差。
翁荔合计这种偏差尤其令东谈主追到,因为评估模子的输出被用作奖励信号的一部分,可能容易被讹诈。
比如 2023 年一项实验中,粗略转换候选谜底的法子就能转换着力,GPT-4 倾向于给第一个谜底高分数,ChatGPT(3.5)更倾向于第二个。
另外,即使不更新参数,大模子仅靠高下体裁习智商也可能产生 Reward hacking 风物,称为ICRH(In-context Reward Hacking)。
ICRH 与传统 Reward Hacking 还有两个权臣不同:
ICRH 在自我优化缔造中的测试时期通过反馈轮回发生,而传统 Reward hking 行动在历练工夫发生。
传统 Reward hacking 行动出当今 Agent 专注于一项任务时,而 ICRH 则是由完成通用任务开始的。
翁荔合计咫尺还莫得幸免、检测或防御 ICRH 的有用模式,只是进步指示的准确性不及以破除 ICRH,而扩大模子限制可能会加重 ICRH。
在部署前进行测试的最好实践是通过更多轮次的反馈、千般化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。
缓解措施
终末翁荔示意尽管有多量文件推测奖励黑客风物,但少有责任提议缓解奖励黑客的措施。
她简要转头了三种潜在模式。
一种是改造强化学习算法。
前边提到的 Anthropic 首创东谈主 Dario Amodei2016 年共一论文" Concrete Problems in AI Safety "中,指出了一些缓解标的,包括:
起义性奖励函数(Adversarial reward functions)、模子预测(Model Lookahead)、起义性盲化(Adversarial blinding)、严慎的工程瞎想(Careful engineering)、奖励上限(Reward capping)、反例抵牾(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预历练(Reward pretraining)、变量不敏锐性(Variable indifference)、陷坑机制(Trip wires)。
此外,谷歌 DeepMind 团队此前提议了"解耦批准"的模式来驻防奖励删改。
在这种模式中,汇集反馈的行动与现实实践的行动是分开的,反馈会在行动实践前就给出,幸免了行动对我方反馈的影响。
另一种潜在缓解措施是检测奖励黑客行动。
将奖励黑客行动视为一个极端检测任务,其中检测器应绚烂出不一致的实例。
给定一个实在计策和一组手动标注的轨迹回放,不错基于实在计策和目的计策这两个计策的动作散布之间的距离构建一个二分类器,并测量这个极端检测分类器的准确性。
之前有实验不雅察到,不同的检测器适用于不同的任务,而且在统共测试的强化学习环境中,莫得任何测试的分类器大概达到 60% 以上的 AUROC。
第三种潜在缓解措施是分析 RLHF 数据。
通过查验历练数据若何影响对都历练着力,不错获取关系预处理和东谈主类反馈汇集的观点,从而裁汰奖励黑客风险。
哈佛大学与 OpenAI 推测东谈主员本年和谐提议了一套评估目的,用于权衡数据样本特征在建模和对都东谈主类价值不雅方面的有用性。他们在 HHH-RLHF 数据集上进行了系统的自便分析以进行价值对都(SEAL)。
这一篇博客对于缓解措施的部分还只是"初探",翁荔对下一篇内容给出了预报:
但愿我很快能在一篇成心的帖子中涵盖缓解措施部分
对于翁荔
翁荔是 OpenAI 前华东谈主科学家、ChatGPT 的孝敬者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。
毕业之后的翁荔先是移时的在 Facebook 实习了一段时期,后担任 Dropbox 软件工程师。
她于 2017 年头加入 OpenAI,在 GPT-4 名目中主要参与预历练、强化学习和对都、模子安全等方面的责任。
在 OpenAI 旧年底斥地的安全参谋人团队中,翁荔调换安全系统团队(Safety Systems),贬责减少现存模子如 ChatGPT 奢靡等问题。
最知名的 Agent 公式也由她提议,即:Agent= 大模子 + 记忆 + 主动野心 + 器具使用。
其 Google Scholar 援用量达 14000+。
一个月前,翁荔移时归国。
这亦然她初度在国内大型行动阵势公开发表 AI 主题演讲。
之后没几天,翁荔倏得发推文示意决定下野 OpenAI。
咫尺她还莫得书记下一个野心,推特签名骄贵会与 AI 安全联系。
领英和谷歌学术页面也还挂着 OpenAI,均未更新。
原文:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking
参考斡旋:
[ 1 ] https://x.com/lilianweng/status/1863436864411341112泷川雅美视频