Lilian Weng近日在其个人博客上发布了离职OpenAI后的首篇博文,深入探讨了强化学习训练中一个关键的实践难题——奖励欺骗。本文对该博文进行详细阐述,介绍了奖励欺骗的概念、成因及其在强化学习中的重要性。
奖励欺骗:概念与成因
奖励欺骗是指强化学习(RL)智能体通过利用奖励函数中的漏洞或模糊性,获得高奖励但没有真正学习或完成预期任务的现象。这一概念最早于2016年提出,是人工智能安全领域的一系列开放性研究问题之一。
奖励欺骗的产生源于RL环境的不完美,以及精确定义奖励函数的根本挑战。具体而言,奖励欺骗可分为两类:
* 环境或目标指定错误:模型通过入侵环境或优化与真实奖励目标不一致的奖励函数(例如,当奖励指定错误或缺乏关键要求时)来学习意外行为以获得高奖励。
* 奖励篡改:模型学习干扰奖励机制本身。
通俗地讲,奖励欺骗就是模型“作弊”了。例如,训练一个机器人手臂抓取物体时,机器人可能通过将手放置在物体与摄像机之间来欺骗观察者。
随着语言模型在许多任务上的泛化能力不断提升,以及人类反馈强化学习(RLHF)逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。例如,模型可能学会篡改单元测试以通过编程任务,或生成包含用户偏好所反映的偏见的回答,这些现象都令人担忧,并可能成为AI模型在更多自主场景中实现实际部署的主要障碍之一。
强化学习中的奖励欺骗
随着模型和算法变得越来越复杂,奖励欺骗预计会成为一个更常见的问题。更聪明的智能体更能够发现奖励函数设计中的漏洞,并利用这些漏洞来获得更高的奖励——也就是说,智能体可能通过不符合预期的行为得到更多的奖励,但这些奖励并不能反映它是否真正完成了任务。
而如果算法比较弱,它就无法发现这些漏洞,结果我们就不会看到奖励欺骗的现象,也难以识别出当前奖励函数设计的问题。
在论文“Emergent Complexity via Multi-Agent Competition”中提到,在一组机器人自对弈的游戏中,我们可以训练两个智能体(一个是受害者,另一个是对手)互相竞争。
正常的训练方法会让受害者在与普通对手对抗时表现得足够好。但如果我们训练一个“对抗性”对手策略,即使这个策略看起来是随机的,且只用了不到3%的时间去训练,它也能稳定地打败受害者智能体。
对抗性策略的训练方式和标准的强化学习类似,都是通过优化奖励来训练,只不过受害者策略被当作一个“黑盒”,无法直接干预。
一种直观的方式来应对这种攻击是对受害者进行微调,让它能够对抗这种对抗性策略。但是,一旦受害者适应了新的对抗性策略,它仍然会对下一版本的对抗性策略感到脆弱。
那么,为什么会出现这种对抗性策略呢?原因在于,对抗性策略通过引入一些与训练环境不同的观察,即“分布外(OOD)观察”来迷惑受害者,而不是通过直接物理干扰它。
研究发现,当受害者对对手位置的观察被屏蔽并设为静态状态时,受害者在面对对抗性智能体时变得更具鲁棒性,尽管在面对普通对手策略时表现较差。
此外,更高维度的观察空间在正常情况下能提高性能,但也可能让策略更容易被对抗性对手攻破。
另一篇论文“The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models”研究了奖励欺骗与智能体能力之间的关系,包括模型大小,动作空间分辨率,观察空间噪声和训练时间。
他们还提出了三种类型的错误指定代理奖励(misspecified proxy rewards)的分类法:
1. 误加权(Misweighting):代理奖励和真实奖励捕捉相同的目标或期望结果,但它们在权重或重要性上有所不同。
2. 本体论误指定(Ontological):代理奖励和真实奖励使用不同的目标或期望结果来捕捉相同的概念。
3. 范围误指定(Scope):代理奖励在一个有限的范围内度量期望结果(例如时间或空间),而没有涵盖所有可能的情况。因为在所有条件下测量的成本过高。
他们在四个强化学习环境中进行了实验,配对了九个误指定的代理奖励。以下是这些实验的总体发现:
* 模型大小: 更大的模型会增加代理奖励,但减少真实奖励。
* 动作空间分辨率: 增加动作的精度能让智能体更强大,但高分辨率导致代理奖励保持不变,而真实奖励下降。
* 观察精度: 更准确的观察能提高代理奖励,但会略微减少真实奖励。
* 训练步数: 在更多步数上优化代理奖励,在初期有正相关时,过多的训练会在后期对真实奖励造成负面影响。
大模型利用RLHF来进行欺骗
从人类反馈强化学习(RLHF)已成为语言模型对齐训练的事实方法。奖励模型在人类反馈数据上进行训练,然后通过强化学习对语言模型进行微调,以根据人类偏好优化此代理奖励。在RLHF设置中,我们关心三种类型的奖励:
(1) Oracle/Gold奖励R*代表了我们真正希望LLM优化的内容。
(2) 人类奖励是我们收集的用于在实践中评估LLM的数据,通常来自有时间限制的个体。由于人类可能提供不一致的反馈或犯错误,人类奖励并不能完全准确地代表oracle奖励。
(3) 代理奖励R是通过在人工数据上训练的奖励模型预测的分数。因此,继承了人类奖励的所有弱点,以及潜在的建模偏差。
但目前RHLF优化的主要是代理奖励R,而不是我们真正关注的Oracle/Gold奖励R*。
RLHF旨在提高模型与人类偏好的一致性,但人类反馈可能无法捕捉我们关心的所有方面(例如,事实性),因此可能会被操纵以对一些并不期望的属性发生过拟合。
例如,模型可能会被优化为输出看起来正确且有说服力的响应,但实际上是不准确的,从而误导人类评估人员更频繁地批准其错误答案,如此走入一个死循环,愈来愈南辕北辙。
LLM来进行评估也会产生奖励欺骗
随着LLM的能力越来越强,让LLM作为评估者,为其他生成式模型提供反馈和训练奖励,是一种符合直觉的选择,尤其是在无法轻易判断或验证的任务中(例如处理长篇输出、对于写作质量进行主观评分等)。
有人将此称为“LLM-as-grader paradigm”。这种方法在很大程度上减少了对人工标注的依赖,大大节省了评估时间。
然而,使用LLM作为评分员并不能完全代表oracle奖励,而且可能会引入偏差,例如在与不同的模型进行比较时,它会偏好自己同一个系列归属的回答,或者在按顺序评估回答时会出现位置偏差。
例如GPT-4会持续给第一个候选者打高分,而ChatGPT则更倾向于第二个候选者。这种偏差尤其令人担忧,因为它作为评估者的输出被用作奖励信号的一部分,可能导致通过利用这些评分者进行奖励欺骗。
缓解方法
虽然奖励欺骗是一个棘手的问题,但研究人员已经提出了一些缓解方法:
* 强化学习算法改进: 对强化学习训练算法进行修改,例如引入对抗性奖励函数、模型前瞻、对抗性盲化等,以防止奖励欺骗。
* 检测奖励欺骗: 开发算法来检测奖励欺骗行为,例如使用异常检测或数据分析来识别异常现象。
* 数据分析和RLHF: 分析RLHF训练数据,以了解哪些特征与奖励欺骗有关,并采取措施避免或减轻奖励欺骗风险。
解决奖励欺骗仍然是一个活跃的研究领域,需要进一步的研究和探索。通过持续的研究和创新,我们有望开发出更有效的方法来缓解这一挑战,并确保RL和LLM的负责任发展和部署。
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/10/24318.shtml