AI前沿智能配置点评基于人类反馈的强化学习与RLAIF

（报告出品方：浙商**）

基于人类反馈的强化学习在chatgpt3.5之后引起极大关注，然而rlhf方法存在扩展的困难，需要高质量的人类标注。harrison等人探索了ai替代人类反馈的可能性。研究表明至少在“摘要”偏好方面，rlaif和rlhf取得了相当的效果，均优于sft。

rlhf需要高质量人类标注使用强化学习训练的语言模型可以在复杂的序列级目标上进行优化，而这些目标往往不容易通过传统的监督微调方法进行区分。然而，rlhf的扩展面临一个困难，即需要高质量的人类标签。因此，harrison lee et al.**了是否可以使用ai生成的标签来取得类似的结果。

rlhf与rlaif对比评估rlaif是否能够替代rlhf，harrison等人采用三个指标：ai标签对齐度，两两准确性和胜率来进行评估。

rlhf与rlaif在摘要偏好上性能接近rlaif的表现与rlhf相似，但rlhf略优于rlaif，但差异并没有统计学意义。在人类评估员看来，两种策略都优于基线sft策略，其中rlhf被优选的比例为73％，rlaif为71％。

chatgpt的成功背后一项关键的技术其实是“基于人类反馈的强化学习”技术（reinforcement learning from human feedback，rlhf），该技术通过强化学习来训练语言模型进而达到对齐人类偏好的效果。

使用强化学习训练的语言模型可以在复杂的序列级目标上进行优化，而这些目标往往不容易通过传统的监督微调方法进行区分。然而，rlhf的扩展面临一个困难，即需要高质量的人类标签。因此，harrison lee et al.[2023, sep]**了是否可以使用ai生成的标签来取得类似的结果。gilardi et al.[2023], ding et al.[2023]等人的研究表明大型语言模型（llms）与人类判断有很高的一致性，甚至在某些任务上表现优于人类。因此，harrison lee et al.比较了使用人类反馈（human）和人工智能（ai）反馈进行rlhf的效果，并发现两者在摘要任务上表现相当。此外，harrison lee et al.还研究了一些技术，以最大程度地提高ai生成的偏好与人类偏好的一致性。他们发现，给llm提供详细的指导和询问思路推理可以提高一致性。最后，在扩展实验中，量化解释了：llm标注器的规模、训练中使用的偏好示例数量与人类偏好的一致性之间的关系。总的来说，这篇文章至少为rlaif在摘要任务上与rlhf的性能相当，提供了一些证据。

基于人类反馈的强化学习（rlhf）实现流程主要划分为三个阶段：监督微调、奖励模型训练和基于强化学习的微调。

首先，在监督微调阶段，通过对预训练的语言模型进行有监督微调，使用标记级别的监督来生成一个监督微调模型。

然后，在奖励建模阶段，通过从一个或多个模型中采样得到一对回答，将输入和回答发送给人工注释者，根据一些标准评价哪个回答更好。这些注释形成了一个包含三元组的数据集，其中包括首选回答和非首选回答。通过最小化损失函数来训练奖励模型，该损失函数使用 sigmoid 函数来衡量首选回答和非首选回答之间的差异。

最后，在强化学习阶段，根据奖励模型进行初始化，使用强化学习来优化策略，最大化奖励。

此外，还可以通过添加 kl 散度损失来控制策略偏离初始监督微调策略的程度，以防止生成低质量或非自然语言的现象。整个优化目标由一个公式描述。

使用一个“现成的”llm对候选对中的偏好进行注释，这是一个预先训练或针对一般用途进行指令调整的模型，但没有针对特定下游任务进行微调。

给定一段文本和两个候选摘要，llm被要求评价哪个摘要更好。llm的输入结构图2所示：

序言 - 介绍和说明所要完成的任务。少量示例（可选）- 一个文本示例，一对摘要，一个思维链的理由（如果适用），以及一个偏好判断。待标注的样本 - 一个文本和一对待标注的摘要。结尾 - 一个提示llm的结束字符串（例如“preferred summary=”）llm获得输入后，获取生成“1”和“2”标记的对数概率，并用softmax计算偏好分布。

当然也有很多获取llm偏好标签的替代方法，例如从模型中解码出自由形式的响应，并启发式地提取偏好（例如输出=“第一个摘要更好”），或将偏好分布表示为one-hot标签。作者认为他们的方法已经具有很高的准确性，所以没有尝试这些替代方法。

harrison lee et al. 尝试了两种类型的序言：一是简要询问“哪个摘要更好？”；二是用“openai”的tl;dr偏好数据集的人类偏好标注提供的评分作为人类反馈的模仿。

处理位置偏差。由于将候选项提供给llm的顺序，可能会对llm的偏好分布产生偏差（pezeshkpour和hruschka，2023），尤其是在llm标注器规模较小的情况下。为了减轻偏好标注中的位置偏差，需要对每对候选项进行两次推断，第二次推断时候选项的顺序与第一次相反。然后将两次推断的结果平均，得到最终综合的偏好分布。

思维链推理。有研究表明可以从ai标注者那里获取思维链（cot）推理，以改进与人类偏好的一致性（wei等，2022）。作者将标准提示词的结尾（即“preferred summary=”）替换为“考虑每个摘要的连贯性、准确性、覆盖范围和整体质量，并解释哪个更好。理由：”，然后从llm中解码出一个响应。最后将原始提示词、响应和原始结尾字符串“preferred summary=”连接在一起，并按照评分过程得到偏好分布。在零样本提示中，llm没有给出推理应该是什么样的示例，而在少样本提示中，作者提供了cot推理的示例供模型参考。

自一致性。对于思维链提示，作者还尝试了自一致性技术，通过对多个推理路径进行采样并聚合每条路径末端产生的最终答案来改进思维链推理（wang等，2022）。使用非零解码温度对多个思维链理由进行采样，然后针对每个理由获取llm的偏好分布。然后对结果进行平均，得到最终的偏好分布。

在llm标记了偏好之后，可以训练一个奖励模型(rm)来**偏好。由于rm模型产生标签(例如偏好i = 0.6, 0.4])，所以训练rm采用生成的奖励分数分布的交叉熵损失。softmax将rm输出结果转化为概率分布。

在使用ai标签训练rm的过程中，可以将其视为一种模型蒸馏的形式，特别是因为ai标注器通常比rm更强大。当然另一种方法是绕过rm，直接将ai反馈作为强化学习中的奖励信号，但这种方法的计算成本更高，因为ai标注器比rm更大。

使用训练好的rm，作者使用一种修改过的演员-评论家(a2c)算法进行强化学习，该算法适用于语言建模领域(mnih等人，2016)。虽然最近的研究使用proximal policy optimization (ppo)（schulman等人，2017），它增加了一些技术来使训练更加保守和稳定（例如对目标函数进行裁剪），但使用a2c是因为它更简单，而且在对于rlhf和rlaif这个场景下是有效的。

文章使用三个指标来评估rlaif的结果：ai标签对齐度，两两准确性和胜率。

ai标签对齐度衡量ai标记的偏好与人类偏好的准确性。对于单个示例，它通过将ai标记的偏好转换为二进制表示（例如偏好），然后根据人类标签将1分配给与目标人类偏好一致的标签，否则为0来计算。可以表示为如下：

其中和分别是ai和人类偏好的二进制表示，是索引，是一个数据集。

两两准确性衡量训练好的奖励模型对于一组保留的人类偏好的准确性。给定一个共享的上下文和一对候选回答，如果根据人类标签，rm将首选候选回答的分数高于非首选候选回答，则两两准确性为1，否则为0。这个量在多个示例中取平均值，以衡量rm的总准确性。

胜率评估两个策略的最终质量，通过测量人类多频选择一个策略优于另一个策略的次数。给定一个输入和两个生成的答案，人类标注员选择首选的生成答案。a策略优于b策略的实例百分比被称为“a vs. b的胜率”。

实验使用openai筛选过的reddit tl;dr数据集，这个数据集由openai策划，包含了约300万个来自reddit的帖子以及原作者撰写的摘要。该数据集涵盖了各种主题（也称为“subreddits”），并经过openai的筛选以确保高质量，包括使用可被普通大众理解的subreddits的白名单。

此外，实验数据集只包括摘要长度在24到48个标记的帖子。筛选后的数据集包含123,169个帖子，其中约5%作为验证集。openai还从筛选后的tl;dr数据集中策划了一个人类偏好数据集。对于给定的帖子，从不同的策略中生成了两个候选摘要，并要求标注者确定其更喜欢的摘要。总数据集包含约92,000个成对比较。

为了评估ai标注技术（例如提示、自一致性）的有效性，在tl;dr偏好数据集的训练集中随机选择了15%的子集来评估ai标注者的一致性，以加快实验迭代速度，共计2851个示例用于评估。对于奖励模型的训练，使用llm标注整个tl;dr偏好数据集的训练集进行训练，不考虑置信度分数。

实验使用palm 2作为llm来标注偏好（google等，2023）。并且所使用大模型最大支持的上下文长度为4096个标记（tokens）。对于思维链的生成，将最大解码长度设置为512个标记，并使用温度t = 0进行采样（即贪婪解码）。在自一致性实验中，使用温度t = 1进行top-k采样（fan等，2018），其中k = 40。

首先使用openai筛选过的tl;dr数据集训练一个sft模型，使用palm 2 extra-small（xs）作为初始检查点（checkpoint）。从sft模型中初始化奖励模型rm，并在openai的tl;dr人类偏好数据集上对其进行训练。然后使用palm 2 l生成ai标注的偏好，使用“openai + cot 0-shot”提示在完整的偏好数据集上训练rm。对于强化学习，则使用演员-评论家（a2c）方法对策略进行训练。策略和价值模型都从sft模型初始化，使用筛选过的reddit tl;dr数据集作为初始状态来进行策略的推演。

harrison lee et al.收集了来自人类的1200个评级，用于评估rlhf和rlaif策略。对于每个评级任务，评估者会看到一个帖子和4个由不同策略生成的摘要（分别来自rlaif、rlhf、sft和人类参考），并被要求按质量顺序对它们进行排序，不允许并列。帖子是从tl;dr监督微调数据集的保留集中选取的，该集合在任何其他评估中都没有使用过。一旦收集到这些排名，就可以计算相对于任何两个策略的胜率。

结果显示，rlaif的表现与rlhf相似，但rlhf略优于rlaif，但差异并没有统计学意义。在人类评估员看来，两种策略都优于基线sft策略，其中rlhf被优选的比例为73％，rlaif为71％。

在将rlaif和rlhf生成的摘要与人工参考摘要进行比较时，两种策略均优于参考摘要。rlaif摘要被优选的比例为79％，而rlhf摘要被优选的比例为80％。rlaif和rlhf与参考摘要的胜率差异没有统计学意义。

可能影响这些结果的一个因素是，rlaif和rlhf策略倾向于生成比sft策略更长的摘要。事后分析，结果显示即使控制长度，rlaif和rlhf仍然优于sft策略。

这些结果表明rlaif是rlhf的一个可行替代方案，不依赖于人工注释。然而，为了将这些发现推广到其他自然语言处理任务中，还需要在更广泛的任务范围内进行实验。

除了比较不同的策略，该研究还尝试了不同的提示技术。结果显示，使用详细的openai序言和思路链条推理相比基线提示可以提高对齐度。然而，少样本上下文学习并不能提高对齐度，甚至可能降低对齐度。最佳配置是使用详细的序言、思路链条推理，并且不使用上下文学习

该研究还调查了在生成摘要时使用自一致性的效果。然而，使用4个和16个样本的自一致性相比不使用自一致性，对齐度下降超过-5%。尽管不清楚造成准确性下降的原因，但有假设认为，可能使用温度为1会导致比贪婪解码更低质量的思路链条推理。实验还尝试了不同llm标注器的大小，发现对齐度与大小之间存在强关联。模型大小减小时，对齐度也减小。这表明，增加ai标注器的规模可能会产生更高质量的偏好标签

最后，研究调查了用于训练rm的偏好示例数量。结果显示，ai偏好rm在训练数千个示例后，性能就快速达到平稳。仅使用128个示例进行训练时，准确率约为60％，而使用5,000个示例进行训练时，准确率接近于使用完整数据集进行训练的准确率。这表明，标注更多的偏好示例可能不会显著提高rm的性能。

总的来说，这些结果提供了关于不同强化学习策略、提示技术、自一致性、llm标注器大小和偏好示例数量在生成高质量摘要方面的性能和有效性的见解。

在harrison et al.的此项研究中，展示了rlaif可以在不依赖于人类标注者的情况下产生与rlhf相当的改进。虽然这项工作强调了rlaif的潜力，但rlaif仍存在一些局限性。

首先，这项工作仅**了摘要任务，对于其在其他任务上的泛化能力存在疑问。其次，此项研究没有估计llm推理在实现成本方面相对于人类标注是否具有优势。此外，还有许多有趣的开放性问题，比如rlhf与rlaif相结合是否能胜过单独的一种方法？直接使用llm分配奖励的效果如何？改进ai标注器的对齐是否能够转化为改进的最终策略？以及使用与策略模型相同大小的llm标注器是否能进一步改进策略？这一系列问题都值得深度去探索。

本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告**：幻影视界

AI前沿智能配置点评基于人类反馈的强化学习与RLAIF

智能路沿石机科技赋能，智慧施工新时代

华为Mate 60 Pro 配置功能与价格，打造未来科技掌中宝

比同配置小鹏G6便宜1 5万，智己LS6能称价格屠夫吗？

AI前沿 智能配置点评基于人类反馈的强化学习与RLAIF

智能路沿石机 科技赋能，智慧施工新时代

华为Mate 60 Pro 配置 功能与价格，打造未来科技掌中宝

比同配置小鹏G6便宜1 5万，智己LS6能称价格屠夫吗？

相關推薦

AI前沿智能配置点评基于人类反馈的强化学习与RLAIF

智能路沿石机科技赋能，智慧施工新时代

华为Mate 60 Pro 配置功能与价格，打造未来科技掌中宝