Yu Tianyu是Tsinghua大学计算机科学系的第一年博士生。他的导师是Twinginga大学自然语言处理研究所的李Zhiyuan教授。研究兴趣主要包括有效的大型多模式模型,大型多模式模型的比对和增强学习。他们在人工智能领域(例如CVPR和AAAI)发表了许多国际会议和杂志上的学术文章,并引用了它们超过1000次。 DeepSeek的R1,Openi的O1/O3和其他推理模型的出色表现完美地表明了RLVR的巨大潜力(具有可验证的奖励的增强学习)。但是,现有方法的范围仅限于几个领域,例如数学和代码。鉴于自然语言固有的财富,很难揭示规则的验证者依赖于生成的方式Al Field。为了应对这一重要的挑战,Tsinghua大学的自然语言处理研究所提出了一项重要的技术:具有参考概率奖励的加强学习(RLPR)。文档标题:RLPR:外推到没有验证者的通用域文档地址:https://github.com/openbmb/rlpr/blob/main/main/main/rlpr_paper.pdfgithub repository:https://github.com/openbmb/rllpr基于生成的生成。同时,RLPR提出了一种基于标准奖励偏差的动态过滤机制,以进一步提高增强学习的稳定性和性能。当前,与RLPR相关的所有代码,模型,数据和文档都是开源的。 PR为什么有效?挖掘模型的Heessential评估团队观察到,在推理过程中通过领先的语言模型(LLM)生成参考响应的概率直接反映了该推理模型的质量评估。换句话说,我正确模型的ncy是,引用响应的概率越大。在文档中,研究团队提供了具体的例子。如果模型错误地对O2输出的第二个位置中的选项进行了错误分类,则第二个正确的选项位置可以看到生成参考响应的概率大大降低。这种现象清楚地表明,PR可以准确地了解模型推断质量的模型判断,并与模型推断的精度具有很高的相关性。 RLPR核心颁发了独立的高效率奖励。现有RLVR方法的纳入动作通常需要许多人类和工程资源来为每个字段创建特定的验证规则。相比之下,RLPR仅需要简单的传递即可产生奖励分数。通过使用参考响应产生的平均概率来奖励。这种方法可以有效地处理复杂性自然语言固有的多样性。如下图(右图的示例)所示,Y2和Y3不能根据与参考响应与语义等效相吻合的规则识别,RLPR PR机制提供了这两个响应,以较高的分数精确地提供了这两个响应。奖励偏差和动态过滤标准PR的校正表明与响应质量有很高的相关性,但仍然受到无关因素作为问题和参考答案样式的无关因素的阻碍(即偏见)。为此,研究人员提议创造不包括思想链(Z)过程的比较奖励,并通过不足以实现奖励偏差的校正来消除不相关因素对分数的影响。基于传统精确过滤的样品过滤方法难以应用于连续PR。 RLPR根据标准偏差提出了动态过滤机制奖励,保留具有高标准偏差的样品以进行训练,从而有效地提高了训练的稳定性和有效性。考虑到奖励的标准偏差在培训期间继续发生变化,RLPR还使用指数移动平均值(EMA)来不断动态更新过滤器阈值。 Conciablal Reward Qualitye和Marco Rubustez Research团队通过ROC-AUC指标定量评估了各种来源的回报质量。结果表明,PR取得的质量明显优于规则奖励,并且验证器模型的奖励是在0.5B范围内实现的。同时,当改善模型的功能时,可以在0.91的水平下进一步提高域奖励的一般质量。为了验证框架的鲁棒性,研究人员使用各种不同的训练模板与RLPR一起训练了QWEN2.5 3B模型,并观察到RLPR可以在不同的训练模板中实现稳定的性能提高。研究人员还在诸如Gemma和Call之类的更多基座模型中进行了实验,证实RLPR框架稳定地改善了模型的模型推断能力,用于不同的Modelos de基座,超过了RLVR基线,该基线使用规则来奖励它们。 RLPR摘要提出了一种创新的问题奖励机制,以奖励对现有RLVR范式域的依赖问题。通过大量的一系列传统模型,例如Gemma,Llama,Qwen和RLPR,它不仅在传统规则的回报中被证明是有效而重要的好处,而且还采取了强大而有力的步骤来促进加强学习(RL)的发展。有关更多信息,请参见原始文档。
打破普通现场推理的瓶颈! Tsinghua NLP实验室RLPR中有关强化学习的新研究
2025-06-28