RLHF严重影响了大语言模型的创造力

RLHF 严重减少了大型语言模型的创造力和输出多样性 🤔
这是一篇非常有趣的论文,探讨了通过RLHF(强化学习中的人类反馈)对齐大型语言模型所带来的意外后果。
虽然对齐减少了有害和偏见内容,但似乎也限制了模型的创造力,定义为生成具有高句法和语义多样性的输出的能力。
✨ 创造力减少的原因是,在RLHF过程中许多token轨迹被阻塞,即模型失去了生成某些token的能力,即使这些token与生成有害或偏见内容无关。这使得对齐后的模型更像是确定性的算法,而不是具有创造性的生成模型。
📌 该论文采用了基础性的方法,通过三个实验从语义和句法层面研究这个问题。实验1通过比较基础模型和对齐模型生成的客户角色和产品评论的多样性,展示了RLHF对创造力的影响。在实际的营销环境中,对齐模型在人口统计学特征方面表现出较少的多样性,评论模式更加重复。

📌 实验2调查了模型输出的语义多样性,揭示了对齐模型在嵌入空间中形成了不同的聚类,与基础模型相比输出范围有限。对齐模型倾向于特定的“吸引状态”,这一现象与强化学习中的模式崩溃有关,使其更像是目标导向的代理而不是能够生成各种完成的自回归模型。
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/179.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论