RLHF是什么?为什么AI越来越「听话」
哈哈,你抓到重点了。说白了,这背后有个关键技术叫 RLHF(人类反馈强化学习)。打个比方,你就当它是“训练AI看人脸色”。
以前我们训练大模型,就是让它们狂读互联网上的文字,学怎么接下一句话。这好比把一个小孩扔进图书馆,他出来能背很多书,但未必懂礼貌。后来大家发现,光这样不行,得教它什么是好回答、什么是人类喜欢的。
RLHF的思路很简单:先让模型自由发挥给出几个答案,然后请标注员来打分——“这个回答+2分,那个只+0.5”。再用这些打分训练一个“奖励模型”,它专门冒充人类品味。最后用强化学习(PPO算法)去优化原模型,让它拼了命地输出能拿高分的回答。你看,这不就是让它学会看人脸色嘛。
很多人以为RLHF就是简单的赞踩,其实完全不是。老实说,如果只靠赞踩,AI只会学成“标题党”——专挑吸睛但可能胡说八道的话。真正的标注要精细得多。
真实流程是这样的:标注员会同时看到同一个问题的好几个回答,然后排个序,或者给每个回答的多个维度打分,比如准确性、有用性、安全性。比如这个回答虽然信息对,但语气太冲,扣分;那个回答又对又暖心,加分。这些排序数据才喂给奖励模型。
来,给你看个对比:
| 训练方法 | 数据来源 | 优化目标 |
|---|---|---|
| 传统监督微调(SFT) | 人类写好的标准答案 | 模仿,输出最像范本的句子 |
| RLHF | 人类对多个回答的排序和打分 | 超越范本,探索出人类更偏好的表达 |
等等,我前面说“超越范本”可能有点夸张,准确说,是让模型在安全边界内更灵活地贴合人类的隐性需求,而不是只会背答案。
好问题,这就是业内说的“对齐税”。早期的RLHF模型(比如最早的ChatGPT)确实有点讨好型人格,你问啥它都顺着说。但后来的技术改进很多。你看Claude Opus 4.7,你明确要求它扮演毒舌角色,它能切换得很好,因为它不是简单被训练成“老好人”,而是学会了在符合特定情境下拿高分。
说白了,RLHF训练的是一个灵活的评判标准,不是刻板的道德法则。现在的玩法是,在标注数据里加入更多样化的回答风格,让奖励模型也喜欢“有理有据的反驳”。当然,完全不管安全底线的狂野AI目前没人敢放出来,毕竟捅娄子代价太大。