7.5.1 使用奖励模型进行RLHF