大模型微调面试详解：SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

基模越来越强，微调还有没有必要？这篇文章从面试和工程落地角度，系统讲清楚 SFT、RLHF、RL、PPO、DPO 这些概念，以及基模变强后它们的破局点在哪里。

一、先说结论：微调没有消失，只是价值变了

基模越来越强，不是让 SFT、RLHF、RL 消失，而是让它们从"补能力"转向"控行为、控偏好、控成本、控风险"。

打个比方：基模就像一个越来越聪明的"通才大学生"，以前你需要手把手教他客服话术、报告格式、业务流程。但现在这个大学生自学能力极强，你给他一份说明书（Prompt），他就能干得不错。甚至你花三个月培训出来的"专才"，下一代基模一发布，直接就能追上。

郑天祺大约 38 分钟