跳至主要內容
模型微调面试详解:SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

大模型微调面试详解:SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

基模越来越强,微调还有没有必要?这篇文章从面试和工程落地角度,系统讲清楚 SFT、RLHF、RL、PPO、DPO 这些概念,以及基模变强后它们的破局点在哪里。

一、先说结论:微调没有消失,只是价值变了

基模越来越强,不是让 SFT、RLHF、RL 消失,而是让它们从"补能力"转向"控行为、控偏好、控成本、控风险"。

打个比方:基模就像一个越来越聪明的"通才大学生",以前你需要手把手教他客服话术、报告格式、业务流程。但现在这个大学生自学能力极强,你给他一份说明书(Prompt),他就能干得不错。甚至你花三个月培训出来的"专才",下一代基模一发布,直接就能追上。


郑天祺大约 38 分钟大模型大模型模型微调SFTRLHF面试