模型微调面试详解：SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

郑天祺大约 38 分钟

大模型微调面试详解：SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

基模越来越强，微调还有没有必要？这篇文章从面试和工程落地角度，系统讲清楚 SFT、RLHF、RL、PPO、DPO 这些概念，以及基模变强后它们的破局点在哪里。

一、先说结论：微调没有消失，只是价值变了

基模越来越强，不是让 SFT、RLHF、RL 消失，而是让它们从"补能力"转向"控行为、控偏好、控成本、控风险"。

打个比方：基模就像一个越来越聪明的"通才大学生"，以前你需要手把手教他客服话术、报告格式、业务流程。但现在这个大学生自学能力极强，你给他一份说明书（Prompt），他就能干得不错。甚至你花三个月培训出来的"专才"，下一代基模一发布，直接就能追上。

但这不代表培训没有价值。它只是说明：低质量、低壁垒、只靠几千条 QA 堆出来的垂类微调，越来越不值钱。

生动比喻：想象你开了一家餐厅。以前你需要花大量时间教厨师切菜、炒菜的基本功（补能力）。但现在新来的厨师已经基本功扎实了——他刀工好、火候准、调味有底子。你现在要做的不是教他怎么拿刀，而是告诉他："我们家的招牌菜要偏甜一点""客人投诉时先道歉再解释""每道菜摆盘要用圆形盘子"。这些是行为和偏好，不是基本能力。

真正还有价值的是这些方向：

价值方向	具体场景	为什么基模不会自动覆盖
📋 固定业务流程	客服退款、工单分类、审批流	每家公司的流程不同
🗣️ 行业话术风格	金融合规措辞、医疗问诊语气	品牌定位决定风格
💰 小模型降本	固定场景用7B模型替代70B	成本敏感型需求
🛡️ 安全与合规	拒答策略、风险边界、数据脱敏	各行业合规要求不同
🤖 Agent 决策	工具选择、多步任务执行	业务逻辑高度定制

面试金句：通用能力会被基模抹平，但业务行为、偏好、成本和风险控制不会自动被抹平。微调的价值要从这些地方找。

二、先把名词讲清楚：SFT、RLHF、RL、PPO、DPO 是什么

这些概念经常被放在论文里讲，一上来就是 loss、reward、policy、KL penalty。面试里没必要这么讲，先用人话解释清楚。

🔗 概念关系总览

1. SFT：监督微调（Supervised Fine-Tuning）

一句话：SFT 就是给模型看高质量示范，让模型模仿这种回答方式。

想象你在教一个新员工写客服回复。你不会给他讲理论，而是给他看 100 个优秀客服的回复范例。新员工看多了，自然就学会了：遇到退款问题要先问订单号、遇到投诉要先安抚情绪、遇到技术问题要先收集信息。

❌ 用户问题：帮我判断这个订单是否可以退款
❌ 差的回答：可以退。
✅ 标准答案：请先提供订单号，我会查询订单状态、支付时间和退款规则，
   再判断是否满足退款条件。如果符合条件，我会为您发起退款流程。

SFT 训练流程：

SFT 的本质是"学示范"，适合解决：

✅ 适合	❌ 不适合
输出格式不稳定	频繁变化的业务知识
业务话术不统一	需要实时更新的规则
固定任务流程学不会	通用推理能力提升
工具调用格式需要统一	大量外部事实性知识
小模型学习大模型的回答范式	—

生动比喻：SFT 就像驾校教练带学员练车。教练坐在副驾驶，演示怎么打方向盘、什么时候踩刹车、倒库怎么看后视镜。学员通过反复观察和模仿，逐渐形成稳定的驾驶习惯。但教练不会把整张城市的路况都背下来——那是导航的事（RAG）。

关键认知：SFT 更适合教模型"怎么答"，不适合硬塞一堆会频繁变化的业务知识。业务知识会变——今天退款规则是 7 天，明天改成 15 天。你把规则训进模型里，规则一变，模型记忆就过期了。这类动态知识，更适合用 RAG 或工具查询。

2. RLHF：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）

一句话：RLHF 不是直接教模型标准答案，而是让模型学会人类更喜欢哪种答案。

还是用教新员工的比喻：SFT 是给他看标准答案，RLHF 是让他写两份回复，然后你告诉他"第二份更好"。他不会知道"标准答案"是什么，但他会逐渐理解你的偏好。

比如同一个用户投诉，模型生成了两个回答：

A 回答："不能退款。" ❌
B 回答："需要先确认订单状态、支付时间和商品类型。如果订单满足平台退款规则，可以发起退款；如果缺少信息，需要用户补充订单号。" ✅

人类标注员认为 B 更好。模型就学到：遇到这类问题，不能武断回答，要更谨慎、更完整。

RLHF 的完整流程：

生动比喻：RLHF 就像餐厅点评系统。SFT 是厨师按菜谱做菜（学标准），RLHF 则是顾客吃完后打分——"这道菜咸了""那道菜摆盘好看"。厨师不需要知道"完美菜品"的标准答案，但他会根据顾客反馈不断调整口味，最终做出大家爱吃的菜。

RLHF 解决的是偏好问题——多个答案可能都没错，但业务更喜欢其中一种：

偏好维度	选项A	选项B	你的业务选哪个？
语气	更礼貌	更直接	看品牌定位
结构	先解释原因	先给结论	看用户类型
风险态度	保守拒答	给替代方案	看合规要求
信息量	简洁明了	详细完整	看使用场景

这些问题没有唯一标准答案，这就是 RLHF 的价值。

3. RL：强化学习（Reinforcement Learning）

一句话：RL 是让模型在环境里做动作，环境给奖励，模型学会让奖励更高。

RL 比 RLHF 更宽泛，不一定需要人类反馈。只要你能定义 reward，就可以做 RL。

想象你在训练一只狗：它做对了给零食（reward），做错了不给。狗不会理解"为什么"，但它会逐渐学会什么行为能拿到零食。RL 训练模型也是同样的道理。

典型可定义 reward 的场景：

场景	🎯 高奖励（做对了）	❌ 低奖励（做错了）
💻 代码生成	代码能跑通、单测通过	编译报错、单测失败
🔢 数学推理	答案正确	答案错误
🤖 Agent 工具调用	调对工具、参数合法、任务完成	调错工具、越权操作
🔍 检索问答	检索结果命中答案	检索结果无关

生动比喻：RL 就像玩超级马里奥。马里奥（模型）不知道通关的最优路线，但他每次跳起来吃到金币（+reward）、踩到蘑菇敌人（+reward）、掉进坑里（-reward）。玩了几百次之后，他自然而然学会了哪里该跳、哪里该跑、哪里有陷阱——不需要有人手把手教他每一步该怎么走。

RL 的核心不在于"人类喜不喜欢"，而在于：有没有明确的环境反馈或可验证目标。 如果 reward 设计清楚，RL 很有价值；如果 reward 很模糊，RL 就容易训歪。

4. PPO：近端策略优化（Proximal Policy Optimization）

一句话：PPO 是一种强化学习优化算法，用来在提升 reward 的同时，限制模型不要偏离原模型太远。

为什么要限制？因为大模型很"脆"。如果你只让它追求 reward，很可能出现"奖励黑客"（Reward Hacking）：

生动例子：你告诉模型"回答越长奖励越高"，它就开始疯狂输出长篇废话，每句话都在重复相同的意思。你告诉它"越礼貌越好"，它每句话都变成"尊敬的用户您好，非常抱歉给您带来不便，恳请您谅解，万分感谢您的耐心等待……"——过度客气到让人不适。这就是模型在钻 reward 的空子，就像学生为了凑字数作文写了三千字的"今天天气真好"。

PPO 的核心机制：

生动比喻：PPO 就像放风筝。Reward 是风，想把风筝吹得越高越好（提高奖励）。但 KL 惩罚就是那根线——风筝飞得太高太远，线就会拉紧把它拽回来。没有这根线，风筝要么飞得无影无踪（模型崩溃），要么被风吹得乱七八糟（奖励黑客）。裁剪（Clipping）则是控制收线的力度，不让风筝突然剧烈晃动。

面试要点：PPO 不是一种偏好数据，也不是一种标注方式，而是 RLHF 训练阶段常用的优化算法。很多人混淆了这个概念。

5. DPO：直接偏好优化（Direct Preference Optimization）

一句话：DPO 是直接用偏好对训练模型，让模型更偏向好回答，不再单独训练 Reward Model，也不跑复杂的 PPO 流程。

传统 RLHF 像做一道大菜：先备菜（SFT）、再熬高汤（训练 Reward Model）、最后大火收汁（PPO 优化）。DPO 则像直接炒——把"好回答 vs 差回答"的偏好对直接喂给模型，一步到位。

DPO vs RLHF 对比：

维度	传统 RLHF（PPO）	DPO
需要 Reward Model？	✅ 需要单独训练	❌ 不需要
训练复杂度	高（多阶段）	低（一步到位）
训练稳定性	可能不稳定	通常更稳定
计算成本	高（RM + PPO 多轮）	低（单阶段）
数据依赖	需要大量偏好数据	同样需要高质量偏好数据
适用范围	广泛（含多步交互）	偏好对齐为主

生动比喻：传统 RLHF 就像请私教健身——先体检（SFT）、制定计划（收集数据）、请营养师配餐（训练 RM）、每天跟着教练练（PPO），一套下来效果很好但费钱费时。DPO 则像跟着视频自学健身——直接看"正确动作 vs 错误动作"对比视频，自己照着练。省钱省时，但如果视频本身教得不对，你也学歪了。

DPO 的优势：工程流程更简单、训练更稳定、成本更低。但它很依赖偏好数据质量——如果你的标注标准不一致，今天喜欢短答案，明天喜欢长答案，DPO 也会学乱。

三、微调、Prompt、RAG 到底怎么选

面试官很喜欢问："这个场景你会用 Prompt、RAG，还是微调？"这个问题非常考察工程判断。

🌳 决策树

逐条拆解

1. 能靠 Prompt 解决，就先别训练。 如果只是让模型输出更清晰、更结构化、更符合某个格式，先试 Prompt。训练有成本——准备数据、清洗、跑训练、评测、上线、回滚，不是写几条样本就完事。

生动比喻：Prompt 就像给员工发操作手册——"遇到这种情况翻到第3页照着做"。简单有效，改起来也方便。但如果员工连翻手册都会出错，或者手册已经有50页了还盖不住所有情况，那就该考虑培训（微调）了。

2. 知识频繁变化，优先 RAG 或工具。 产品文档、公司制度、价格规则、合同条款——这些会变。RAG 重新入库就能生效，但训进模型里，更新就麻烦了，还容易出现旧知识残留。

核心原则：知识问题优先 RAG，行为问题再考虑 SFT。

3. 行为稳定性不够，再考虑 SFT。 模型明明知道规则，但输出就是不稳定——今天按格式答，明天格式乱了；今天先问用户补充信息，明天直接下结论。这种情况就可以考虑 SFT。

4. 多个答案都能用，但你有明确偏好，考虑 DPO / RLHF。 比如客服场景，同一个投诉可以严肃处理也可以温和安抚，都不算错，但你的业务有偏好。这种偏好对齐问题，DPO 或 RLHF 更合适。

5. 有可验证 reward，才考虑更强的 RL。 代码能否通过单测、工具调用是否成功、Agent 是否完成任务——这些场景可以设计 reward。但如果只是"我感觉这个回答更好"，reward 很模糊，直接上 RL 就很危险。

📊 四种方案快速对比

四、为什么很多垂类微调会被基模抹平

答案是：会。但不是全部。 被抹平的，通常是低壁垒的微调。

📉 微调价值迁移地图

1. 只补通用知识的微调，容易被抹平

你用几千条普通问答教模型回答 Java、MySQL、Redis——这种很容易被新基模覆盖。通用知识本来就在基模能力范围内，下一代基模参数更大、数据更多、后训练更强，直接就追上了。这类微调没有护城河。

比喻：就像你花三个月培训一个员工背产品手册，结果公司招了个过目不忘的学霸，三天就背完了。你的培训投入瞬间贬值。

2. 只调风格但没有评测，也容易被抹平

有些团队说自己做了行业微调，但问"提升了多少？""在哪些 case 上提升？"——答不上来。只是感觉回答更像客服、更像医生、更像律师。没有评测集、没有线上指标、没有错误归因，就很难证明微调价值。基模一升级，你也不知道是不是该保留自己的模型。

3. 数据质量低的 SFT，甚至会拖累模型

SFT 不是样本越多越好。拿一堆客服聊天记录直接训，里面有坏话术、错误处理流程、历史规则、人工客服的随意表达、用户隐私信息——不清洗就训练，效果不稳定很正常。

金句：低质量数据不是资产，是污染源。脏数据训出来的不是垂类模型，是垂类问题集合。

生动比喻：用脏数据做 SFT，就像用发霉的食材做菜——不管厨师技术多好，做出来的菜吃了都会肚子疼。而且更糟糕的是，你可能根本不知道肚子疼是因为这顿饭（没有评测集的话）。

4. 没有业务闭环的 RL，也容易变成样子工程

RL 听起来高级。但如果你没有环境、没有 reward、没有评测、没有线上反馈，RL 就只是一个名词。面试官可能会追问：reward 怎么定义？成功和失败怎么判定？中间步骤怎么给分？工具调用错了怎么惩罚？线上怎么监控策略退化？——如果这些答不上来，说明你还没真正想清楚。

五、SFT 的破局点：从补知识变成控行为

SFT 的破局点，不是让模型知道更多，而是让模型在固定场景里更稳定地按你希望的方式做事。

🎯 SFT 四大核心价值

1. 固定输出格式

很多业务系统需要结构化输出。强基模能不能输出 JSON？能。但生产系统要的是稳定——字段不能丢、枚举不能乱、置信度不能瞎填。如果 Prompt 约束不够稳定，可以用 SFT 让模型学固定格式。

{
  "category": "refund",
  "confidence": 0.86,
  "need_human": false,
  "reason": "订单仍在可退款时间内"
}

生动比喻：Prompt 让模型输出 JSON 就像让实习生填表——有时候填对了，有时候漏了一栏，有时候把"是/否"填成了"对的/不对"。SFT 则像给了他一张填写范例 + 培训了100次——以后闭着眼都能填对。

2. 固定业务流程

比如客服退款流程：识别意图 → 询问订单号 → 调工具查订单 → 判断退款规则 → 高风险动作要求确认。这类流程不是简单知识问答，它要求模型稳定按步骤行动。SFT 可以训练模型形成固定任务范式。

注意：SFT 只能让模型更倾向于正确流程，不能替代权限、审批、回滚。真正执行动作时还要靠工具和系统校验。模型训练只能提高倾向，不能替代系统约束。

3. 行业话术和品牌口径

同样一句话，"你不能办"和"当前条件暂不满足办理要求，可以补充以下材料后重新申请"给用户的感受完全不同。金融、医疗、政务、教育这些场景对措辞很敏感，SFT 可以让模型学习行业话术和品牌口径——这不是通用基模自动就能完全对齐的。

4. 小模型降本

这是很现实的价值。大模型效果好，但贵、慢。如果一个业务场景很固定（工单分类、标签抽取、简单客服问答），你可以用大模型生成高质量示范数据，再 SFT 一个小模型。小模型上线后承担大部分流量，复杂问题再路由到大模型。

生动比喻：这就像连锁餐厅的中央厨房。主厨（大模型）研发出标准菜谱和制作流程，然后培训各分店的小厨（小模型）照着做。顾客吃到的味道95%一样，但成本低了很多。只有特别挑剔的VIP客人点了特殊菜品，才会惊动主厨亲自下厨。

SFT 降本的价值不是超过最强基模，而是：用更低成本，在固定场景里达到够用效果。

六、RLHF / RL 的破局点：从变聪明变成控偏好和控决策

基模越来越强后，通用推理能力确实会被持续提升。但偏好和决策，不一定会自动符合你的业务。

🎯 RLHF/RL 价值体系

1. RLHF 的价值是对齐偏好

很多业务问题没有唯一正确答案。用户投诉时：先道歉还是先解释规则？要不要主动给补偿？什么情况下转人工？拒绝用户时怎么表达？这类问题靠 SFT 可以学一些示范，但更本质的是偏好对齐——你需要让模型知道业务更喜欢哪种回答。

生动例子：两个客服回复用户投诉——A 说"这是平台规则，无法退款"，B 说"非常理解您的心情，根据平台规则目前暂不支持退款，但我可以帮您看看有没有其他补偿方案"。两个回答都没错，但你的品牌定位决定了你选 A 还是 B。奢侈品品牌可能选 A（高冷），互联网品牌可能选 B（亲和）。 这就是 RLHF 要解决的问题——不是找"正确答案"，而是找"最适合你的答案"。

2. RL 的价值是优化多步决策

Agent 场景里，RL 更有想象空间。Agent 不是只生成一句话，它要做一串动作：

这中间每一步都可能错：工具选错、参数填错、检索策略错、过早下结论、不该执行写操作却执行了。如果你能定义任务成功率、工具调用成功率、参数合法率，就可以把这些指标变成训练反馈。RL 不是为了让模型"更会聊天"，而是让 Agent 在多步任务里更会做决策。

生动比喻：Agent 的 RL 训练就像培训一个全能管家。不只是会开门迎客（单轮对话），而是能独立完成一系列复杂任务：取快递→检查物品→分类归档→记录台账→发现异常及时汇报。每一步做好了有小奖励（积分），搞砸了扣分。时间长了，管家自然学会了最优的工作流程。

3. 有明确 reward 的任务，RL 更有价值

RL 最怕 reward 模糊。但有些任务 reward 很清楚：

任务类型	正向 Reward ➕	负向 Reward ➖
💻 代码生成	单测通过、代码可运行	编译报错、单测失败
🔢 数学推理	答案正确	答案错误
🔧 工具调用	调用成功、参数合法	参数非法、越权操作
🤖 Agent 任务	任务完成	任务失败、需要人工接管

这类任务更适合 RL，因为它不完全依赖人工主观偏好，有客观反馈。

4. 高风险场景，RLHF/RL 还要配合规则

RLHF/RL 不是安全保险箱。不能说"我做了 RLHF，模型应该会安全"。高风险动作必须配合：权限控制、二次确认、审批流、幂等机制、回滚机制、操作日志。

金句：模型训练只能提高倾向，不能替代系统约束。这点面试里说出来，面试官会知道你不是只会讲算法名词。

七、DPO 为什么现在经常被提到

DPO 现在经常被提到，是因为它工程上更轻。

传统 RLHF 流程比较重：SFT → 收集偏好数据 → 训练 Reward Model → PPO 优化 → 评测和调参。每一步都有坑——Reward Model 会不会学偏？PPO 会不会不稳定？KL 怎么控制？训练成本能不能接受？

DPO 的思路更直接：给模型一组偏好对（chosen 比 rejected 好），直接训练模型更偏向 chosen。

⚡ RLHF vs DPO 流程对比

DPO 的数学直觉（不用公式也能理解）

DPO 适合的场景：你已经有比较明确的偏好数据，比如好客服回答 vs 差客服回答、合规回答 vs 不合规回答、正确工具调用轨迹 vs 错误轨迹。

但它也有边界：偏好数据质量差，DPO 也救不了；任务需要和环境多轮交互，光靠静态偏好对也不够。

面试要点：DPO 降低了偏好优化的工程门槛，但它仍然依赖高质量偏好数据，也不能替代真实环境反馈。

生动比喻：DPO 就像相亲时的"二选一"——给你两张照片，你选一张喜欢的。看得多了，系统就知道你喜欢什么类型的。但这有个前提：你得真心选，不能今天喜欢高的明天喜欢矮的（数据质量一致）。而且看了照片不等于真的相处了——真要结婚过日子（复杂多步任务），还是得多接触了解（RL）。

八、什么场景不建议做微调

面试官不只想听你会做什么，也想看你知道什么时候不要做。

🚫 五大避坑指南

1. Prompt 能解决的，不要急着训练

如果只是格式、语气、结构稍微调整，Prompt 就能解决。训练不是免费的——它会带来数据、成本、版本管理、评测、回滚问题。

2. 知识更新频繁的，不要硬塞进模型

产品规则、政策条款、价格、库存、组织架构——这些都容易变。优先 RAG 或工具查询，不要把它们都训进模型，否则模型里会残留旧知识。

比喻：把频繁变化的业务知识训进模型，就像把"今日菜价"刻在石头上——明天菜价一变，石头上的信息就成了误导。而 RAG 就像电子菜单——随时更新，永远是最新的价格。

3. 没有评测集的，不要盲目微调

没有 eval，就不知道提升在哪里。你只会得到一句话："感觉好了一点。"这不是工程结论。训练前至少要有：核心场景测试集、失败案例集、安全边界测试集、格式稳定性测试、线上指标定义。

4. 数据质量差的，不要直接训

数据质量决定微调上限。如果数据里有大量错误、过时、冲突、隐私信息，先治理数据，不要急着训练。

5. 业务变化很快的，不要重仓微调

如果业务流程每周都变，话术每天都改，每次都重新微调成本很高。这种场景更适合 Prompt、配置、RAG、规则引擎。等流程稳定了，再考虑训练。

九、工程上怎么判断微调有没有收益

微调有没有收益，不能靠感觉，要看指标。

📊 工程评估闭环

五大评估维度

维度	核心指标	说明
🎯 任务指标	分类准确率、F1、工具调用成功率、JSON 合法率、任务完成率	任务本身做得好不好
✨ 质量指标	幻觉率、无证据回答率、格式错误率、拒答准确率、人工接管率	回答是否可靠
💰 成本指标	单次调用成本、延迟、小模型承接流量比例	降本效果
🛡️ 风险指标	越权动作率、错误放行率、投诉率、回滚次数	高风险业务必看
🔄 回归测试	回归集通过率	防止改好一个场景、搞坏另一个

关键认知：微调不能只追求"答得更像人"，还要看有没有降低风险、有没有降低成本。如果效果差不多但成本降了一半，这也是价值。

生动比喻：评估微调效果就像体检。不能只看"感觉身体不错"（主观体验），要量血压（任务指标）、查血常规（质量指标）、称体重（成本指标）、做心电图（风险指标），还要和上次体检对比（回归测试）。哪一项异常都要追查原因。

十、面试官可能怎么追问

围绕大模型微调，面试官可能会连续追问。以下问题建议一起准备：

🔥 追问清单与速答

1. SFT 和 RAG 怎么选？

知识用 RAG，行为用 SFT。 外部知识、动态知识、需要引用来源 → 优先 RAG。输出格式、任务流程、话术风格、工具调用范式 → 考虑 SFT。

2. SFT 和 Prompt Engineering 怎么选？

先 Prompt，后 SFT。 Prompt 能稳定解决就不训练。Prompt 很长、很脆、效果不稳定，且场景高频固定 → 再考虑 SFT。

3. SFT 和 RLHF 有什么区别？

SFT 学示范，RLHF 学偏好。 SFT 像"老师给标准答案"，RLHF 像"人类告诉模型哪个答案更好"。

4. DPO 和 RLHF 有什么区别？

传统 RLHF 要训练 Reward Model + PPO 优化。DPO 直接用偏好对优化模型，流程更简单、更稳定。但 DPO 依赖高质量偏好数据，不适合所有多步环境反馈任务。

5. PPO 是什么？

PPO 是强化学习优化算法，不是标注方法。在 RLHF 里，它用来根据 reward 优化模型，同时限制模型不要偏离原模型太远，避免训崩。

6. 为什么垂类微调容易失败？

常见原因：数据质量差、任务边界不清、把动态知识硬塞进模型、没有评测集、只看主观体验、基模升级后收益消失。

7. Agent 场景里 RL 有什么价值？

Agent 是多步决策，不只是生成文本。RL 可以优化工具选择、参数填写、检索策略、任务完成率。但前提是有清晰 reward 和安全边界。

8. 微调后怎么上线？

不能直接全量替换。要灰度发布、A/B 测试、监控指标、保留回滚方案。同时监控幻觉率、格式错误率、人工接管率、投诉率、成本和延迟。

十一、面试怎么答

如果面试官问：

"基模能力越来越强，SFT/RLHF/RL 还有没有必要？破局点是什么？"

你可以这样答：

我不会把 SFT、RLHF 或 RL 理解成单纯给模型补知识。 随着通用基模越来越强，很多低质量垂类微调确实会被抹平，尤其是只靠少量 QA 补通用知识、没有评测闭环的微调，价值会越来越低。

但这不代表微调没有必要。 它的价值会从补能力转向控行为、控偏好、控成本和控风险。

SFT 更适合让模型在固定业务场景里稳定按指定格式、指定流程、指定话术输出，而不是把动态业务知识硬塞进模型。知识更新频繁的场景，我会优先用 RAG 或工具查询。

RLHF 或 DPO 更适合解决偏好问题，也就是多个答案都能用，但业务更偏好哪一种。比如客服回答是先安抚还是先解释规则，安全场景里应该拒答到什么程度——这些都不是简单知识问题。

更广义的 RL 则更适合有明确 reward 的任务，比如代码单测、数学答案、Agent 工具调用、多步任务完成率。它的破局点不是让模型更会聊天，而是优化多步决策和任务成功率。

所以我会先判断问题能不能用 Prompt、RAG、规则或工具解决。如果只是知识问题，优先 RAG；如果是行为稳定性问题，再考虑 SFT；如果是偏好对齐问题，可以考虑 DPO/RLHF；如果有可验证 reward，才考虑更重的 RL。

最后，微调值不值得做，不能靠感觉，要看评测集、线上指标、成本收益和风险控制。 如果没有高质量数据、没有 eval、没有上线监控，我不会贸然做微调。

🎯 面试回答路线图

这篇文章的重点不是把每个名词都背一遍，而是让面试官听出来：你知道大模型微调是什么，也知道它什么时候该做，什么时候不该做。这才是面试真正想考的东西。
💡 记忆口诀：知RAG行SFT，偏DPO奖RL，先Prompt后训练，有评测再动手。

模型微调面试详解：SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

# 大模型微调面试详解：SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

# 一、先说结论：微调没有消失，只是价值变了

# 二、先把名词讲清楚：SFT、RLHF、RL、PPO、DPO 是什么

# 🔗 概念关系总览

# 1. SFT：监督微调（Supervised Fine-Tuning）

# 2. RLHF：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）

# 3. RL：强化学习（Reinforcement Learning）

# 4. PPO：近端策略优化（Proximal Policy Optimization）

# 5. DPO：直接偏好优化（Direct Preference Optimization）

# 三、微调、Prompt、RAG 到底怎么选

# 🌳 决策树

# 逐条拆解

# 📊 四种方案快速对比

# 四、为什么很多垂类微调会被基模抹平

# 📉 微调价值迁移地图

# 1. 只补通用知识的微调，容易被抹平

# 2. 只调风格但没有评测，也容易被抹平

# 3. 数据质量低的 SFT，甚至会拖累模型

# 4. 没有业务闭环的 RL，也容易变成样子工程

# 五、SFT 的破局点：从补知识变成控行为

# 🎯 SFT 四大核心价值

# 1. 固定输出格式

# 2. 固定业务流程

# 3. 行业话术和品牌口径

# 4. 小模型降本

# 六、RLHF / RL 的破局点：从变聪明变成控偏好和控决策

# 🎯 RLHF/RL 价值体系

# 1. RLHF 的价值是对齐偏好

# 2. RL 的价值是优化多步决策

# 3. 有明确 reward 的任务，RL 更有价值

# 4. 高风险场景，RLHF/RL 还要配合规则

# 七、DPO 为什么现在经常被提到

# ⚡ RLHF vs DPO 流程对比

# DPO 的数学直觉（不用公式也能理解）

# 八、什么场景不建议做微调

# 🚫 五大避坑指南

# 1. Prompt 能解决的，不要急着训练

# 2. 知识更新频繁的，不要硬塞进模型

# 3. 没有评测集的，不要盲目微调

# 4. 数据质量差的，不要直接训

# 5. 业务变化很快的，不要重仓微调

# 九、工程上怎么判断微调有没有收益

# 📊 工程评估闭环

# 五大评估维度

# 十、面试官可能怎么追问

# 🔥 追问清单与速答

# 1. SFT 和 RAG 怎么选？

# 2. SFT 和 Prompt Engineering 怎么选？

# 3. SFT 和 RLHF 有什么区别？

# 4. DPO 和 RLHF 有什么区别？

# 5. PPO 是什么？

# 6. 为什么垂类微调容易失败？

# 7. Agent 场景里 RL 有什么价值？

# 8. 微调后怎么上线？

# 十一、面试怎么答

# 🎯 面试回答路线图