跳至主要內容
模型微调面试详解:SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

大模型微调面试详解:SFT、RLHF、DPO、PPO、强化学习和基模变强后的优化价值

基模越来越强,微调还有没有必要?这篇文章从面试和工程落地角度,系统讲清楚 SFT、RLHF、RL、PPO、DPO 这些概念,以及基模变强后它们的破局点在哪里。

一、先说结论:微调没有消失,只是价值变了

基模越来越强,不是让 SFT、RLHF、RL 消失,而是让它们从"补能力"转向"控行为、控偏好、控成本、控风险"。

打个比方:基模就像一个越来越聪明的"通才大学生",以前你需要手把手教他客服话术、报告格式、业务流程。但现在这个大学生自学能力极强,你给他一份说明书(Prompt),他就能干得不错。甚至你花三个月培训出来的"专才",下一代基模一发布,直接就能追上。


郑天祺大约 38 分钟大模型大模型模型微调SFTRLHF面试
Claude Code 大厂面试题汇总:源码泄露、Agent Loop、系统提示词、工具链、上下文管理、安全机制全拆解

Claude Code 大厂面试题汇总:源码泄露、Agent Loop、系统提示词、工具链、上下文管理、安全机制全拆解

一、Claude Code 源码是怎么泄露的?泄露了什么?

面试官常见问法: "你了解过 Claude Code 的源码泄露事件吗?从中学到了什么?"

泄露经过

2026年3月31日,有人发现 Claude Code 的 npm 包(v2.1.88)体积异常——59.8MB,比正常版本大了 10 倍。

生动例子:


郑天祺大约 25 分钟大模型ClaudeCode大模型面试
RAG 实战:Document Loader 文档加载器详解

2026年RAG大厂面试题汇总:向量检索、混合检索、Rerank、幻觉处理高频问题与回答思路

一、RAG 是什么?为什么需要 RAG?

面试官常见问法: "为什么不让 LLM 直接回答,非要用 RAG?"或者"LLM 的知识截止问题你怎么解决?"

LLM 的三大知识缺陷

① 知识截止——训练数据有截止日期,昨天发生的事它不知道。你问它"2026年3月发布的 XX 框架有什么特性",它要么瞎编要么说不知道。

② 私有数据无法触达——公司的内部文档、客户数据、业务规则,这些 LLM 从来没见过,直接问就是胡说。


郑天祺大约 23 分钟大模型RAG大模型面试向量检索
Transformer 大厂面试题汇总:应用开发者视角

Transformer 大厂面试题汇总:应用开发者视角

现在不管你投什么岗位,面试官都可能问一句:你了解 Transformer 吗?

很多录友的反应是:"我又不训练模型,Transformer 和我有什么关系?"

关系大了。

  • 你用的 Token 怎么计费的?
  • 上下文窗口为什么有上限?
  • 为什么模型会"忘记"前面的内容?
  • 为什么长对话质量越来越差?
  • 为什么 Prompt 结构化比大段文字效果好?

郑天祺大约 27 分钟大模型Transformer大模型面试
Java LTS 版本新特性实战与面试指南(JDK 8 / 11 / 17 / 21)

Java LTS 版本新特性实战与面试指南(JDK 8 / 11 / 17 / 21)

👨‍💻 适用人群:Java 开发者 | 面试求职者


一、Java LTS 版本演进概览

1.1 四大 LTS 版本时间线

版本 发布年份 维护期 市场定位
JDK 8 2014 → 2030年12月 经典老将,存量系统首选
JDK 11 2018 → 2026年9月 Java 11是新特性分水岭
JDK 17 2021 → 2029年9月 当前主流,生产环境推荐
JDK 21 2023 → 2032年9月 最新 LTS,功能最全

郑天祺大约 7 分钟java基础JDK新特性面试
JVM性能优化整理

1、类加载过程

	Java语言是一种具有动态性的解释型语言,类(Class)只有被加载到JVM后才能运行。当运行指定程序时,JVM会将编译生成的.class文件按照需求和一定的规则加载到内存中,并组织成为一个完整的Java应用程序。

	这个加载过程是由类加载器完成,具体来说,就是由ClassLoader和它的子类来实现的。类加载器本身也是一个类,其实质是把类文件从硬盘读取到内存中。

	类的加载方式分为隐式加载和显示加载。隐式加载指的是程序在使用new等方式创建对象时,会隐式地调用类的加载器把对应的类加载到JVM中。显示加载指的是通过直接调用class.forName()方法来把所需的类加载到JVM中。

郑天祺大约 6 分钟面试JVM优化面试
并发编程总结

1、Synchronized

	Synchronized是由JVM实现的一种实现互斥同步的一种方式,如果你查看被Synchronized修饰过的程序块编译后的字节码,会发现,被Synchronized修饰过的程序块,在编译前后被编译器生成了monitor enter和monitor exit两个字节码指令。

	这两个指令是什么意思呢?在虚拟机执行到monitor enter指令时,首先要尝试获取对象的锁︰如果这个对象没有锁定,或者当前线程已经拥有了这个对象的锁,把锁的计数器+1;当执行monitorexit指令时将锁计数器-1﹔当计数器为O时,锁就被释放了。如果获取对象失败了,那当前线程就要阻塞等待,直到对象锁被另外一个线程释放为止。

	Java中Synchronize通过在对象头设置标记,达到了获取锁和释放锁的目的。

	Synchronize是非公平锁。

郑天祺大约 5 分钟面试java并发编程面试
JVM垃圾回收算法

1、标记 - 清除 算法

标记无用对象,然后进行清除回收。

缺点:效率不高,无法清除垃圾碎片。
image-20200918092639589
image-20200918092639589

2、复制 - 清除 算法

按照容量划分二个大小相等的内存区域,每次使用其中的一块。当这一块的内存使用完后,就将还存活的对象复制到另一块去,然后再把使用的空间一次清理掉。这样就使每次的内存回收都是对内存区间的一半进行回收。

缺点:内存使用率不高,只有原来的一半

郑天祺大约 1 分钟面试JVM垃圾回收面试