# AI 大模型与 Agent 面试题汇总
这份题库是给正在或准备做 AI 方向的前端 / 全栈工程师准备的,重点放在真实面试常考、能直接用上工程的题目,而不是 ChatGPT 拽词汇说一遍就完事的概念题。
几条原则:
- 每道题都标了「考察点」,知道面试官真正想确认什么,比记标准答案更值钱。
- 答案尽量按面试节奏写:先用一两句话把结论说清,再补关键细节,再补一个能让对方点头的延伸或例子。
- 实在通用的概念题不会写得太啰嗦,真正决定差异化的,是工程实战那几节(Agent 架构、RAG、MCP、LangChain/LangGraph、前端集成、AI 提效)。
题量按主题排布,越往后越偏工程实操:
- 一、大模型基础(先把"是什么"打通)
- 二、Prompt 工程(最该练的硬功夫)
- 三、AI Agent 架构(高频且能拉开差距)
- 四、RAG 检索增强生成(ToB 项目几乎必问)
- 五、Function Calling 与 MCP(新一年最火的实战题)
- 六、Memory 与上下文管理(Agent 真正难的部分)
- 七、LangChain / LangGraph 框架(开源生态主战场)
- 八、模型微调 / 私有化部署 / ToB 落地(资深岗常问)
- 九、前端 AI 集成与工程化(前端的主场)
- 十、AI 提效篇(怎么用 AI 反过来帮自己干活)
- 十一、综合追问 & 场景题(拉差距的部分)
# 一、AI 与大模型基础
这一节别背太多概念,面试官真正想确认的是:你有没有过手感。每个点能说出一个自己见过的现象,胜过把维基百科背一遍。
# 1. 什么是大语言模型(LLM)?它和过去的 NLP 模型本质区别是什么?
考察点:能否用一句话讲清,并知道它不是「智能」而是「概率」。
LLM 本质上是一个只会做一件事的概率模型:给一段上文,预测下一个 token 最可能是什么。把这个动作循环执行,就能输出一句话、一段代码、一篇文章。
它和过去 NLP 的区别有两点最关键:
- 不再针对单一任务训练。过去要做分类训分类,做翻译训翻译;现在一个模型靠 prompt 切换几十种任务。
- 规模带来质变。参数量到一定规模后,会涌现出推理、代码、跨语言能力,这是小模型里不存在的。
一句话总结:本质是「自回归概率分布」+「大力出奇迹」,不要把它当成会思考的人。
# 2. GPT、Claude、Gemini、LLaMA、DeepSeek、通义、Kimi 这些怎么选?
面试时别背版本号,记住选型口径:
| 选型角度 | 倾向哪家 |
|---|---|
| Agent / 工具调用 / 长任务稳定 | Claude(Anthropic) |
| 通用 + 生态最广 + 多模态 | GPT / OpenAI |
| 超长上下文 / 多模态 | Gemini |
| 开源 + 微调研究的事实标准 | LLaMA(Meta) |
| 开源 + 推理 / 代码 / 数学 | DeepSeek |
| 中文场景 / 国内私有化 | Qwen(阿里)、GLM(智谱) |
| 中文长文档 / 阅读理解 | Kimi(Moonshot) |
| 轻量 / 边缘 / 端侧部署 | Mistral / Phi / Gemma |
被追问"为什么这么选"时一定要说业务场景:
- 我们做企业内部 Agent,链路 10 步以上,所以选 Claude,工具调用更稳;
- 我们做 RAG + 长文档,所以选 Kimi / Gemini,长上下文成本比切片好控;
- 我们做合规私有化,所以选 Qwen / DeepSeek 自部署;
- 我们要做学术微调实验对比开源底座,所以选 LLaMA 系;
- 我们要把模型塞进 IoT / 浏览器端,所以选 Phi / Gemma 这种 1B-4B 的小模型。
# 3. Token 是什么?为什么按 token 计费而不是字符?
Token 是模型实际处理的最小单元,由 tokenizer 把文本切成一串整数 id。模型从头到尾看到的都是 token id,不是字符。
按 token 计费的真正原因:模型的算力消耗和 token 数线性相关,和字符数不是。比如同一句话英文 4 token、中文可能 8 token,按字符算就不公平了。
常用换算(够你在面试里给个数):
- 英文:1 token ≈ 4 字符 ≈ 0.75 个单词
- 中文:1 token ≈ 1.5 个汉字(不同模型差别不小)
- 代码:和英文接近,但符号多的语言会更碎
实战经验:估成本时给 1.3 倍 buffer,因为输入和输出都会算,且 system prompt 在多轮里会反复带。
# 4. 上下文窗口(Context Window)是什么?越大越好吗?
窗口 = 模型一次能塞进去的 token 总额 = system + 历史对话 + 当前输入 + 留给输出的预算。超过就要截断、报错或者换策略。
不是越大越好,几个反常识的点:
- 大窗口 ≠ 注意力均匀。模型对开头和结尾的内容关注更高,中间段容易被忽略,叫「Lost in the Middle」。
- 成本和延迟一起涨。1M token 上下文每次调用都极贵,而且首 token 时间会肉眼可见地变慢。
- 大窗口不能完全替代 RAG。把 50 篇文档全塞进去,效果通常不如 RAG 检索出最相关的 5 段塞进去。
工程上反而要主动控制:滑动窗口、摘要压缩、向量检索拼接才是常态。
# 5. Temperature、top_p、top_k、seed 这几个参数怎么调?
记住一句话:调一个就够,别全都调。最常用的是 temperature。
| 参数 | 控制什么 | 代码 / 抽取场景 | 创意 / 闲聊 |
|---|---|---|---|
| temperature | 整体随机性 | 0 - 0.3 | 0.7 - 1.0 |
| top_p | 截断到累计概率 p | 默认 0.9 不动 | 同上 |
| top_k | 截断到前 k 个候选 | 一般不调 | 一般不调 |
| seed | 复现性(部分模型支持) | 固定 seed + temperature=0 | — |
要让结果完全可复现:固定 seed + temperature=0 + top_p=1,且不要打开 streaming(部分 SDK streaming 有微差)。
