# AI 大模型与 Agent 面试题汇总

这份题库是给正在或准备做 AI 方向的前端 / 全栈工程师准备的，重点放在真实面试常考、能直接用上工程的题目，而不是 ChatGPT 拽词汇说一遍就完事的概念题。

几条原则：

每道题都标了「考察点」，知道面试官真正想确认什么，比记标准答案更值钱。

答案尽量按面试节奏写：先用一两句话把结论说清，再补关键细节，再补一个能让对方点头的延伸或例子。

实在通用的概念题不会写得太啰嗦，真正决定差异化的，是工程实战那几节（Agent 架构、RAG、MCP、LangChain/LangGraph、前端集成、AI 提效）。

题量按主题排布，越往后越偏工程实操：

一、大模型基础（先把"是什么"打通）

二、Prompt 工程（最该练的硬功夫）

三、AI Agent 架构（高频且能拉开差距）

四、RAG 检索增强生成（ToB 项目几乎必问）

五、Function Calling 与 MCP（新一年最火的实战题）

六、Memory 与上下文管理（Agent 真正难的部分）

七、LangChain / LangGraph 框架（开源生态主战场）

八、模型微调 / 私有化部署 / ToB 落地（资深岗常问）

九、前端 AI 集成与工程化（前端的主场）

十、AI 提效篇（怎么用 AI 反过来帮自己干活）

十一、综合追问 & 场景题（拉差距的部分）

# 一、AI 与大模型基础

这一节别背太多概念，面试官真正想确认的是：你有没有过手感。每个点能说出一个自己见过的现象，胜过把维基百科背一遍。

# 1. 什么是大语言模型（LLM）？它和过去的 NLP 模型本质区别是什么？

考察点：能否用一句话讲清，并知道它不是「智能」而是「概率」。

LLM 本质上是一个只会做一件事的概率模型：给一段上文，预测下一个 token 最可能是什么。把这个动作循环执行，就能输出一句话、一段代码、一篇文章。

它和过去 NLP 的区别有两点最关键：

不再针对单一任务训练。过去要做分类训分类，做翻译训翻译；现在一个模型靠 prompt 切换几十种任务。
规模带来质变。参数量到一定规模后，会涌现出推理、代码、跨语言能力，这是小模型里不存在的。

一句话总结：本质是「自回归概率分布」+「大力出奇迹」，不要把它当成会思考的人。

# 2. GPT、Claude、Gemini、LLaMA、DeepSeek、通义、Kimi 这些怎么选？

面试时别背版本号，记住选型口径：

选型角度	倾向哪家
Agent / 工具调用 / 长任务稳定	Claude（Anthropic）
通用 + 生态最广 + 多模态	GPT / OpenAI
超长上下文 / 多模态	Gemini
开源 + 微调研究的事实标准	LLaMA（Meta）
开源 + 推理 / 代码 / 数学	DeepSeek
中文场景 / 国内私有化	Qwen（阿里）、GLM（智谱）
中文长文档 / 阅读理解	Kimi（Moonshot）
轻量 / 边缘 / 端侧部署	Mistral / Phi / Gemma

被追问"为什么这么选"时一定要说业务场景：

我们做企业内部 Agent，链路 10 步以上，所以选 Claude，工具调用更稳；
我们做 RAG + 长文档，所以选 Kimi / Gemini，长上下文成本比切片好控；
我们做合规私有化，所以选 Qwen / DeepSeek 自部署；
我们要做学术微调实验对比开源底座，所以选 LLaMA 系；
我们要把模型塞进 IoT / 浏览器端，所以选 Phi / Gemma 这种 1B-4B 的小模型。

# 3. Token 是什么？为什么按 token 计费而不是字符？

Token 是模型实际处理的最小单元，由 tokenizer 把文本切成一串整数 id。模型从头到尾看到的都是 token id，不是字符。

按 token 计费的真正原因：模型的算力消耗和 token 数线性相关，和字符数不是。比如同一句话英文 4 token、中文可能 8 token，按字符算就不公平了。

常用换算（够你在面试里给个数）：

英文：1 token ≈ 4 字符 ≈ 0.75 个单词
中文：1 token ≈ 1.5 个汉字（不同模型差别不小）
代码：和英文接近，但符号多的语言会更碎

实战经验：估成本时给 1.3 倍 buffer，因为输入和输出都会算，且 system prompt 在多轮里会反复带。

# 4. 上下文窗口（Context Window）是什么？越大越好吗？

窗口 = 模型一次能塞进去的 token 总额 = system + 历史对话 + 当前输入 + 留给输出的预算。超过就要截断、报错或者换策略。

不是越大越好，几个反常识的点：

大窗口 ≠ 注意力均匀。模型对开头和结尾的内容关注更高，中间段容易被忽略，叫「Lost in the Middle」。
成本和延迟一起涨。1M token 上下文每次调用都极贵，而且首 token 时间会肉眼可见地变慢。
大窗口不能完全替代 RAG。把 50 篇文档全塞进去，效果通常不如 RAG 检索出最相关的 5 段塞进去。

工程上反而要主动控制：滑动窗口、摘要压缩、向量检索拼接才是常态。

# 5. Temperature、top_p、top_k、seed 这几个参数怎么调？

记住一句话：调一个就够，别全都调。最常用的是 temperature。

参数	控制什么	代码 / 抽取场景	创意 / 闲聊
temperature	整体随机性	0 - 0.3	0.7 - 1.0
top_p	截断到累计概率 p	默认 0.9 不动	同上
top_k	截断到前 k 个候选	一般不调	一般不调
seed	复现性（部分模型支持）	固定 seed + temperature=0	—

要让结果完全可复现：固定 seed + temperature=0 + top_p=1，且不要打开 streaming（部分 SDK streaming 有微差）。