15. Agentic Coding（如 Claude Code、Cursor）的工作原理是什么？和普通代码补全有什么区别？

整理 Agentic Coding 的工作原理、能力边界与工程形态。

简单回答

Agentic Coding 是指让 AI 以 Agent 方式自主完成编程任务——理解需求、规划实现方案、编写代码、执行测试、根据结果修改代码、处理文件系统操作等。普通代码补全（如 Copilot 的行内补全）只是在当前光标位置预测接下来的几行代码。核心区别在于自主性和完整性——代码补全是"你写代码它帮你补"，Agentic Coding 是"你说需求它帮你做"。

详细解释

代码补全的工作方式

传统的代码补全（如 GitHub Copilot 的 inline suggestion）工作在非常局部的层面。它看的是当前文件中光标前后的代码和注释，预测你接下来要写的几行或一段代码，然后作为建议展示。

本质上这是一个"续写"任务——给定上文，预测下文。它不理解整个项目的架构，不知道应该在哪个文件里加代码，不会去跑测试看对不对，不会根据报错信息修改代码。它的输入是"当前文件的上下文"，输出是"一段代码片段"。

代码补全的优势是快——几百毫秒出结果，不打断编码节奏。适合写重复性代码、补全函数体、生成样板代码。

Agentic Coding 的工作方式

Agentic Coding 工作在更高的抽象层面。它不是补全一行代码，而是完成一个完整的编程任务。

以 Claude Code 为例，一个典型的工作流程是：

用户用自然语言描述需求（"给这个 API 加一个分页功能，写测试用例，确保能跑通"）。

Agent 先理解需求，分析当前代码库的结构——读取相关文件、理解已有的代码组织方式、找到需要修改的位置。这个过程涉及大量的文件读取和代码理解。

Agent 制定实现计划——比如"先修改 API handler 添加分页参数，再修改数据库查询逻辑，最后写集成测试"。

Agent 逐步执行计划——写代码、修改文件、创建新文件。每一步可能涉及 Tool Calling（读文件、写文件、搜索代码库、执行命令行操作）。

Agent 执行测试——跑测试命令，看有没有报错。如果有报错，分析错误信息，修改代码，再跑测试。这个"编写→测试→修改"的循环可能迭代多次。

最终输出修改好的代码，可能涉及多个文件的创建和修改。

核心技术差异

上下文范围完全不同。 代码补全看的是一个文件的几百行上下文。Agentic Coding 要理解整个代码仓库——项目结构、模块依赖、代码风格、现有的测试体系、CI 配置等。这需要对代码库做索引和检索（类似 RAG 在代码上的应用），以及有效的上下文管理策略（代码仓库可能有几十万行代码，不可能全塞进 context window）。

多步决策和工具使用。 Agentic Coding 本质上是一个 Agent 系统——它有工具（文件读写、命令行执行、代码搜索、浏览器等），有 ReAct 式的循环（思考→行动→观察结果→继续），有规划能力。代码补全没有这些，它是单次推理。

反馈闭环。 Agentic Coding 能执行代码并获取反馈——编译错误、测试失败、运行时异常等。它根据反馈修正自己的代码，形成闭环。这是代码补全做不到的——补全生成的代码对不对，只能靠开发者自己判断。

多文件操作。 一个编程任务经常涉及多个文件的协同修改——修改了 API 定义，对应的路由、测试、文档都要同步更新。Agentic Coding 能理解这种跨文件的依赖关系，做全局性的修改。代码补全只在单文件内工作。

Cursor 和 Claude Code 的区别

Cursor 是一个 IDE（基于 VS Code），把 Agentic Coding 能力集成到了编辑器体验中。开发者在编辑器里和 AI 对话，AI 可以直接修改编辑器中的文件、在终端执行命令等。它的体验更偏"AI 增强的 IDE"。

Claude Code 是一个命令行工具（CLI），直接在终端中运行。它更接近"AI 编程助手"——你在终端里和它对话，它在后台操作文件系统和执行命令。不依赖特定的 IDE，更灵活但也更"原始"。

两者底层的 Agent 架构是类似的——都是 LLM + 工具（文件操作、命令执行、代码搜索等）+ ReAct 循环。

Agentic Coding 的挑战

代码库理解是最大的挑战。大型代码库几十万行代码，Agent 需要高效地找到相关代码而不是把整个仓库塞进上下文。这涉及代码索引、依赖分析、以及针对代码的 RAG 系统。

安全性也是核心关注点。Agent 有文件写入和命令执行权限，如果出错可能破坏代码库。需要在沙箱环境中运行、提供 undo 机制、在执行高风险操作前确认。

可靠性仍然是短板。对于简单任务 Agentic Coding 效果很好，但对于涉及复杂业务逻辑、隐含上下文知识的任务，成功率会明显下降。SWE-bench 上目前最好的 Agent 解决率也不到 50%。

面试时可以这样答

Agentic Coding 和代码补全是两个层面的东西。代码补全是在光标位置续写几行代码，看的是当前文件的上下文，单次推理，没有反馈闭环。Agentic Coding 是一个 Agent 系统——理解整个代码仓库、规划实现方案、多文件编写修改、执行测试、根据报错迭代修改，完成一个完整的编程任务。
核心技术差异有几点。上下文范围——补全看一个文件几百行，Agentic Coding 要理解整个代码库。多步决策——Agentic Coding 是 ReAct 循环，有规划、有工具调用、有反馈闭环。多文件操作——一个任务可能涉及 API、路由、测试、文档多处同步修改。
以 Claude Code 为例，工作流程是：理解需求 → 分析代码库结构 → 制定计划 → 逐步执行（读写文件、运行命令）→ 执行测试 → 根据反馈修改 → 迭代直到通过。本质上就是一个有代码操作工具的 Agent。
挑战主要在代码库理解（大型仓库怎么高效检索相关代码）、安全性（Agent 有写文件和执行命令的权限）、以及可靠性——目前在复杂任务上成功率还不够高。

常见追问

Agentic Coding 对代码库做索引和检索的具体方式是什么？
Claude Code 和 Cursor 在架构上有什么异同？
Agentic Coding 在什么类型的编程任务上效果最好？什么类型最差？

14. Structured Output / 结构化输出在 Agent 中为什么重要？怎么保证输出格式？

01. 什么是 RAG？它主要解决了什么问题？