LLM 到 Agent Harness:从聊天模型到工程基础设施的演进时间线
按演进主线梳理 LLM、工具调用、Agent 与 Harness 基础设施的发展脉络。
LLM 到 Agent Harness:从聊天模型到工程基础设施的演进时间线
这条时间线不是普通的 LLM 大事年表,更准确说,它关注的是一个更窄也更关键的问题:
“LLM 从聊天模型 → 编程助手 → 工具调用 → Agent → Agent Harness 基础设施”的演进时间线。
换句话说,这篇不是按模型参数、榜单分数或发布会热度来排,而是看一件事:
模型是怎样一步步从“会回答”,走到“能进入真实环境里做事”的。
有几个节点更像“演进口径”,不一定是严格发布日期。下面会按主线整理,同时把容易混淆的时间点顺手校正。
一、先给结论:这条时间线的主线是什么?
它讲的其实是这条路线:
一句话概括:
LLM 先学会“回答”,再学会“写代码”,再学会“调用工具”,最后开始变成能在真实软件环境、个人入口和企业流程里执行任务的 Agent。
二、详细时间表
1. 2021 年 6 月:GitHub Copilot —— LLM 进入编辑器
| 项目 | 内容 |
|---|---|
| 代表事件 | GitHub Copilot 技术预览 |
| 代表形态 | VS Code 编辑器插件 |
| 核心能力 | 根据当前代码上下文,自动补全代码、函数、注释 |
| 技术意义 | LLM 第一次大规模进入开发者日常工作流 |
| 阶段定位 | 编辑器辅助阶段 |
GitHub 在 2021 年 6 月发布 Copilot 技术预览,官方称其为 “AI pair programmer”,由 OpenAI Codex 驱动,可以根据代码上下文生成整行或整个函数。(The GitHub Blog)
这个阶段的 LLM 还不是 Agent,它更像:
你写代码 → 它补全代码
它不会主动规划任务,也不会自己跑命令、改多个文件、看报错再修复。
工程价值:
-
降低重复代码编写成本
-
提高样板代码生成效率
-
开始让开发者相信:AI 可以参与编程
局限:
-
主要是补全,不是完整任务执行
-
不理解完整项目目标
-
不具备终端、浏览器、文件系统操作能力
2. 2022 年 12 月:ChatGPT —— 对话式 LLM 爆发
| 项目 | 内容 |
|---|---|
| 代表事件 | ChatGPT 发布 |
| 代表形态 | 聊天服务 |
| 核心能力 | 对话、解释、总结、翻译、写作、代码问答 |
| 技术意义 | LLM 从开发者工具变成大众产品 |
| 阶段定位 | 对话式 LLM 阶段 |
OpenAI 在 2022 年 11 月 30 日发布 ChatGPT,基于 GPT-3.5 系列模型微调而来。(OpenAI)
这个节点非常关键,因为它把 LLM 的交互方式变成了:
自然语言输入 → 自然语言输出
以前 AI 工具往往需要按钮、表单、API、配置。ChatGPT 让普通人直接用一句话完成任务:
帮我总结这篇文章
帮我写一封邮件
解释这段代码
把这个方案整理成表格
技术意义:
-
Prompt 成为新的交互界面
-
LLM 从“模型能力”变成“产品体验”
-
人们开始意识到:语言本身可以成为软件入口
但这时还没真正 Agent 化:
ChatGPT 主要还是回答问题,不能稳定地:
-
操作真实软件
-
长时间执行任务
-
调用多个工具
-
自己检查结果
3. 2023 年 3 月 / 6 月:GPT-4 + Function Calling —— 从聊天到工具调用
| 项目 | 内容 |
|---|---|
| 代表事件 | GPT-4 发布;OpenAI API 支持 Function Calling |
| 代表形态 | API / 函数调用 |
| 核心能力 | 让模型选择结构化函数调用参数 |
| 技术意义 | LLM 开始连接外部系统 |
| 阶段定位 | 工具调用编排阶段 |
GPT-4 在 2023 年 3 月发布,是一个大规模多模态模型,可以接受图像和文本输入,并在多项专业考试和基准任务上表现明显强于 GPT-3.5。(OpenAI)
随后 OpenAI 在 2023 年 6 月发布 Function Calling API,让模型可以输出结构化函数调用参数,从而连接外部工具、数据库和业务系统。(OpenAI)
这一步非常重要。
以前模型只能说:
明天东京可能是晴天。
Function Calling 后,模型可以变成:
{
"function": "get_weather",
"arguments": {
"city": "Tokyo",
"date": "tomorrow"
}
}
也就是说,LLM 不只是“生成文本”,而是开始成为:
自然语言 → 工具调用 → 外部结果 → 再生成答案
这就是后来 Agent 的底层前提。
工程意义:
-
可以接数据库
-
可以接搜索
-
可以接企业 API
-
可以接订单、工单、知识库、告警系统
-
可以把 LLM 放进真实业务流程
4. 2023 年 11 月:Claude 2.1 —— 长上下文 + Tool Use
| 项目 | 内容 |
|---|---|
| 代表事件 | Claude 2.1 发布 |
| 代表形态 | 长上下文模型 |
| 核心能力 | 200K token 上下文、工具使用能力 |
| 技术意义 | LLM 可以处理更长资料,并结合工具执行任务 |
| 阶段定位 | 长上下文工具交互阶段 |
如果按“长上下文 + 工具使用被明确产品化”的口径看,Claude 2.1 是一个很适合放进这条线的节点。Anthropic 在 2023 年 11 月发布 Claude 2.1,强调它支持 200K token 上下文,并支持开发者定义工具,让 Claude 决定什么时候调用函数/API、搜索网页或检索私有知识库。(Anthropic)
这个阶段解决了两个大问题:
第一,模型能读更长内容
以前模型上下文短,读不了完整项目、完整文档、长合同、长代码库。
200K 上下文意味着它可以一次性看到:
-
长篇技术文档
-
多个源码文件
-
长会议记录
-
大型知识库片段
-
复杂需求说明书
第二,模型能结合工具工作
这让 LLM 进一步接近 Agent:
用户任务
↓
模型理解
↓
决定是否调用工具
↓
读取外部结果
↓
继续推理
↓
输出答案
这一步的关键词是:
上下文变长,工具变多,任务变复杂。
5. 2024 年 3 月:Devin —— “AI 软件工程师”概念出圈
| 项目 | 内容 |
|---|---|
| 代表事件 | Cognition 发布 Devin |
| 代表形态 | 自治软件工程师 |
| 核心能力 | 规划任务、写代码、运行命令、浏览网页、修复错误 |
| 技术意义 | LLM 从“代码助手”升级为“软件任务执行者” |
| 阶段定位 | 自治软件工程师阶段 |
Devin 的公开出圈时间更准确地说是 2024 年 3 月。Cognition 在当月介绍 Devin,称它可以规划和执行复杂工程任务,并配有 shell、代码编辑器和浏览器等开发工具环境。(Cognition)
Devin 的意义不在于它一定完美,而在于它提出了一个新范式:
以前:AI 帮你写一段代码
Devin:AI 尝试完成一个工程任务
例如:
修复这个 bug
实现这个 feature
跑测试
查看报错
修改代码
再次运行
提交结果
这就是 Agent 和 Copilot 最大的区别。
| 类型 | 特点 |
|---|---|
| Copilot | 局部补全 |
| ChatGPT | 对话生成 |
| Devin | 多步骤工程执行 |
| Agent | 规划 + 工具 + 反馈循环 |
Devin 把大家的注意力从“模型有多强”转向了:
模型之外,还需要完整的执行环境。
也就是后面说的 Agent Harness。
6. 2024 年 8 月 - 2025 年初:Cursor —— IDE 原生 Agent 化
| 项目 | 内容 |
|---|---|
| 代表事件 | Cursor Composer / Agent 演进 |
| 代表形态 | AI 原生 IDE |
| 核心能力 | 多文件编辑、上下文检索、终端调用、自动修复 |
| 技术意义 | Agent 被嵌入开发者 IDE 工作流 |
| 阶段定位 | IDE 原生 Agent 阶段 |
Cursor 在 2024 年 8 月左右让 Composer 默认面向 Pro/Business 用户开放,后续逐步增强多文件编辑和上下文能力。(Cursor)
到 2024 年 11 月,Cursor changelog 里已经提到 Composer 中早期版本 Agent 可以自己选择上下文并使用终端。(Cursor)
到 2025 年 2 月,Cursor 进一步把 Agent 作为默认模式,统一 Chat、Composer 和 Agent 体验。(Cursor)
这个阶段非常贴近日常开发者真正会用的 “AI 编程工具”:
用户提出任务
↓
Agent 读取项目上下文
↓
修改多个文件
↓
运行终端命令
↓
读取错误
↓
继续修复
它比 Devin 更贴近日常开发:
-
Devin 更像云端软件工程师
-
Cursor 更像你 IDE 里的副驾驶升级成了执行助手
这一步的关键变化是:
AI 不再只是聊天窗口,而是进入 IDE 的主工作区。
7. 2024 年 10 月 / 2025 年 2 月:Computer Use —— GUI 操作能力出现
| 项目 | 内容 |
|---|---|
| 代表事件 | Anthropic Computer Use |
| 代表形态 | GUI / 屏幕操作 Agent |
| 核心能力 | 看屏幕、移动鼠标、点击、输入文字 |
| 技术意义 | LLM 可以操作普通图形界面 |
| 阶段定位 | GUI Agent 阶段 |
Computer Use 常被放在 2025 年前后的 Agent 浪潮里讨论,但它的 public beta 实际在 2024 年 10 月就已经出现。Anthropic 当时表示 Claude 3.5 Sonnet 可以像人一样通过屏幕、光标、点击和键盘输入来使用电脑,但这个能力仍处于实验阶段。(Anthropic)
这个能力很重要,因为现实世界大量软件没有 API:
-
企业后台
-
旧系统
-
表单页面
-
管理端
-
浏览器网页
-
本地桌面软件
Function Calling 解决的是:
模型调用 API
Computer Use 解决的是:
模型操作 GUI
这意味着 Agent 不再只能调用你写好的接口,而是可以:
打开网页 → 看页面 → 点击按钮 → 填表单 → 提交 → 读取结果
这一步其实让 Agent 更接近 RPA,但比传统 RPA 更灵活。
| 传统 RPA | GUI Agent |
|---|---|
| 靠固定脚本 | 靠视觉和语言理解 |
| 页面变化容易坏 | 有一定适应能力 |
| 流程死板 | 可以动态决策 |
| 需要人工配置规则 | 可以自然语言下达任务 |
8. 2024 年 11 月:MCP —— Agent 工具连接标准化
| 项目 | 内容 |
|---|---|
| 代表事件 | Anthropic 发布 Model Context Protocol |
| 代表形态 | 协议标准 |
| 核心能力 | 统一连接工具、数据源、业务系统 |
| 技术意义 | 避免每个 Agent 重复造连接器 |
| 阶段定位 | Agent 基础设施标准化阶段 |
Anthropic 在 2024 年 11 月发布并开源 MCP,即 Model Context Protocol,用来标准化 AI 助手和数据源、业务工具、开发环境之间的连接方式。(Anthropic)
MCP 解决的是一个很工程化的问题:
每个模型 × 每个工具
如果没有标准,每个组合都要单独适配:
Claude 接 GitHub
Claude 接 Postgres
Claude 接 Jira
ChatGPT 接 GitHub
ChatGPT 接 Postgres
Cursor 接 GitHub
Cursor 接数据库
……
MCP 想把它变成:
Agent Client ←→ MCP Server ←→ 外部工具 / 数据源
这就像 Agent 世界里的 “USB-C”。
它的意义不是模型更聪明,而是生态更容易接起来。
9. 2025 年 2 月 / 5 月:Claude Code —— 终端里的 Coding Agent
| 项目 | 内容 |
|---|---|
| 代表事件 | Claude Code 预览 / GA |
| 代表形态 | 终端 Agent |
| 核心能力 | 读文件、改代码、运行命令、处理 Git 工作流 |
| 技术意义 | Agent 进入命令行与真实工程环境 |
| 阶段定位 | 终端 Agent 阶段 |
Anthropic 在 2025 年 2 月发布 Claude 3.7 Sonnet 时,也预览了 Claude Code。Reuters 报道中提到,Anthropic 同时推出 Claude Code 预览,定位为面向开发者的 AI 编程助手。(Reuters)
之后 Claude Code 在 2025 年 5 月进入一般可用阶段。Anthropic 后续资料也提到 Claude Code 从内部工程实验成长为重要开发工具。(Anthropic)
Claude Code 的关键点是:
它不只是聊天。
它能进入你的项目目录,读文件、改文件、运行命令。
更像这样:
claude "帮我修复登录接口的测试失败"
然后它可能会:
-
查看项目结构
-
读取相关代码
-
找测试文件
-
运行测试
-
分析报错
-
修改代码
-
再跑测试
-
总结改动
这就是比较完整的 Coding Agent Loop。
10. 2025 年 4 月 / 5 月:OpenAI Codex CLI / Codex Cloud —— OpenAI 进入编码 Agent 战场
| 项目 | 内容 |
|---|---|
| 代表事件 | Codex CLI 开源;Codex Cloud 发布 |
| 代表形态 | 本地终端 Agent / 云端软件工程 Agent |
| 核心能力 | 读代码、改代码、运行代码、生成 PR |
| 技术意义 | 编码 Agent 开始形成平台竞争 |
| 阶段定位 | 本地 + 云端 Coding Agent 阶段 |
OpenAI 的 Codex CLI 是本地运行的编码 Agent,官方 GitHub 仓库介绍它可以在本机运行。(GitHub)
OpenAI 也在 2025 年 5 月发布 Codex 云端研究预览版,称其可以并行执行多个软件工程任务,例如写功能、回答代码库问题、修 bug、提出 PR,每个任务运行在独立云端沙箱中。(OpenAI)
这一步和 Claude Code 很像,但形态分成两类:
| 形态 | 代表 |
|---|---|
| 本地终端 Agent | Codex CLI / Claude Code |
| 云端工程 Agent | Codex Cloud / Devin |
| IDE Agent | Cursor / Windsurf |
| 浏览器 Agent | Computer Use / Browser Agent |
这个阶段的竞争重点已经不是单纯“谁的模型强”,而是:
-
谁的上下文管理更好
-
谁的工具调用更稳
-
谁的权限控制更安全
-
谁的代码修改更可靠
-
谁的沙箱和回滚机制更完善
11. 2025 年末 - 2026 年初:OpenClaw —— 个人 Agent 控制平面爆火
| 项目 | 内容 |
|---|---|
| 代表事件 | OpenClaw 从开源项目变成开发者社区热点 |
| 代表形态 | 本地运行的个人 Agent 助手 / Gateway |
| 核心能力 | 多渠道接入、长期运行、工具调用、文件记忆、浏览器与系统操作 |
| 技术意义 | Agent 从 IDE 和终端扩展到个人日常入口 |
| 阶段定位 | 个人 Agent 控制平面阶段 |
如果说 Claude Code、Codex CLI 主要让 Agent 进入“工程目录”,OpenClaw 的爆火则把另一个问题推到了台前:
Agent 能不能不只待在 IDE、终端或网页聊天框里,
而是接到 WhatsApp、Telegram、Slack、飞书、微信、定时任务和本地设备上?
公开报道通常把 OpenClaw 的起点追溯到 2025 年 11 月,随后它在 2026 年初迅速成为开发者社区的热门开源 Agent 项目。TechTarget 的报道提到,OpenClaw 在 2025 年 11 月首次亮相,并在 2026 年 2 月初已经积累到很高的 GitHub star 量级。(TechTarget)
OpenClaw 真正让人兴奋的地方,不是“它又发明了一个新模型”,而是它把 Agent 包在一个更贴近个人使用场景的运行时里:
聊天入口 / 定时任务 / 设备节点
↓
OpenClaw Gateway
↓
Agent Session
↓
Workspace + Memory + Tools + Skills
↓
执行动作 / 返回消息
官方 GitHub README 把 OpenClaw 描述成运行在自己设备上的个人 AI 助手,并强调它可以接入用户已经在用的消息渠道;OpenClaw 文档里的 workspace 设计,也把 AGENTS.md、SOUL.md、TOOLS.md、memory/、skills/ 这类文件组织成 Agent 的长期上下文和能力边界。(GitHub) (OpenClaw Docs)
这就是它和 Coding Agent 的差别:
| 类型 | 更关心什么 |
|---|---|
| Claude Code / Codex CLI | 怎么在代码库里完成工程任务 |
| Cursor Agent | 怎么在 IDE 里协助开发者持续修改 |
| OpenClaw | 怎么让 Agent 从多个个人入口被唤起,并长期接管一些日常数字任务 |
所以 OpenClaw 的爆火,其实标志着 Agent 叙事从“能不能写代码”继续往外扩了一圈:
能不能成为一个常驻的个人数字助理?
能不能跨聊天工具、浏览器、本地文件和定时任务执行?
能不能把记忆、身份、工具和技能长期沉淀在本地 workspace 里?
但也正因为它离个人真实环境太近,OpenClaw 暴露的问题会更尖锐:
-
成本不透明:一次简单消息背后可能带出长提示词、记忆检索和多轮工具调用
-
权限敏感:它可能接触文件、消息、浏览器、Shell 和外部账号
-
记忆复杂:长期记忆如果缺少分层、过期和人工整理,容易从“懂你”变成“误记你”
-
安全边界更难:入口越多,提示词注入、误操作和数据外泄风险越需要被运行时治理
因此,OpenClaw 不是单纯多了一个热门开源项目。它更像 2025 年末到 2026 年初 Agent 领域的一次集体提醒:
当 Agent 真的开始接入个人入口和本地环境,Harness 就不再是抽象架构词,而是成本、安全、权限、记忆和治理的现实问题。
12. 2025 年 - 2026 年:Claude Code + MCP —— 终端 Agent 接入外部工具
| 项目 | 内容 |
|---|---|
| 代表事件 | Claude Code 支持 MCP |
| 代表形态 | 终端 Agent + 工具协议 |
| 核心能力 | 连接数据库、API、Issue 系统、监控系统等 |
| 技术意义 | Coding Agent 从“项目内执行”扩展到“跨系统执行” |
| 阶段定位 | Agent 工具生态阶段 |
Claude Code 文档显示,它可以通过 MCP 连接外部工具和数据源,MCP Server 可以给 Claude Code 提供工具、数据库和 API 访问能力。(Claude)
这让 Claude Code 不再只是:
读本地代码 → 改本地代码
而是可以变成:
读 GitHub Issue
查数据库
看监控告警
读日志
改代码
跑测试
提交 PR
这就是 Agent 真正进入企业工作流的关键。
13. 2026 年 3 月:Claude Code 源码泄露事件 —— Agent Harness 被社区研究
| 项目 | 内容 |
|---|---|
| 代表事件 | Claude Code 源码因 sourcemap 意外泄露 |
| 代表形态 | 社区逆向分析 Agent Harness |
| 核心能力 | 观察真实 Coding Agent 的运行时设计 |
| 技术意义 | Agent Harness 成为显性工程问题 |
| 阶段定位 | Agent Harness 工程化审查阶段 |
这里要特别纠正图里的说法:
这不是“源代码开源”,而是一次意外泄露。
2026 年 3 月 31 日,Claude Code 的 npm 包中因为 source map 文件问题,意外暴露了大量 TypeScript 源码。Zscaler 的安全研究文章称,这次泄露涉及 @anthropic-ai/claude-code 包中的 sourcemap 文件,暴露了 Claude Code 的完整源代码内容。(Zscaler)
这件事之所以对 Agent 领域影响大,是因为社区第一次可以较系统地观察一个成熟 Coding Agent 的真实工程结构,比如:
-
工具调用系统
-
上下文压缩
-
任务循环
-
权限确认
-
Shell 执行
-
文件修改
-
Git 操作
-
Prompt 组织
-
状态管理
-
错误恢复
-
子任务拆分
这就把一个概念推到了台前:
Agent 的核心不只是模型,而是 Harness。
三、什么是 Agent Harness?
这里不再重新展开一遍 Harness 的完整定义,详细解释可以回到 [[04.如何让Agent更好干活-Harness#三、Harness 到底是什么|前文的 Harness 介绍]]。
在这条时间线里,只需要先记住一句话:
把 LLM 包装成一个能稳定执行任务的运行时系统。
模型本身只是“大脑”,Harness 是身体、工具箱、安全带、记忆、权限系统和工作流管理器。它把模型、上下文、工具、权限、状态、验证和恢复机制组织到同一条任务循环里。
所以 2026 年之后,大家开始讨论的就不只是:
模型会不会写代码?
而是:
怎样让模型可靠、安全、可控地完成工程任务?
四、按阶段重新归纳
阶段 1:编辑器辅助
代表:GitHub Copilot
AI 在你旁边补代码
核心能力:
-
单文件上下文
-
代码补全
-
函数生成
-
注释生成代码
问题:
-
不会主动执行任务
-
不会跑测试
-
不会自己修复错误
阶段 2:聊天助手
代表:ChatGPT
AI 通过对话帮你解释、总结、写代码
核心能力:
-
问答
-
写作
-
解释代码
-
生成代码片段
问题:
-
和真实开发环境脱节
-
不能直接操作文件
-
不能自动验证结果
阶段 3:工具调用
代表:GPT-4 Function Calling、Claude Tool Use
AI 可以调用外部函数和系统
核心能力:
-
API 调用
-
数据库查询
-
搜索
-
私有知识库检索
-
业务系统连接
问题:
-
工具需要开发者提前定义
-
每套系统都要单独接
-
权限和安全复杂
阶段 4:自治软件工程师
代表:Devin
AI 尝试完成完整工程任务
核心能力:
-
规划
-
写代码
-
浏览网页
-
运行命令
-
修 bug
-
长任务执行
问题:
-
成本高
-
成功率不稳定
-
难以完全信任
-
需要强沙箱和权限控制
阶段 5:IDE 原生 Agent
代表:Cursor
AI 成为 IDE 内的任务执行者
核心能力:
-
多文件编辑
-
项目级上下文
-
终端调用
-
lint/test 反馈
-
自动修复
优势:
-
贴近日常开发
-
人可以随时介入
-
修改可视化
-
比纯云端 Agent 更可控
阶段 6:GUI / Browser Agent
代表:Computer Use
AI 能像人一样操作界面
核心能力:
-
看屏幕
-
点按钮
-
输入文字
-
操作网页
-
填表单
-
执行浏览器任务
意义:
-
解决没有 API 的系统
-
连接传统 GUI 软件
-
接近自动化办公/RPA
阶段 7:终端 Agent + MCP
代表:Claude Code、Codex CLI、MCP
AI 在终端和外部工具之间执行任务
核心能力:
-
读代码
-
改代码
-
跑测试
-
调 shell
-
连数据库
-
连 GitHub/Jira/监控系统
-
通过 MCP 扩展工具生态
意义:
-
Agent 开始成为开发基础设施
-
工具连接标准化
-
企业可以构建自己的 Agent 工具链
阶段 8:个人 Agent 控制平面
代表:OpenClaw
AI 从 IDE 和终端走向个人日常入口
核心能力:
-
接入聊天工具
-
通过 Gateway 唤起 Agent
-
使用本地 workspace 承载身份、规则、记忆和技能
-
定时触发任务
-
调用浏览器、文件、Shell 和外部服务
意义:
-
Agent 不再只服务工程任务,也开始进入个人数字生活
-
“入口、记忆、权限、成本、安全边界”变成用户真正能感受到的问题
-
个人 Agent 的 Harness 问题被提前暴露出来
五、这条时间线最核心的洞察
它真正想表达的是:
LLM 的发展,不是从 GPT-3 到 GPT-4 这么简单。
而是从“生成文本”一路走向“接入环境并执行任务”。
更准确的演进是:
| 年份 | 关键词 | 本质变化 |
|---|---|---|
| 2021 | Copilot | LLM 进入编辑器 |
| 2022 | ChatGPT | LLM 进入大众对话 |
| 2023 | GPT-4 / Function Calling | LLM 开始调用工具 |
| 2023 | Claude 2.1 | 长上下文 + 工具使用 |
| 2024 | Devin | 软件工程任务自治化 |
| 2024-2025 | Cursor Agent | IDE 工作流 Agent 化 |
| 2024-2025 | Computer Use | GUI 操作 Agent 化 |
| 2024-2025 | MCP | 工具连接协议化 |
| 2025-2026 | Claude Code / Codex | 终端 Coding Agent 成熟 |
| 2025-2026 | OpenClaw | 个人 Agent 控制平面爆火 |
| 2026 | Harness Engineering | Agent 运行时工程化 |
六、最终版一句话总结
这条时间线可以总结成:
LLM 的发展正在从“会说话的模型”,变成“能接工具、能看环境、能操作系统、能跑代码、能进入个人入口并完成任务的 Agent 系统”。
如果按开发者视角说得更直接一点:
未来竞争的重点,不只是模型参数和推理能力,而是 Agent Harness:上下文管理、工具协议、沙箱执行、权限控制、状态记忆、成本约束、结果验证和失败恢复。