前一篇写了《谈谈openClaw》,其实除了openClaw,对于初学者来说还有像agent, skill,MCP, Planning Code等名词,或很多人其实只知道名字,但不知道它们在 AI 技术体系里的位置。今天帮大家把这些概念全部讲清楚,并且告诉你它们之间的关系。
AI 技术栈
如果把 AI 应用看成一个完整系统,大致可以分成 5 层结构:
AI应用 :最终产品
↑
AI Agent(智能体):行动能力
↑
Skill / MCP :工具
↑
推理与规划(Planning / Reasoning):思考能力
↑
大模型(LLM):大脑
AI 应用架构示例, 如用户说:
帮我分析这个 GitHub 项目
AI 系统执行流程:
LLM 理解任务
↓
Planning 拆解任务
↓
Agent 执行任务
↓
MCP 访问 GitHub
↓
Skill 读取代码
↓
生成报告
大模型(LLM)
LLM(Large Language Model) 是整个 AI 体系的核心。
常见的大模型包括:
| 模型 | 公司 |
|---|---|
| GPT 系列 | OpenAI |
| Claude | Anthropic |
| Gemini | |
| Llama | Meta |
| Qwen | 阿里 |
| DeepSeek | 深度求索 |
这些模型主要能力:
- 自然语言理解
- 写代码
- 逻辑推理
- 知识问答
- 多模态(图像 / 视频 / 语音)
AI Agent(智能体)
AI Agent 可以理解为:一个可以自己思考、调用工具、执行任务的 AI 程序。
Agent 的本质就是:LLM + Planning + Tools
当前主流 AI Agent 可以分为三类:
| 类型 | 代表 |
|---|---|
| Agent框架 | LangChain、AutoGen、CrewAI、openClaw、LlamaIndex |
| 自动Agent | AutoGPT、BabyAGI、MetaGPT |
| 产品化Agent | Devin、OpenAI Assistants、Project Astra、Kimi Agent Builder |
Planning(规划能力)
Planning 就是AI 在执行任务前,先把复杂问题拆成多个步骤。Planning Code 是一种比较新的 AI 编程模式,AI 先生成执行计划,再一步步写代码并执行。
Planning Code:
用户需求
↓
AI生成计划
↓
AI逐步写代码
↓
执行
↓
修复错误
↓
继续
这类系统通常叫:Code Agent
Claude Code 是 Anthropic 推出的 AI 编程代理工具。
它的特点是:
- 直接在终端运行
- 能理解整个代码仓库
- 自动写代码、修改代码、运行测试
核心能力:
读取代码
修改文件
运行命令
提交修改
Agent Skill(技能)
在 Agent 系统中,Skill = AI 可以调用的能力模块
一个 Agent 可以有很多 Skill:
| Skill | 功能 |
|---|---|
| Search | 搜索互联网 |
| Python | 执行 Python |
| Browser | 打开网页 |
| File | 读写文件 |
| Database | 查询数据库 |
| 发送邮件 |
MCP(Model Context Protocol)
MCP 的目标是让 AI 可以标准化地连接各种工具和数据源。可以理解为:AI 世界的 USB 接口。
AI 可以通过 MCP 连接:
- GitHub
- Notion
- Google Drive
- 数据库
- 本地文件
结构类似:
LLM
↓
MCP Client
↓
MCP Server
↓
各种工具
以前每个 AI 工具都要自己写插件。现在只要支持 MCP:所有 AI 都可以使用同一套工具。
目前支持 MCP 的生态:
- Claude
- Cursor
- 一些 Agent 框架
Token
Token 是模型处理文本时的最小单位。AI 读文字时,不是按“字”或“单词”,而是按 Token 来计算和理解, Token = 文本被模型拆分后的单位.
大模型本质是数学模型,它不能直接理解:
- 字符
- 单词
- 句子
必须先把文本转换成 数字序列。
流程大概是:
文字
↓
Token
↓
数字ID
↓
模型计算
例如:
Hello → token 15496
world → token 995
模型看到的是:
[15496, 995]
很多 AI 服务收费是 按 token 计算的。模型计算量基本和 token 数量成正比。
Token 和字数的关系
大致可以这样估算:
| 文本 | 约等于 Token |
|---|---|
| 1个英文单词 | 1 token |
| 1个中文汉字 | 1–2 token |
| 1000英文词 | ~750 token |
| 1000中文字符 | ~1000–2000 token |
现在有什么技术可以节约大模型的TOKEN
在使用大模型(LLM)时,Token 成本和上下文长度是两个核心问题。很多公司和开发者都会想办法 减少 Token 使用量,目前业界主要有 节约 Token 的技术方法。核心原则是只给模型最必要的信息,按从简单到高级给你讲清楚。
- Prompt 压缩(Prompt Compression): 减少原始prompt中的非关键字
- 上下文裁剪(Context Truncation):只保留最近的N条对话
- 对话摘要(Conversation Summarization):把上文的内容总结,发送摘要
- RAG 检索(只发送相关内容):不要把 所有知识发给模型,只发送 相关内容
- 结构化 Prompt(减少冗余文本): 生成如json等结构化数据
- 小模型预处理(Two-Stage Model) : 用户输入再小模型处理转大模型生成。
- Prompt模板复用: 对于反复使用的同一个prompt,可以在存模板,只传变量
- mbedding + 向量检索: 把文档转换成 向量,存入向量数据库, 查询时只检索相关内容,不发送全部
- 缓存(Prompt Cache):两次请求类似,直接返回缓存结果,不再调用模型。
现在有些公司开始研究 “Token-Free LLM”(无Token模型),这可能会彻底改变大模型架构。目前主流的大模型(如 ChatGPT、Claude、Gemini)仍然是 Token-based LLM,也就是依赖 token 进行训练和推理。
Token-Free LLM
传统 LLM 的流程是:
文本
↓
tokenization(分词)
↓
token序列
↓
模型计算
Token-Free LLM 的目标是:
文本
↓
直接处理字符 / 字节 / 概念
↓
模型计算
Transformer 架构依赖 token. Transformer 的训练方式就是:预测下一个 token. 真正的 Token-Free LLM 还没有进入主流商业产品。
大语言模型、 多模态模型、物理模型、世界模型
可以把 大语言模型、 多模态模型、物理模型、世界模型 看成 AI能力逐层增强的四个阶段。它们的核心区别在于:模型理解世界的深度不同。
| 类型 | 核心能力 | 主要输入 | 是否理解现实世界 |
|---|---|---|---|
| 大语言模型 | 语言理解和生成 | 文本 | 很弱 |
| 多模态模型 | 同时理解文本、图像、音频等 | 文本+图像+音频等 | 有一点 |
| 物理模型 | 理解现实世界物理规律 | 视频/交互 | 中等 |
| 世界模型 | 在内部模拟世界并预测未来 | 多模态+时间序列 | 很强 |
AI发展的一个典型路线
语言模型
↓
多模态模型
↓
理解不同信息物理模型
↓
理解现实规律世界模型
↓
在脑中模拟世界
现在几乎所有 AI(包括 ChatGPT)本质还是:
大语言模型 + 多模态能力
Transformer和State Space Model(状态空间模型)
Transformer 的核心瓶颈:Attention 复杂度,Transformer 的核心机制是 Self-Attention(自注意力)。
它的计算复杂度是:
O(n²)
意思是:
| token数量 | 计算量 |
|---|---|
| 1000 | 100万 |
| 10000 | 1亿 |
| 100000 | 100亿 |
也就是说:
输入越长,计算量是 平方增长。
SSM 的计算复杂度:
O(n)
也就是 线性增长。
举个简单对比:
| 序列长度 | Transformer | SSM |
|---|---|---|
| 1k | 1M计算 | 1k计算 |
| 10k | 100M | 10k |
| 100k | 10B | 100k |
所以在 超长序列任务里,SSM理论上更高效。
Transformer 推理有个问题:
生成一个 token 时需要重新计算 attention。
而 SSM 的结构更像 RNN:
一步一步更新状态
所以推理延迟更低, SSM更适合之前提到过 Token-Free LLM。
未来可能的方向:混合架构 Transformer + SSM
短上下文 → Transformer
长上下文 → SSM