学习AI(二):关于AI名词

前一篇写了《谈谈openClaw》,其实除了openClaw,对于初学者来说还有像agent, skill,MCP, Planning Code等名词,或很多人其实只知道名字,但不知道它们在 AI 技术体系里的位置。今天帮大家把这些概念全部讲清楚,并且告诉你它们之间的关系。

AI 技术栈

如果把 AI 应用看成一个完整系统,大致可以分成 5 层结构

AI应用 :最终产品
↑
AI Agent(智能体):行动能力
↑
Skill / MCP :工具
↑
推理与规划(Planning / Reasoning):思考能力
↑
大模型(LLM):大脑

AI 应用架构示例, 如用户说:

帮我分析这个 GitHub 项目

AI 系统执行流程:

LLM 理解任务

Planning 拆解任务

Agent 执行任务

MCP 访问 GitHub

Skill 读取代码

生成报告

大模型(LLM)

LLM(Large Language Model) 是整个 AI 体系的核心。

常见的大模型包括:

模型公司
GPT 系列OpenAI
ClaudeAnthropic
GeminiGoogle
LlamaMeta
Qwen阿里
DeepSeek深度求索

这些模型主要能力:

  • 自然语言理解
  • 写代码
  • 逻辑推理
  • 知识问答
  • 多模态(图像 / 视频 / 语音)

AI Agent(智能体)

AI Agent 可以理解为:一个可以自己思考、调用工具、执行任务的 AI 程序。

Agent 的本质就是:LLM + Planning + Tools

当前主流 AI Agent 可以分为三类:

类型代表
Agent框架LangChain、AutoGen、CrewAI、openClaw、LlamaIndex
自动AgentAutoGPT、BabyAGI、MetaGPT
产品化AgentDevin、OpenAI Assistants、Project Astra、Kimi Agent Builder
不同于低代码平台,同样的产品如Dify、Coze、腾讯元器

Planning(规划能力)

Planning 就是AI 在执行任务前,先把复杂问题拆成多个步骤。Planning Code 是一种比较新的 AI 编程模式,AI 先生成执行计划,再一步步写代码并执行。

Planning Code:

用户需求

AI生成计划

AI逐步写代码

执行

修复错误

继续

这类系统通常叫:Code Agent

Claude Code 是 Anthropic 推出的 AI 编程代理工具

它的特点是:

  • 直接在终端运行
  • 能理解整个代码仓库
  • 自动写代码、修改代码、运行测试

核心能力:

读取代码
修改文件
运行命令
提交修改

Agent Skill(技能)

在 Agent 系统中,Skill = AI 可以调用的能力模块

一个 Agent 可以有很多 Skill:

Skill功能
Search搜索互联网
Python执行 Python
Browser打开网页
File读写文件
Database查询数据库
Email发送邮件
当 AI 执行任务时:思考 → 选择 Skill → 执行

MCP(Model Context Protocol)

MCP 的目标是让 AI 可以标准化地连接各种工具和数据源。可以理解为:AI 世界的 USB 接口。

AI 可以通过 MCP 连接:

  • GitHub
  • Notion
  • Google Drive
  • 数据库
  • 本地文件

结构类似:

LLM

MCP Client

MCP Server

各种工具

以前每个 AI 工具都要自己写插件。现在只要支持 MCP:所有 AI 都可以使用同一套工具。

目前支持 MCP 的生态:

  • Claude
  • Cursor
  • 一些 Agent 框架

Token

Token 是模型处理文本时的最小单位。AI 读文字时,不是按“字”或“单词”,而是按 Token 来计算和理解, Token = 文本被模型拆分后的单位.

大模型本质是数学模型,它不能直接理解:

  • 字符
  • 单词
  • 句子

必须先把文本转换成 数字序列

流程大概是:

文字

Token

数字ID

模型计算

例如:

Hello → token 15496
world → token 995

模型看到的是:

[15496, 995]

很多 AI 服务收费是 按 token 计算的。模型计算量基本和 token 数量成正比

Token 和字数的关系

大致可以这样估算:

文本约等于 Token
1个英文单词1 token
1个中文汉字1–2 token
1000英文词~750 token
1000中文字符~1000–2000 token
AI 能记住多少内容,取决于 Token 上下文窗口。Token 是大模型处理文本的最小单位,也是计算和收费的基本单位。Tokenizer(分词算法)的差异,一句话在不同 AI 模型里 Token 数量会完全不一样。

现在有什么技术可以节约大模型的TOKEN

在使用大模型(LLM)时,Token 成本和上下文长度是两个核心问题。很多公司和开发者都会想办法 减少 Token 使用量,目前业界主要有 节约 Token 的技术方法。核心原则是只给模型最必要的信息,按从简单到高级给你讲清楚。

  • Prompt 压缩(Prompt Compression): 减少原始prompt中的非关键字
  • 上下文裁剪(Context Truncation):只保留最近的N条对话
  • 对话摘要(Conversation Summarization):把上文的内容总结,发送摘要
  • RAG 检索(只发送相关内容):不要把 所有知识发给模型,只发送 相关内容
  • 结构化 Prompt(减少冗余文本): 生成如json等结构化数据
  • 小模型预处理(Two-Stage Model) : 用户输入再小模型处理转大模型生成。
  • Prompt模板复用: 对于反复使用的同一个prompt,可以在存模板,只传变量
  • mbedding + 向量检索: 把文档转换成 向量,存入向量数据库, 查询时只检索相关内容,不发送全部
  • 缓存(Prompt Cache):两次请求类似,直接返回缓存结果,不再调用模型。

现在有些公司开始研究 “Token-Free LLM”(无Token模型),这可能会彻底改变大模型架构。目前主流的大模型(如 ChatGPT、Claude、Gemini)仍然是 Token-based LLM,也就是依赖 token 进行训练和推理。

Token-Free LLM

传统 LLM 的流程是:

文本

tokenization(分词)

token序列

模型计算

Token-Free LLM 的目标是:

文本

直接处理字符 / 字节 / 概念

模型计算

Transformer 架构依赖 token. Transformer 的训练方式就是:预测下一个 token. 真正的 Token-Free LLM 还没有进入主流商业产品。

大语言模型、 多模态模型、物理模型、世界模型

可以把 大语言模型、 多模态模型、物理模型、世界模型 看成 AI能力逐层增强的四个阶段。它们的核心区别在于:模型理解世界的深度不同

类型核心能力主要输入是否理解现实世界
大语言模型语言理解和生成文本很弱
多模态模型同时理解文本、图像、音频等文本+图像+音频等有一点
物理模型理解现实世界物理规律视频/交互中等
世界模型在内部模拟世界并预测未来多模态+时间序列很强
视频数据可能是训练世界模型最关键的数据
AI发展的一个典型路线

语言模型

多模态模型

理解不同信息物理模型

理解现实规律世界模型

在脑中模拟世界

现在几乎所有 AI(包括 ChatGPT)本质还是:

大语言模型 + 多模态能力

Transformer和State Space Model(状态空间模型)

Transformer 的核心瓶颈:Attention 复杂度,Transformer 的核心机制是 Self-Attention(自注意力)
它的计算复杂度是:
O(n²)

意思是:

token数量计算量
1000100万
100001亿
100000100亿

也就是说:

输入越长,计算量是 平方增长

SSM 的计算复杂度:

O(n)

也就是 线性增长

举个简单对比:

序列长度TransformerSSM
1k1M计算1k计算
10k100M10k
100k10B100k

所以在 超长序列任务里,SSM理论上更高效。

Transformer 推理有个问题:

生成一个 token 时需要重新计算 attention。

而 SSM 的结构更像 RNN:

一步一步更新状态

所以推理延迟更低, SSM更适合之前提到过 Token-Free LLM

未来可能的方向:混合架构 Transformer + SSM

短上下文 → Transformer
长上下文 → SSM

Leave a Comment