AI圈每天都在冒新名词——LLM、token、context、prompts、tool、mcp、agents、agent skill。你真的能准确说出每个概念的确切含义吗?
LLM:文字接龙游戏
大语言模型的本质极其朴素:一个文字接龙游戏。
问"马克的视频怎么样?",模型会:
- 预测下一个概率最高的词:"特别"
- 将"特别"追加到输入后,再预测下个词:"得"
- 继续追加,预测:"棒"
- 最终输出:"特别的棒"
一个词一个词地输出,是它最底层的工作机制。
Token:翻译官
大模型本质是数学函数,只认数字不认文字。Tokenizer负责编码(文字→数字)和解码(数字→文字)。
关键认知:Token ≠ 词语
- 中文:"程序员"被拆成"程序"+"员"两个token
- 英文:"helpful"被拆成"help"+"ful"两个token
经验值:
- 1 token ≈ 0.75个英文单词
- 1 token ≈ 1.5~2个汉字
- 100万token ≈ 150万汉字,装得下《哈利波特》全集
Context:临时记忆
Context是每次处理任务时接收到的信息总和:用户当前问题、对话历史、正在输出的token、工具列表、System prompt等。
Context Window是Context能容纳的最大token数量:
- GPT-4.5:105万token
- Claude 3.1 Pro:100万token
- Cloudopus 4.6:100万token
Prompt:具体指令
User Prompt:用户输入的问题 System Prompt:开发者配置的人设和规则
模糊Prompt → 随机输出。精准Prompt → 精准结果。System Prompt可以配置Agent的人格和行为规则,让模型在特定场景下表现更符合预期。
行业真相:Prompt Engineering曾很火,现在提的人越来越少。门槛太低(本质就是"把话说清楚")+ 模型变强(即使提示模糊也能猜出意图)。
Tool:外部感知函数
大模型的致命弱点:无法感知外界环境。解决方案是Tool——本质是一个函数:输入参数 → 执行操作 → 返回结果。
完整工作流程:
- 用户问题发给平台
- 平台将问题+工具列表发给大模型
- 大模型生成工具调用指令
- 平台调用对应工具
- 工具返回结果
- 大模型整理成自然语言回答
痛点:每个平台工具规范不同。ChatGPT、Claude、Gemini各要写一遍代码。
终极解决方案:MCP(Model Context Protocol)——统一工具接入标准,工具开发者只需按MCP规范写一次,即可在所有支持MCP的平台使用。类似手机统一用Type-C接口。
Agent:自主系统
Agent是能自主规划、调用工具、持续工作直至完成任务的系统。
工作流程示例"附近有卖雨伞的店吗":
- 调用定位工具获取经纬度
- 调用天气工具查询天气
- 根据天气结果(如下雨)调用店铺工具搜索雨伞店
- 综合所有信息给出最终答案
Agent Skill:Agent的说明书
痛点:每次都要重复输入个人规则。Agent Skill本质是提前写好给Agent看的说明文档(Markdown格式)。
结构:
- 元数据层:名称、描述
- 指令层:目标、执行步骤、判断规则、输出格式、示例
创建Agent Skill:
- 在
.cloudskills目录新建文件夹(名称=skill名) - 文件夹内创建
SKILL.md文件 - 写入完整指令内容
- Agent在匹配时自动加载执行
核心概念关系
| 概念 | 本质 |
|---|---|
| LLM | 核心引擎 |
| Token | 数据处理基本单元 |
| Context | 临时记忆(内容单位是token) |
| Context Window | 记忆体容量上限 |
| Prompt | 具体指令(分User/System两类) |
| Tool | 感知外部世界的函数 |
| MCP | 统一工具接入标准 |
| Agent | 自主规划+工具调用的系统 |
| Agent Skill | Agent的说明书 |
理解这些底层逻辑后,AI圈的新产品不再神秘——无论技术如何迭代,核心原理不变。
这张概念图的价值在于:把所有散点连成网。"LLM是引擎,Token是燃料,Context是RAM,Tool是I/O,MCP是USB,Agent是操作系统"——这个类比值得每个AI从业者记住。