本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
Skill 比 MCP 省 99% 的 Token,MCP 不是银弹,是 Token 黑洞。
昨天发的那篇文章,有网友提了一个问题,我觉得可以通过一篇文章来展开讲讲!
所以,接下来,我们就一起来看看 Token、MCP、Skill 等技术概念之间的计费玄机,以及 AI 时代的“省钱密码”。
Web 会话 Token
Token 一词,对程序员来说,应该并不陌生。在 web 中,token 就相当于我们的“临时身份证”。
它是一种身份验证机制。当我们登录网站后,服务器生成一串随机字符串(Token)作为我们的“通行证”,之后我们每次点击请求浏览器或代码都可能带上它,这样服务器就知道“哦,是草哥呀”。
这类 Web 会话中的 token 有以下特点。
- 一次性生成,多次使用。登录时消耗计算资源生成,后续请求几乎零成本
- 体积小巧。通常只有几十到几百字节
- 安全导向。用于身份验证和权限校验,与AI计算无关
AI Token
而 AI 中的 token,是大模型的“计价货币”。
它是大模型处理文本的最小单位。大家可以理解为Token 是 AI 的“脑细胞”,每处理一个 Token,模型就要进行一次计算。
也就是说,AI 中的 token 代表着计算量。
它和 Web 中会话 Token 有着关键区别。
| 维度 | Web Session Token | AI Token |
|---|---|---|
| 本质 | 身份凭证 | 计算单位 |
| 计费方式 | 免费(或极低成本) | 按量计费,直接关联成本 |
| 数量级 | 单次请求 1 个 | 单次请求数百至数百万个 |
| 生命周期 | 持续有效(小时/天) | 每次请求独立计算 |
需要注意的是,AI 中的 Token 的消耗是双向的。我们输入的 Prompt 算 Token,模型输出的回答也算 Token。而且通常输出比输入更贵(例如 Claude 3.5 Sonnet 输出 Token 的价格是输入的 5 倍)。
AI Token 是如何计算的?
大伙对 AI 中的 token 不好理解,其中一个原因是,它的计算方式不是一个简单的算式。
Tokenization
Token 不是简单的“字数”。不同语言的 Token 效率差异巨大,但都有对应的 Tokenization 对文本进行“艺术切分”。
- 英文:1 个 Token ≈ 0.75 个单词(“ChatGPT”可能是 1-2 个 Token)
- 中文:1 个汉字 ≈ 1-2 个 Token(技术文档中通常按 1.5 个计算)
- 代码:符号、缩进都会占用 Token,一段 Python 代码的 Token 数可能是字符数的 1.5 倍
三者的实例对比简化如下。
英文:"Hello world" = 2 Tokens
中文:"你好世界" = 4-6 Tokens
代码:"def hello():" = 4-5 Tokens
计费公式
以 DeepSeek、元宝、阿里云百炼等平台为例,计费公式通常为:总费用 = (输入Token数 × 输入单价 + 输出Token数 × 输出单价) / 1,000,000。
不同模型的单价差异也非常巨大。
| 模型 | 输入单价(元/百万Token) | 输出单价(元/百万Token) |
|---|---|---|
| 通义千问-Max | 2.4 | 9.6 |
| DeepSeek-V3 | 2.0 | 8.0 |
| GPT-4 级别 | 30+ | 60+ |
网上以及有网友遭遇过一个血的教训了,某企业因未清理对话历史,单次请求携带了 50 万 Token 的上下文,一次对话就烧掉几十元。后来发现账户余额下降过快,通过巨额欠费账单才发现的。
Skill vs MCP
MCP 先出生,Skill 后出生。两者对 Token 的消耗是“左右互搏”。
文章配图参考我的公众号文章https://mp.weixin.qq.com/s/aoJ_DM40yhvZ84geWg43vg。
MCP 能力强但吃 Token
MCP 模型上下文协议是 Anthropic 推出的开放协议,旨在让 AI 统一调用外部工具(如查数据库、发邮件、操作 GitHub)。但它的致命伤是 Token 消耗。
MCP 的 Token 陷阱是,当启动 MCP 时,所有工具的定义文档会被一次性加载到上下文中。这包括:
- 工具名称和描述
- 参数列表(JSON Schema)
- 返回值格式
- 错误处理规范
老外网友对Claude 3.5 Sonnet的实测数据https://atalupadhyay.wordpress.com/2025/11/11/mcp-token-problem-building-efficient-ai-agents-with-skills显示:
- 5 个标准 MCP 服务器(GitHub、Slack、Google Drive 等)≈
97000 Token - 这占了 Claude 3.5 Sonnet(20 万上下文)的
48% - 还没开始对话,一半上下文就被“吃”掉了
更糟糕的是中间结果传递。当你让 AI “从 Google Drive 下载会议纪要并上传到 Salesforce”时,会议内容会在 AI 上下文中流转两次,一份 2 小时的会议记录可能额外消耗 5 万 Token。
Skill 技能
Skill 是 Anthropic 推出的新特性,是一个精打细算的“轻量级选手”,它本质上是一种按需加载的能力包。
Skill 的 Token 优势如下所示。
- 启动时:只加载简短描述(约 12 Token)
- 使用时:才加载完整指令和代码(约 300 Token)
- Token 节省率:99.6%
来自老外的对比实验https://intuitionlabs.ai/articles/claude-skills-vs-mcp显示:
| 方案 | 启动Token | 使用时Token | 总消耗 |
|---|---|---|---|
| MCP传统方式 | 2,800 | 2,800(持续占用) | 高且固定 |
| Skill方式 | 12 | 311(按需加载) | 低且弹性 |
MCP vs Skill 谁更费 Token?
我们直接说结论吧,MCP 更费 Token,但 Skill 并非万能。
MCP 费 token,为什么还有人用?因为它有它的优点。
- 标准化:统一协议,跨平台兼容
- 实时数据:能获取最新信息(股价、天气等)
- 精确控制:工具行为可预测,适合企业级审计
对应的 Skill 也有不少优点。
- 极致省 Token:适合高频、重复性任务
- 快速响应:无需等待外部服务器
- 隐私安全:数据不流出模型上下文
现在,整个 AI 社区以及达成了共识。二者不是替代关系,而是互补关系。MCP 用于探索“能做什么”,Skill 用于高效执行“已知怎么做”或“具体应该这样做”。
MCP 的 Token 优化策略
既然 MCP 必不可少,如何降低其 Token 消耗呢?
目前业界已探索出多种方案,下面我们一起来看看。
Code Execution 模式
该模式是 Anthropic 官方方案。核心思想是让 AI 写代码调用 MCP,而不是直接调用。
测试的效果https://www.anthropic.com/engineering/code-execution-with-mcp表明,Token 消耗从 150000 降至 2000,节省 98.7%。
Code Execution 模式的原理总结如下。
- 传统方式:AI → 调用工具 → 接收结果 → 调用下一个工具(所有中间结果都过 AI 上下文)
- Code 模式:AI 生成脚本 → 脚本直接串联多个工具 → AI 只看最终结果
Dynamic Toolsets(动态工具集)
Dynamic Toolsets 动态工具集,Speakeasy 提出的优化方案如下。
- 语义搜索:不加载所有工具定义,只加载与用户意图相关的工具
- 分类大纲:提供工具类别索引,让 AI 按需深度检索
- 效果:输入 Token 减少 96.7%,总 Token 减少 96.4%
更多细节参考https://www.speakeasy.com/blog/how-we-reduced-token-usage-by-100x-dynamic-toolsets-v2。
节省 Token 的六大实战技巧
基于社区最佳实践,我总结以下省钱秘籍,供大家参考。
Prompt 压缩
效果立竿见影,去除冗余词汇。
优化前:"请按照以下非常重要的步骤操作:第一步、第二步、第三步"
优化后:"步骤:1. 2. 3."
节省:18 Tokens → 8 Tokens(节省55%)
使用结构化格式。
- 用 JSON 代替自然语言描述
- 用缩写(API 代替 Application Programming Interface)
- 删除礼貌用语(”请”、”谢谢”)
上下文管理
管理好你的上下文,防“历史包袱”。这里面的一个致命误区是,AI 应用默认携带完整对话历史,导致 Token 指数级增长。
对应的解决方案如下。
- 定期清理对话记录:每次新任务前清除无关历史
- 使用摘要机制:将长篇对话总结为 100 字摘要,替代原始内容
- 滑动窗口:只保留最近 N 轮对话
缓存机制
对于高频重复查询(如“查询公司最新股价”),可以实施“多级缓存”,这也是重复任务的救星。
用户提问 → Redis 缓存(精确匹配)→ 语义缓存(相似问题)→ 调用模型
某在线教育平台的 AI 作文批改系统,采用该方案后,效果显著。命中率 99% 时,成本降低 99%。
模型路由
好钢用在刀刃上,不是所有任务都需要 GPT-5。可以建立智能路由策略。
- 简单任务(问答、翻译):用轻量模型(GPT-3.5 / Claude Haiku)
- 复杂任务(推理、编程):用旗舰模型(GPT-5 / Claude Opus)
- 预估节省:70% 的任务可用轻量模型处理,成本降低 80%
异步与批处理
实时调用 vs 批处理。
- 实时:1000 次请求 × 3 秒等待 = 50 分钟,成本 $50
- 批处理:vLLM 一次生成 1000 个结果 = 8 分钟,成本 $8
这个就相当于 sql 的批量插入语句一样,相比循环单个插入,更有性价比。
某些场景下节省比例高达 84%。
监控与告警
做好监控,防“账单刺客”,也防小人。必须建立的监控指标。
- 按团队/项目的 Token 消耗分布
- 异常检测(单小时成本超过平均值 3 倍时告警)
- 成本归因(识别“Token 大户”)
已经有不少老外,做了真实案例。某团队通过监控发现,一个未关闭的调试循环每小时消耗 $200,及时止损。
Token 经济的演进
写到这里,我想去了 AI 圈常说的一句话:你的模型能力很强,但你的账单余额不足。
所以,随着 AI Agent 的普及,Token 管理正从“优化选项”变为“核心竞争力”。
目前有几个值得关注的趋势,供大家参考!
- 上下文压缩技术:模型自动压缩历史对话,保持关键信息的同时减少 Token。参考 DeepSeek 的 Engram,https://mp.weixin.qq.com/s/BqHJ7nsYsjdE846cd_eUAw。
- 专用小模型:针对特定任务训练轻量模型(如代码审查专用模型),Token 效率提升 10 倍
- 边缘计算:简单推理下沉到本地设备,只有复杂任务调用云端大模型
结语
理解 Token,就是理解 AI 时代的“成本结构”。无论是 Web 开发者还是 AI 产品经理,都需要建立 Token 敏感度。
善用 Prompt 压缩和上下文清理,月省 $50 不是梦。在 MCP 和 Skill 之间找到平衡点,JVM 调优面试题已变为 Token 优化策略类面试题。
毕竟,最优雅的 AI 应用,不是用最强大的模型,而是用最高效的方式解决问题。
参考资料
- Atal Upadhyay《MCP Token Problem: Building Efficient AI Agents with Skills》
https://atalupadhyay.wordpress.com/2025/11/11/mcp-token-problem-building-efficient-ai-agents-with-skills/ - Speakeasy《Reducing MCP token usage by 100x》
https://www.speakeasy.com/blog/how-we-reduced-token-usage-by-100x-dynamic-toolsets-v2 - IntuitionLabs《Claude Skills vs. MCP: A Technical Comparison》
https://intuitionlabs.ai/articles/claude-skills-vs-mcp - Anthropic《Code execution with MCP: building more efficient AI agents》
https://www.anthropic.com/engineering/code-execution-with-mcp - Skywork AI《Claude Skills vs MCP vs General LLM Tools》
https://skywork.ai/blog/ai-agent/claude-skills-vs-mcp-vs-llm-tools-comparison-2025/ - CData《Claude Skills vs MCP: Better Together》
https://www.cdata.com/blog/claude-skills-vs-mcp-better-together-with-connect-ai - AgiFlow《token-usage-metrics》
https://github.com/AgiFlow/token-usage-metrics

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!