Java基础、中级、高级、架构面试资料

Skill 比 MCP 省 99% 的 Token,MCP 不是银弹,是 Token 黑洞

业余杂谈 herman 16浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

Skill 比 MCP 省 99% 的 Token,MCP 不是银弹,是 Token 黑洞。

昨天发的那篇文章,有网友提了一个问题,我觉得可以通过一篇文章来展开讲讲!

所以,接下来,我们就一起来看看 Token、MCP、Skill 等技术概念之间的计费玄机,以及 AI 时代的“省钱密码”。

Web 会话 Token

Token 一词,对程序员来说,应该并不陌生。在 web 中,token 就相当于我们的“临时身份证”。

它是一种身份验证机制。当我们登录网站后,服务器生成一串随机字符串(Token)作为我们的“通行证”,之后我们每次点击请求浏览器或代码都可能带上它,这样服务器就知道“哦,是草哥呀”。

这类 Web 会话中的 token 有以下特点。

  • 一次性生成,多次使用。登录时消耗计算资源生成,后续请求几乎零成本
  • 体积小巧。通常只有几十到几百字节
  • 安全导向。用于身份验证和权限校验,与AI计算无关

AI Token

而 AI 中的 token,是大模型的“计价货币”。

它是大模型处理文本的最小单位。大家可以理解为Token 是 AI 的“脑细胞”,每处理一个 Token,模型就要进行一次计算。

也就是说,AI 中的 token 代表着计算量。

它和 Web 中会话 Token 有着关键区别。

维度Web Session TokenAI Token
本质身份凭证计算单位
计费方式免费(或极低成本)按量计费,直接关联成本
数量级单次请求 1 个单次请求数百至数百万个
生命周期持续有效(小时/天)每次请求独立计算

需要注意的是,AI 中的 Token 的消耗是双向的。我们输入的 Prompt 算 Token,模型输出的回答也算 Token。而且通常输出比输入更贵(例如 Claude 3.5 Sonnet 输出 Token 的价格是输入的 5 倍)。

AI Token 是如何计算的?

大伙对 AI 中的 token 不好理解,其中一个原因是,它的计算方式不是一个简单的算式。

Tokenization

Token 不是简单的“字数”。不同语言的 Token 效率差异巨大,但都有对应的 Tokenization 对文本进行“艺术切分”。

  • 英文:1 个 Token ≈ 0.75 个单词(“ChatGPT”可能是 1-2 个 Token)
  • 中文:1 个汉字 ≈ 1-2 个 Token(技术文档中通常按 1.5 个计算)
  • 代码:符号、缩进都会占用 Token,一段 Python 代码的 Token 数可能是字符数的 1.5 倍

三者的实例对比简化如下。

英文:"Hello world" = 2 Tokens
中文:"你好世界" = 4-6 Tokens
代码:"def hello():" = 4-5 Tokens

计费公式

以 DeepSeek、元宝、阿里云百炼等平台为例,计费公式通常为:总费用 = (输入Token数 × 输入单价 + 输出Token数 × 输出单价) / 1,000,000

不同模型的单价差异也非常巨大。

模型输入单价(元/百万Token)输出单价(元/百万Token)
通义千问-Max2.49.6
DeepSeek-V32.08.0
GPT-4 级别30+60+

网上以及有网友遭遇过一个血的教训了,某企业因未清理对话历史,单次请求携带了 50 万 Token 的上下文,一次对话就烧掉几十元。后来发现账户余额下降过快,通过巨额欠费账单才发现的。

Skill vs MCP

MCP 先出生,Skill 后出生。两者对 Token 的消耗是“左右互搏”。

文章配图参考我的公众号文章https://mp.weixin.qq.com/s/aoJ_DM40yhvZ84geWg43vg

MCP 能力强但吃 Token

MCP 模型上下文协议是 Anthropic 推出的开放协议,旨在让 AI 统一调用外部工具(如查数据库、发邮件、操作 GitHub)。但它的致命伤是 Token 消耗

MCP 的 Token 陷阱是,当启动 MCP 时,所有工具的定义文档会被一次性加载到上下文中。这包括:

  • 工具名称和描述
  • 参数列表(JSON Schema)
  • 返回值格式
  • 错误处理规范

老外网友对Claude 3.5 Sonnet的实测数据https://atalupadhyay.wordpress.com/2025/11/11/mcp-token-problem-building-efficient-ai-agents-with-skills显示:

  • 5 个标准 MCP 服务器(GitHub、Slack、Google Drive 等)≈ 97000 Token
  • 这占了 Claude 3.5 Sonnet(20 万上下文)的48%
  • 还没开始对话,一半上下文就被“吃”掉了

更糟糕的是中间结果传递。当你让 AI “从 Google Drive 下载会议纪要并上传到 Salesforce”时,会议内容会在 AI 上下文中流转两次,一份 2 小时的会议记录可能额外消耗 5 万 Token。

Skill 技能

Skill 是 Anthropic 推出的新特性,是一个精打细算的“轻量级选手”,它本质上是一种按需加载的能力包

Skill 的 Token 优势如下所示。

  • 启动时:只加载简短描述(约 12 Token)
  • 使用时:才加载完整指令和代码(约 300 Token)
  • Token 节省率:99.6%

来自老外的对比实验https://intuitionlabs.ai/articles/claude-skills-vs-mcp显示:

方案启动Token使用时Token总消耗
MCP传统方式2,8002,800(持续占用)高且固定
Skill方式12311(按需加载)低且弹性

MCP vs Skill 谁更费 Token?

我们直接说结论吧,MCP 更费 Token,但 Skill 并非万能

MCP 费 token,为什么还有人用?因为它有它的优点。

  • 标准化:统一协议,跨平台兼容
  • 实时数据:能获取最新信息(股价、天气等)
  • 精确控制:工具行为可预测,适合企业级审计

对应的 Skill 也有不少优点。

  • 极致省 Token:适合高频、重复性任务
  • 快速响应:无需等待外部服务器
  • 隐私安全:数据不流出模型上下文

现在,整个 AI 社区以及达成了共识。二者不是替代关系,而是互补关系。MCP 用于探索“能做什么”,Skill 用于高效执行“已知怎么做”或“具体应该这样做”。

MCP 的 Token 优化策略

既然 MCP 必不可少,如何降低其 Token 消耗呢?

目前业界已探索出多种方案,下面我们一起来看看。

Code Execution 模式

该模式是 Anthropic 官方方案。核心思想是让 AI 写代码调用 MCP,而不是直接调用

测试的效果https://www.anthropic.com/engineering/code-execution-with-mcp表明,Token 消耗从 150000 降至 2000,节省 98.7%。

Code Execution 模式的原理总结如下。

  • 传统方式:AI → 调用工具 → 接收结果 → 调用下一个工具(所有中间结果都过 AI 上下文)
  • Code 模式:AI 生成脚本 → 脚本直接串联多个工具 → AI 只看最终结果

Dynamic Toolsets(动态工具集)

Dynamic Toolsets 动态工具集,Speakeasy 提出的优化方案如下。

  • 语义搜索:不加载所有工具定义,只加载与用户意图相关的工具
  • 分类大纲:提供工具类别索引,让 AI 按需深度检索
  • 效果:输入 Token 减少 96.7%,总 Token 减少 96.4%

更多细节参考https://www.speakeasy.com/blog/how-we-reduced-token-usage-by-100x-dynamic-toolsets-v2

节省 Token 的六大实战技巧

基于社区最佳实践,我总结以下省钱秘籍,供大家参考。

Prompt 压缩

效果立竿见影,去除冗余词汇。

优化前:"请按照以下非常重要的步骤操作:第一步、第二步、第三步"
优化后:"步骤:1. 2. 3."
节省:18 Tokens → 8 Tokens(节省55%)

使用结构化格式。

  • 用 JSON 代替自然语言描述
  • 用缩写(API 代替 Application Programming Interface)
  • 删除礼貌用语(”请”、”谢谢”)

上下文管理

管理好你的上下文,防“历史包袱”。这里面的一个致命误区是,AI 应用默认携带完整对话历史,导致 Token 指数级增长。

对应的解决方案如下。

  • 定期清理对话记录:每次新任务前清除无关历史
  • 使用摘要机制:将长篇对话总结为 100 字摘要,替代原始内容
  • 滑动窗口:只保留最近 N 轮对话

缓存机制

对于高频重复查询(如“查询公司最新股价”),可以实施“多级缓存”,这也是重复任务的救星。

用户提问 → Redis 缓存(精确匹配)→ 语义缓存(相似问题)→ 调用模型

某在线教育平台的 AI 作文批改系统,采用该方案后,效果显著。命中率 99% 时,成本降低 99%。

模型路由

好钢用在刀刃上,不是所有任务都需要 GPT-5。可以建立智能路由策略

  • 简单任务(问答、翻译):用轻量模型(GPT-3.5 / Claude Haiku)
  • 复杂任务(推理、编程):用旗舰模型(GPT-5 / Claude Opus)
  • 预估节省:70% 的任务可用轻量模型处理,成本降低 80%

异步与批处理

实时调用 vs 批处理。

  • 实时:1000 次请求 × 3 秒等待 = 50 分钟,成本 $50
  • 批处理:vLLM 一次生成 1000 个结果 = 8 分钟,成本 $8

这个就相当于 sql 的批量插入语句一样,相比循环单个插入,更有性价比。

某些场景下节省比例高达 84%。

监控与告警

做好监控,防“账单刺客”,也防小人。必须建立的监控指标。

  • 按团队/项目的 Token 消耗分布
  • 异常检测(单小时成本超过平均值 3 倍时告警)
  • 成本归因(识别“Token 大户”)

已经有不少老外,做了真实案例。某团队通过监控发现,一个未关闭的调试循环每小时消耗 $200,及时止损。

Token 经济的演进

写到这里,我想去了 AI 圈常说的一句话:你的模型能力很强,但你的账单余额不足

所以,随着 AI Agent 的普及,Token 管理正从“优化选项”变为“核心竞争力”。

目前有几个值得关注的趋势,供大家参考!

  1. 上下文压缩技术:模型自动压缩历史对话,保持关键信息的同时减少 Token。参考 DeepSeek 的 Engram,https://mp.weixin.qq.com/s/BqHJ7nsYsjdE846cd_eUAw。
  2. 专用小模型:针对特定任务训练轻量模型(如代码审查专用模型),Token 效率提升 10 倍
  3. 边缘计算:简单推理下沉到本地设备,只有复杂任务调用云端大模型

结语

理解 Token,就是理解 AI 时代的“成本结构”。无论是 Web 开发者还是 AI 产品经理,都需要建立 Token 敏感度。

善用 Prompt 压缩和上下文清理,月省 $50 不是梦。在 MCP 和 Skill 之间找到平衡点,JVM 调优面试题已变为 Token 优化策略类面试题。

毕竟,最优雅的 AI 应用,不是用最强大的模型,而是用最高效的方式解决问题。

参考资料

  • Atal Upadhyay《MCP Token Problem: Building Efficient AI Agents with Skills》https://atalupadhyay.wordpress.com/2025/11/11/mcp-token-problem-building-efficient-ai-agents-with-skills/
  • Speakeasy《Reducing MCP token usage by 100x》https://www.speakeasy.com/blog/how-we-reduced-token-usage-by-100x-dynamic-toolsets-v2
  • IntuitionLabs《Claude Skills vs. MCP: A Technical Comparison》https://intuitionlabs.ai/articles/claude-skills-vs-mcp
  • Anthropic《Code execution with MCP: building more efficient AI agents》https://www.anthropic.com/engineering/code-execution-with-mcp
  • Skywork AI《Claude Skills vs MCP vs General LLM Tools》https://skywork.ai/blog/ai-agent/claude-skills-vs-mcp-vs-llm-tools-comparison-2025/
  • CData《Claude Skills vs MCP: Better Together》https://www.cdata.com/blog/claude-skills-vs-mcp-better-together-with-connect-ai
  • AgiFlow《token-usage-metrics》https://github.com/AgiFlow/token-usage-metrics

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » Skill 比 MCP 省 99% 的 Token,MCP 不是银弹,是 Token 黑洞