Java基础、中级、高级、架构面试资料

Redis 之父退休 5 年后再开源,Mac 上跑 DeepSeek V4

业余杂谈 herman 139浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

最近有不少新网友关注我,使我的关注量再创新高!

感谢大家的捧场!今天我看到退休 5 年之久的 Redis 之父 antirez 又出山了。再次开源了他的新作 ds4,一时间被不少网友讨论,Star 数也在跟着狂涨,不到 24 小时达到 1.1k 之多。

接下来,我们就一起来看看,Redis 之父 Antirez 为何要再出山,以及 ds4.c 这个新物种到底要干什么?为何执着于让 2840 亿参数大模型跑在你的 MacBook 上。

antirez 的退休与复出

2020 年 6 月,Redis 的创始人 Salvatore Sanfilippo(网名 antirez)在博客上发布了一篇题为《The end of the Redis adventure》的文章,宣布辞去 Redis 维护者的职务。

他的理由很“酷”,不想做一个每天开会、审查代码的管理者,他想回去当一个写小说的、自由自在的艺术家。

后来,在他离开后的 1620 天里,他再也没有看过 Redis 的源代码、提交记录或任何相关的东西。

2024 年 12 月,antirez 宣布回归 Redis,担任“布道者”(evangelist),希望修复社区裂痕。但让所有人没想到的是,2026 年,这位 51 岁的老黑客又一次让人惊讶,他在 GitHub 上开源了一个全新的项目ds4.c

这一次,不是数据库,而是一个能让2840 亿参数的大语言模型跑在你 MacBook 上的本地推理引擎。

以至于 Salvatore Sanfilippo (antirez) 本人兴奋的说,“这是第一次,我感觉自己的电脑上跑着一个前沿模型”。

文章配图参见 https://mp.weixin.qq.com/s/2T7J8VXwM4f8_NVjjhAnBQ

ds4.c 是什么?

打开 ds4 的 GitHub 仓库,https://github.com/antirez/ds4,README 的第一句话就定下了基调。

ds4.c is a small native inference engine for DeepSeek V4 Flash. It is intentionally narrow: not a generic GGUF runner, not a wrapper around another runtime, and not a framework.

翻译过来就是,deliberately 不通用

在当下的本地推理生态里,llama.cpp、Ollama、vLLM 等项目都在追求“一个框架跑所有模型”的通用性。而 antirez 反其道而行之,他只做一件事,那就是让#DeepSeek V4 Flash这一个模型,在 Apple Silicon 的 Mac 上,跑到极致。

这种“一个模型、一个引擎”的窄聚焦策略,在 antirez 看来,是做出 “finished product” 完成品的唯一方式。

五大核心创新

ds4.c 极具 antirez 色彩,拥有 5 大核心创新,下面我们稍微简单展开一下。

2-bit 非对称量化

第一个核心创新就是 2-bit 非对称量化,81GB 跑 284B 模型。

众所周知,DeepSeek V4 Flash 是一个 MoE(混合专家)模型,总参数量 284B,但每个 token 只激活 13B 参数。即便如此,完整 FP8 权重也需要约 160GB 显存,远超消费级硬件的能力。

antirez 的解决方案是极度非对称的 2-bit 量化

  • 只量化 routed MoE experts(路由专家,占模型体积的大多数)
  • up/gate 投影用 IQ2_XXS,down 投影用 Q2_K
  • 共享专家、投影层、路由层保持原精度不动

这样做的结果是,q2 量化版约 81GB,刚好能装进一台 128GB RAM 的 MacBook Pro。而且 antirez 强调,这种量化“不是玩笑”,在编码 Agent、工具调用等场景下表现依然可靠。

SSD 磁盘 KV Cache

第二个创新点是磁盘 KV Cache,把 SSD 当成“第二块显存”,这是 ds4.c 最具颠覆性的理念。

传统大模型推理中,KV Cache(键值缓存)必须常驻内存。上下文越长,KV Cache 占用的内存就越大,这也是长上下文推理的最大瓶颈。

但 antirez 提出了一个反直觉的观点。

The KV cache is actually a first class disk citizen.

翻译过来就是,KV 缓存实际上是一种一等磁盘成员。

DeepSeek V4 的 KV Cache 采用了压缩注意力(Compressed Attention)技术,使得 KV Cache 体积极其紧凑。配合现代 MacBook 的高速 SSD,ds4.c 可以将 KV Cache 持久化到磁盘,从而实现:

  • 会话恢复:服务器重启后,之前的对话上下文可以从磁盘恢复
  • 跨会话共享:不同 Agent 客户端可以复用已计算的 KV 前缀
  • 百万 token 上下文:1M token 的完整上下文,压缩后的 indexer 仅需约 22GB 内存

ds4.c 甚至设计了一套完整的磁盘 KV Cache 文件格式(.kv 文件),包含 48 字节的固定头、渲染文本、以及 DS4 特定的 session payload。

性能出众

性能实测,M3 Max 上预 fill 250 token/s。

下面是根据 ds4.c 官方提供的基准测试数据(q2 量化版,greedy decoding)。

机器场景预 fill 速度生成速度
MacBook Pro M3 Max, 128GB短 prompt58.52 t/s26.68 t/s
MacBook Pro M3 Max, 128GB11709 token 长 prompt250.11 t/s21.47 t/s
Mac Studio M3 Ultra, 512GB短 prompt84.43 t/s36.86 t/s
Mac Studio M3 Ultra, 512GB11709 token 长 prompt468.03 t/s27.39 t/s

这个性能是什么概念呢?

在 11K token 的长 prompt 上,M3 Max 的预 fill 速度达到 250 t/s,意味着解析一篇长论文只需要几十秒。这已经接近很多云端 API 的体验了。

官方向量验证

ds4.c 的另一个独特之处是测试策略,官方向量验证,用“官方答案”做单元测试。

antirez 没有依赖传统的“感觉还不错”来验证模型质量,而是从 DeepSeek 官方 API 获取不同上下文长度下的 logits(概率分布),生成了测试向量(test vectors)。本地推理的输出会与这些“标准答案”逐 token 比对,确保量化后的模型在数学上与官方实现一致。

这种工程严谨性,在开源推理引擎中非常罕见。

完整的 Agent 生态集成

ds4.c 不只是个命令行工具,它提供了一个兼容 OpenAI、Anthropic API 的 HTTP 服务器(ds4-server),可以直接对接。

  • OpenCode
  • Pi
  • Claude Code

并且原生支持 DeepSeek 的 thinking 模式、tool calling、SSE 流式输出。antirez 的愿景是,本地推理应该是“推理引擎 + 定制 GGUF + Agent 验证”三者的无缝协作。

为什么是 DeepSeek V4 Flash?

antirez 在 README 里列出了 8 个理由,其中几个特别值得关注。

  1. 思考模式更克制:在 thinking 模式下,V4 Flash 的思考长度通常只有其他模型的 1/5,而且与问题复杂度成正比。这让“开启思考”从“奢侈品”变成了“日常可用”的功能。
  2. 1 百万 token 上下文:这是目前消费级硬件能触及的最长上下文。
  3. 知识边界更深:284B 总参在边缘知识(如意大利本土文化、政治问题)上的表现,远超 27B 或 35B 的 dense 模型。
  4. 写作质量:antirez 是意大利人,他特别提到 V4 Flash 的英文和意大利文写作“feels a quasi-frontier model”。
  5. 未来可期:DeepSeek 预计会持续更新 V4 Flash,这个引擎的投资是有延续性的。

总之,DeepSeek V4 Flash 得到了 antirez 的极大认可。

antirez 的用意

antirez 的用意,背后是一个老黑客的 AI 哲学。

窄而深 vs 广而浅

antirez 在 README 里毫不避讳地批评了当前本地推理生态的问题。

The local inference landscape contains many excellent projects, but new models are released continuously, and the attention immediately gets captured by the next model to implement.

他认为,追逐“支持最新模型”的通用框架,最终只会让每个模型都跑得“能跑,但不完美”,效率并不高。而 ds4.c 的赌注是,一次只做一个模型,但做到彻底

坦诚拥抱 AI 辅助开发

ds4.c 的 README 里有一行让很多人意外的声明。

This software is developed with strong assistance from GPT 5.5 and with humans leading the ideas, testing, and debugging. We say this openly because it shaped how the project was built.

曾经最坚持手写代码的 antirez,现在平静地承认,除了图个乐呵,手写代码已经没啥意义了。

AI 接手了重复性劳动,人类专注于架构、调试和验证,这是 antirez 找到的“新创作方式”。

连大牛们都一个一个的拥抱 AI 了,世界真的变了,编程也真的变了。

致敬 llama.cpp

ds4.c 虽然是一个独立项目,但 antirez 在 README 里用了整整一节向 llama.cpp 和 GGML 致谢。

ds4.c does not link against GGML, but it exists thanks to the path opened by the llama.cpp project… We are thankful and indebted to llama.cpp and its contributors.

这种对开源前辈的尊重,也是 antirez 一贯的风格。

尊重和欣赏他人,这种格局不少每个程序员都具备的。

对开发者的启示

大模型本地化的临界点已经到来

一年前,在本地跑一个 284B 参数的模型还是天方夜谭。今天,一台 128GB 的 MacBook Pro 就能以 26 t/s 的速度生成文本。这背后是三个技术趋势的交汇。

  • MoE 架构大幅降低激活参数量
  • 压缩 KV Cache 技术突破内存瓶颈
  • 激进的低位宽量化在质量上变得可接受

完成品思维

ds4.c 提醒我们,在 AI 工具链爆炸的今天,“能跑”和“好用”之间隔着巨大的鸿沟。antirez 选择用“一个模型、一个引擎”的方式,做出了一个开箱即用的完成品,下载、编译、运行,不需要调参、不需要适配。

AI 辅助开发的新范式

antirez 的实践给出了一个范本,人类负责架构设计和测试验证,AI 负责代码实现。这不是“AI 取代程序员”,而是“AI 让程序员回归创造”。

结语

从 2009 年用 C 语言写出 Redis,到 2026 年用 C 语言写出 ds4.c,antirez 的技术品味从未改变,简单、直接、极致。

他曾为了“找回人性”而离开代码世界,如今又因为 AI 让他能“像诗人一样创作”而回归。

ds4.c 或许不会成为最流行的推理引擎,但它代表了一种态度,在技术狂飙的时代,依然有人愿意为一个模型、一种体验,做到尽善尽美

最后,用 antirez 自己说的一句话做个结尾:

This project exists because we wanted to make one local model feel finished end to end, not just runnable.

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » Redis 之父退休 5 年后再开源,Mac 上跑 DeepSeek V4