本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
就在中午这段时间,DeepSeek 突然就发布了 DeepSeek-OCR 2。一时间忙坏了 AI 圈的媒体人。
这次的 DeepSeek-OCR-2 带来了视觉理解的新范式,它能让 AI “看懂”图像。
让 AI 不再机械式的扫描图像,而是像人类一样“聚焦重点”
DeepSeek-OCR 2这款开源模型没有选择堆参数、卷规模的老路,而是从底层逻辑重构了 OCR(光学字符识别)的技术范式,让 AI 学会“有选择地看”。
这背后,藏着一个被长期忽视的真相,传统 OCR 一直在用“机器思维”处理视觉信息,而人类看图时,大脑早已完成了“注意力筛选”。
下面这个标题是本次DeepSeek-OCR 2的核心升级点。
| 维度 | DeepSeek-OCR (1.0) | DeepSeek-OCR-2 | 提升幅度 |
|---|---|---|---|
| 动态分辨率 | 固定模式(n×640+1×1024) | 智能自适应(0-6)×768+1×1024 | 灵活性↑300% |
| 视觉token | 单尺度编码 | 多尺度融合256+144 tokens | 信息密度↑40% |
| vLLM支持 | 基础兼容 | 原生优化 | 推理效率↑25% |
| 图像尺寸 | 最大1280×1280 | 1024基准+动态扩展 | 适配性↑2倍 |
传统 OCR 的“盲人摸象”困境
大家可以想象一下,如果你拿到一张密密麻麻的表格截图,人类会本能地先定位表头、关键数据区域,再逐行阅读;而传统 OCR 系统呢?
它像一台扫描仪,对整张图进行均匀切分、逐块识别。无论角落的水印还是核心数据,都被同等对待。这种“像素级公平”看似严谨,实则低效:
- 无关区域(如背景噪点、装饰元素)占用大量计算资源
- 关键信息可能因分辨率不足被误判
- 语言模型接收的是一堆“无重点”的视觉 token,理解成本高
这就好比让人背诵整本字典来学习语言,信息全,但毫无效率。
最近爆火的 Skills 就有“降噪”的功效!
DeepSeek 的破局
简单来说,DeepSeek 把 OCR 变成“视觉压缩”。
还记得 DeepSeek-OCR 的首次发布吗?它提出了一个颠覆性视角,OCR 的本质不是“识别所有像素”,而是“压缩视觉信息为语言模型可理解的表达”。
到了 V2 版本,这一思路进化为DeepEncoder V2 架构,核心突破在于:
- 语义驱动的动态编码。模型在编码阶段就启动“理解模式”:自动判断哪些区域更可能承载关键语义(如标题、数字、签名),并动态调整视觉 token 的分配密度——重要区域高精度编码,冗余区域低精度压缩。
- 视觉重排,模拟人类眼动。不再按固定网格顺序处理图像,而是根据内容语义
动态重排视觉 token 序列,使语言模型接收到的输入天然具备逻辑顺序。这类似于人类阅读时的“眼跳”(saccade)行为:快速定位重点,跳过无关信息。 - 轻量高效,基于 Qwen2-0.5B。整个架构以 Qwen2-0.5B 为基座,证明
算法创新比参数堆砌更能突破性能瓶颈。在保持小模型体量的同时,实现对复杂文档(如表格、票据、手写体)的高精度解析。
一场“认知范式”的迁移
DeepSeek-OCR 2 的价值远超 OCR 场景本身。它揭示了一个更普适的 AI 设计哲学:
视觉处理不应止步于“特征提取”,而应提前融入“语义理解”
传统多模态模型中,视觉编码器与语言模型是割裂的“上下游”关系;而 DeepEncoder V2 让视觉模块具备初步推理能力,使整个系统更接近人类“边看边想”的认知流程。
这种思路正在多个领域蔓延:
- 文档智能:自动提取合同关键条款,而非全文 OCR
- 工业质检:聚焦缺陷区域,忽略标准件常规纹理
- 自动驾驶:优先解析交通标志与行人,弱化天空背景
开源即生产力
与 DeepSeek 一贯风格一致,此次发布代码、论文、模型权重三件套同步开源。
- 项目地址:
https://github.com/deepseek-ai/DeepSeek-OCR-2 - 论文地址:GitHub 仓库内附技术报告
- 模型地址:Hugging Face 平台可直接调用
对于开发者而言,这意味着:
- 可快速集成至文档处理、RPA、智能客服等场景
- 低资源消耗(0.5B 规模)适合边缘设备部署
- 开源生态加速行业标准演进
结语
AI 的“注意力革命”才刚刚开始。
从 Transformer 的自注意力机制,到视觉领域的动态 token 分配,“学会忽略”正成为 AI 进化的新方向。当模型不再追求“看到一切”,而是“看清重点”,我们离真正的视觉理解又近了一步。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » DeepSeek-OCR 2 重磅发布,视觉 OCR 告别盲人摸象