DeepSeek 推出高效 OCR 系统 “DeepSeek‑OCR”，实现图文压缩处理助力长文档AI应用

25-10-21

免费

快讯

DeepSeek 发布其最新产品 DeepSeek-OCR，这是一款针对图像型文本文件的 OCR（光学字符识别）系统，能够将基于图像的文本压缩约十倍，同时保留约 97% 的原始信息。

该系统主打两大核心能力：其一，把文档（如扫描件、图表、PDF 页面）当作图片处理，通过图像分割（采用 SAM-ViTDet）、图像-文本联结（CLIP ViT）与 16× token 压缩器，将原先一个 1024 × 1024 像素图像转成约 256 个 vision tokens，再交由 DeepSeek-3B MoE 解码处理。

其二，该系统支持超过 100 种语言、涵盖纯文本、图表、化学公式、几何图形等多种文档形式，并且在真实测试中单机使用一块 Nvidia A100 GPU 即可日处理超过 20 万页，若使用 20 台、每台 8 块 A100 则日处理量可达 3300 万页。

从功能上看，DeepSeek-OCR 要解决的是当前 AI 语言模型在处理长文档或海量图像化文本时面临的「token 爆炸」「记忆/计算瓶颈」问题：传统 OCR 系统将每个字符或字词转换为 tokens，模型输入 token 数量急剧上升，而 DeepSeek-OCR 通过图像压缩机制大幅降低 token 数量，将更多计算资源集中于关键语义提取，从而让语言模型能够处理更长、更复杂的文档。

DeepSeek-OCR 的推出，标志着该公司正在从单纯的语言模型研发，向更广泛的文档理解、图像-文本混合处理方向延伸，也意味着其希望在「长篇文档＋图形化内容」的 AI 应用场景中抢占先机。未来如果该系统能够商业化、规模化部署（如政务、金融、科研、档案数字化领域），将有可能为 DeepSeek 带来新的营收增长点。整体而言，DeepSeek-OCR 是一款聚焦于图像型文本压缩识别、面向长文档场景优化的产品，其背后的公司 DeepSeek 值得持续观察。

Memo Team

Signal, not noise!

DeepSeek 推出高效 OCR 系统 “DeepSeek‑OCR”，实现图文压缩处理助力长文档AI应用

Memo Newsletter