登录
首页
快讯
邮件订阅
会员专属
Memo AI
联系我们

DeepSeek 推出高效 OCR 系统 “DeepSeek‑OCR”,实现图文压缩处理助力长文档AI应用

25-10-21
免费
快讯

DeepSeek 发布其最新产品 DeepSeek-OCR,这是一款针对图像型文本文件的 OCR(光学字符识别)系统,能够将基于图像的文本压缩约十倍,同时保留约 97% 的原始信息。

该系统主打两大核心能力:其一,把文档(如扫描件、图表、PDF 页面)当作图片处理,通过图像分割(采用 SAM-ViTDet)、图像-文本联结(CLIP ViT)与 16× token 压缩器,将原先一个 1024 × 1024 像素图像转成约 256 个 vision tokens,再交由 DeepSeek-3B MoE 解码处理。

其二,该系统支持超过 100 种语言、涵盖纯文本、图表、化学公式、几何图形等多种文档形式,并且在真实测试中单机使用一块 Nvidia A100 GPU 即可日处理超过 20 万页,若使用 20 台、每台 8 块 A100 则日处理量可达 3300 万页。

从功能上看,DeepSeek-OCR 要解决的是当前 AI 语言模型在处理长文档或海量图像化文本时面临的「token 爆炸」「记忆/计算瓶颈」问题:传统 OCR 系统将每个字符或字词转换为 tokens,模型输入 token 数量急剧上升,而 DeepSeek-OCR 通过图像压缩机制大幅降低 token 数量,将更多计算资源集中于关键语义提取,从而让语言模型能够处理更长、更复杂的文档。

DeepSeek-OCR 的推出,标志着该公司正在从单纯的语言模型研发,向更广泛的文档理解、图像-文本混合处理方向延伸,也意味着其希望在「长篇文档+图形化内容」的 AI 应用场景中抢占先机。未来如果该系统能够商业化、规模化部署(如政务、金融、科研、档案数字化领域),将有可能为 DeepSeek 带来新的营收增长点。整体而言,DeepSeek-OCR 是一款聚焦于图像型文本压缩识别、面向长文档场景优化的产品,其背后的公司 DeepSeek 值得持续观察。

 

Memo Newsletter

订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号

最顶尖的 AI 行业创业者和投资人都在看

Subscribe
头像
Memo Team
Signal, not noise!
最新快讯