Claude 发布了新的 PDF 视觉能力,可承担完整行业分析师角色
24-11-04
Anthropic 刚刚在其 Claude 3.5 Sonnet 模型中公开测试版发布了对 PDF 的支持,解锁了分析大型文档中的文本和视觉文档(如图表和图片)的能力。
该系统通过三个阶段处理 PDF 文件——提取文本、将页面转换为图像,并进行组合的视觉 - 文本分析。该模型支持最多 32MB 和 100 页的文档,处理从财务报告到法律文件等各种类型的文档,正如我今天介绍的 CFO 的 AI 同事那样,Claude 对这块的支持,估计会加快这块的普及。
该功能还可以与其他 Claude 功能集成,如提示缓存和批处理。视觉功能既可以通过 Anthropic 的 Claude 平台使用,也可以通过应用程序中的直接 API 访问。
Claude 已经具有处理大型文档的能力,这已经是一个改变游戏规则的功能——但是在其中查看和理解图像将使其提升到一个全新的水平。这一升级将 Claude 转变为更全面的行业分析师,特别适用于医疗保健或金融等行业,在这些行业中,关键信息通常是以视觉形式呈现的。